CLUSTERING KELUHAN KOTA BANDUNG DENGAN MEMANFAATKAN DATA TWITTER MENGGUNAKAN ALGORITMA K-MEANS

Twitter memiliki data yang besar dan mudah didapatkan yang dapat dimanfaatkan untuk menambang informasi. Banyak peneliti yang menggunakan Twitter untuk mengambil pesan pendek (tweet) karena memiliki pengguna yang bervariasi dan jumlah data yang banyak. Salah satu pemanfaatan data Twitter tersebut ad...

Full description

Saved in:
Bibliographic Details
Main Author: Gunawan, Tommy Putra Pratama (Author)
Format: Academic Paper
Published: 2016-12-23.
Subjects:
Online Access:http://repository.upi.edu/28517/
Tags: Add Tag
No Tags, Be the first to tag this record!
LEADER 04522 am a22003133u 4500
001 repoupi_28517
042 |a dc 
100 1 0 |a Gunawan, Tommy Putra Pratama  |e author 
245 0 0 |a CLUSTERING KELUHAN KOTA BANDUNG DENGAN MEMANFAATKAN DATA TWITTER MENGGUNAKAN ALGORITMA K-MEANS 
260 |c 2016-12-23. 
500 |a http://repository.upi.edu/28517/1/S_IKOM_1203588_Title.pdf 
500 |a http://repository.upi.edu/28517/2/S_IKOM_1203588_Abstract.pdf 
500 |a http://repository.upi.edu/28517/3/S_IKOM_1203588_Table_of_content.pdf 
500 |a http://repository.upi.edu/28517/4/S_IKOM_1203588_Chapter1.pdf 
500 |a http://repository.upi.edu/28517/5/S_IKOM_1203588_Chapter2.pdf 
500 |a http://repository.upi.edu/28517/6/S_IKOM_1203588_Chapter3.pdf 
500 |a http://repository.upi.edu/28517/7/S_IKOM_1203588_Chapter4.pdf 
500 |a http://repository.upi.edu/28517/8/S_IKOM_1203588_Chapter5.pdf 
500 |a http://repository.upi.edu/28517/9/S_IKOM_1203588_Bibliography.pdf 
500 |a http://repository.upi.edu/28517/10/S_IKOM_1203588_Appendix.pdf 
520 |a Twitter memiliki data yang besar dan mudah didapatkan yang dapat dimanfaatkan untuk menambang informasi. Banyak peneliti yang menggunakan Twitter untuk mengambil pesan pendek (tweet) karena memiliki pengguna yang bervariasi dan jumlah data yang banyak. Salah satu pemanfaatan data Twitter tersebut adalah sistem clustering keluhan yang ada di kota Bandung. Tweet mengenai keluhan kota Bandung akan dikelompokkan berdasarkan kemiripannya sehingga lebih memudahkan pengguna untuk melihat kumpulan keluhan yang sama beserta jumlahnya. Pada tahap awal, tweet akan dipraproses agar dapat diolah di proses klasifikasi dan clustering. Selanjutnya, tweet akan dipilah berdasarkan kelas keluhan dan bukan keluhan menggunakan algoritma kNN untuk menunjang tahap praproses. Untuk tweet pada kelas keluhan akan diolah pada proses clustering menggunakan algoritma kMeans agar menghasilkan kelompok keluhan yang terbentuk. Pada proses clustering, tweet akan diolah sesuai kategori keluhan yaitu bukan macet dan macet serta berdasarkan rentang tweet diterbitkan yaitu per minggu dan per bulan. Pada proses klasifikasi didapatkan akurasi tertinggi sebesar 75,06% pada k=1. Sedangkan pada proses clustering, pada rentang waktu per minggu, data keluhan bukan macet menghasilkan purity tertinggi sebesar 0,8064 pada k=6. Sedangkan untuk data keluhan macet menghasilkan purity tertinggi sebesar 0,8464 pada k=13. Sementara itu, pada rentang waktu per bulan, data keluhan bukan macet menghasilkan purity tertinggi sebesar 0,6422 pada k=13. Sedangkan untuk data keluhan macet menghasilkan purity tertinggi sebesar 0,6089 pada k=29.;--- Twitter has a huge data and readily available that can be used to mine information. Many researchers are using Twitter to take a short text (tweet) because it has users are varied and vast amounts of data. One of these is the use of Twitter data clustering existing complaints system in the city of Bandung. Tweet about complaints of Bandung will be grouped by similarity that making it easier for users to see the same set of complaints and their number. In the early stages, will tweet dipraproses to be processed in the process of classification and clustering. Furthermore, the tweet will be sorted by class 'complaint' and 'not a complaint' using kNN algorithm to support the preprocessing stage. For tweet on the class 'complaint' will be processed in k-Means clustering algorithm to produce a group complaint form. In the process of clustering, the tweet will be processed according to the category of 'non-traffic jam complaint' and 'traffic jam complaint', and under a range of published tweets are per week and per month. In the classification process obtained the highest accuracy of 75.06% at k = 1. While in the process of clustering, in the span of a week, 'non-traffic jam complaint' produce the highest purity of 0.8064 at k = 6. As for the 'traffic jam complaint' produce the highest purity of 0.8464 at k = 13. Meanwhile, in the span of a month, the data 'non-traffic jam complaint' produce the highest purity of 0.6422 at k = 13. As for the 'traffic jam complaint' produce the highest purity of 0.6089 at k = 29. 
546 |a en 
690 |a Q Science (General) 
690 |a T Technology (General) 
655 7 |a Thesis  |2 local 
655 7 |a NonPeerReviewed  |2 local 
787 0 |n http://repository.upi.edu/28517/ 
787 0 |n http://www.repository.upi.edu 
856 4 1 |u http://repository.upi.edu/28517/