@phdthesis{digilib40461,
           month = {May},
           title = {K-MEANS CLUSTERING DAN NA{\"I}VE BAYES CLASSIFIER
UNTUK KATEGORISASI DOKUMEN TUGAS AKHIR
(Studi Kasus : Skripsi S1 Teknik Informatika UIN Sunan Kalijaga
Yogyakarta)},
          school = {UIN Sunan Kalijaga},
          author = {15650011 Diniati Ruaika},
            year = {2019},
            note = {Agung Fatwanto, Ph.D.,},
        keywords = {Kata kunci : K-Means Clustering, Na{\"i}ve Bayes Classifier, silhouette coefficient
confusion matrix, Computing Curricula 2005},
             url = {https://digilib.uin-suka.ac.id/id/eprint/40461/},
        abstract = {Dalam dunia teknologi informasi, banyak sekali topik yang dapat diangkat menjadi
tema skripsi. Sayangnya, tidak jarang mahasiswa mengambil tema skripsi yang sama
dengan tema skripsi mahasiswa angkatan sebelumnya. Karena memiliki kesamaan tema,
akhirnya muncullah judul-judul skripsi yang hampir mirip. Hal ini membuat penelitian di
kalangan mahasiswa tidak berkembang dengan cepat (Mustikasari, 2017). Oleh karena itu,
perlu adanya pengkategorisasian tema skripsi mahasiswa S1 Teknik Informatika UIN
Sunan Kalijaga secara otomatis untuk mengetahui hasil kemiripan dan keterkaitan antar
dokumen skripsi.
Pengkategorisasian dokumen tugas akhir mahasiswa S1 Teknik Informatika UIN
Sunan Kalijaga secara otomatis dilakukan dengan menggunakan 2 teknik yaitu clustering
dan classification . Metode clustering yang digunakan adalah K-Means Clustering yang
bertujuan untuk mencari jumlah cluster terbaik sedangkan metode classification
menggunakan metode Na{\"i}ve Bayes Classifier yang bertujuan untuk mencari accuracy,
precision, dan recall terbaik. Pada classification dilakukan pelabelan manual yang
didasarkan pada ACM (Association for Computing Machinery) Computing Curricula
2005. Dokumen skripsi yang digunakan adalah intisari tugas akhir (skripsi) mahasiswa
Teknik Informatika UIN Sunan Kalijaga dari tahun 2010 sampai dengan 2018 sebanyak
493 data.
Berdasarkan penelitian yang telah dilakukan pada proses clustering dengan penentuan
jumlah cluster 2,3,4,5,6 dan 7 mendapatkan jumlah cluster terbaik yaitu sebanyak 3 cluster
dengan rata-rata silhouette coefficient sebesar 0.0663662495824928. Pada proses
classification dengan penentuan pembagian data antara data latih dan data uji yaitu 7:3 ,
8:2 dan 9:1 mengasilkan tingkat accuracy tertinggi dengan perbandingan 9:1 sebesar 78\%,
precision 75\% dan recall 78\% menggunakan confusion matrix. Namun demikian,
prosentase yang dihasilkan belum bisa mencapai accuracy, precision, dan recall lebih dari
90\%. Selain itu, perolehan prosentase terbaik tersebut hanya menggunakan data uji sebesar
10\% dari keseluruhan data. Sehingga, penggunaan metode Na{\"i}ve Bayes Classifier untuk
melakukan klasifikasi tugas akhir S1 Teknik Informatika UIN Sunan Kalijaga belum bisa
dikatakan baik dan optimal.
Kata kunci : K-Means Clustering, Na{\"i}ve Bayes Classifier, silhouette coefficient
confusion matrix, Computing Curricula 2005}
}