@phdthesis{digilib40461, month = {May}, title = {K-MEANS CLUSTERING DAN NA{\"I}VE BAYES CLASSIFIER UNTUK KATEGORISASI DOKUMEN TUGAS AKHIR (Studi Kasus : Skripsi S1 Teknik Informatika UIN Sunan Kalijaga Yogyakarta)}, school = {UIN Sunan Kalijaga}, author = {15650011 Diniati Ruaika}, year = {2019}, note = {Agung Fatwanto, Ph.D.,}, keywords = {Kata kunci : K-Means Clustering, Na{\"i}ve Bayes Classifier, silhouette coefficient confusion matrix, Computing Curricula 2005}, url = {https://digilib.uin-suka.ac.id/id/eprint/40461/}, abstract = {Dalam dunia teknologi informasi, banyak sekali topik yang dapat diangkat menjadi tema skripsi. Sayangnya, tidak jarang mahasiswa mengambil tema skripsi yang sama dengan tema skripsi mahasiswa angkatan sebelumnya. Karena memiliki kesamaan tema, akhirnya muncullah judul-judul skripsi yang hampir mirip. Hal ini membuat penelitian di kalangan mahasiswa tidak berkembang dengan cepat (Mustikasari, 2017). Oleh karena itu, perlu adanya pengkategorisasian tema skripsi mahasiswa S1 Teknik Informatika UIN Sunan Kalijaga secara otomatis untuk mengetahui hasil kemiripan dan keterkaitan antar dokumen skripsi. Pengkategorisasian dokumen tugas akhir mahasiswa S1 Teknik Informatika UIN Sunan Kalijaga secara otomatis dilakukan dengan menggunakan 2 teknik yaitu clustering dan classification . Metode clustering yang digunakan adalah K-Means Clustering yang bertujuan untuk mencari jumlah cluster terbaik sedangkan metode classification menggunakan metode Na{\"i}ve Bayes Classifier yang bertujuan untuk mencari accuracy, precision, dan recall terbaik. Pada classification dilakukan pelabelan manual yang didasarkan pada ACM (Association for Computing Machinery) Computing Curricula 2005. Dokumen skripsi yang digunakan adalah intisari tugas akhir (skripsi) mahasiswa Teknik Informatika UIN Sunan Kalijaga dari tahun 2010 sampai dengan 2018 sebanyak 493 data. Berdasarkan penelitian yang telah dilakukan pada proses clustering dengan penentuan jumlah cluster 2,3,4,5,6 dan 7 mendapatkan jumlah cluster terbaik yaitu sebanyak 3 cluster dengan rata-rata silhouette coefficient sebesar 0.0663662495824928. Pada proses classification dengan penentuan pembagian data antara data latih dan data uji yaitu 7:3 , 8:2 dan 9:1 mengasilkan tingkat accuracy tertinggi dengan perbandingan 9:1 sebesar 78\%, precision 75\% dan recall 78\% menggunakan confusion matrix. Namun demikian, prosentase yang dihasilkan belum bisa mencapai accuracy, precision, dan recall lebih dari 90\%. Selain itu, perolehan prosentase terbaik tersebut hanya menggunakan data uji sebesar 10\% dari keseluruhan data. Sehingga, penggunaan metode Na{\"i}ve Bayes Classifier untuk melakukan klasifikasi tugas akhir S1 Teknik Informatika UIN Sunan Kalijaga belum bisa dikatakan baik dan optimal. Kata kunci : K-Means Clustering, Na{\"i}ve Bayes Classifier, silhouette coefficient confusion matrix, Computing Curricula 2005} }