relation: https://digilib.uin-suka.ac.id/id/eprint/63479/ title: ANALISIS KOMPARASI PEMODELAN TOPIK METODE LATENT DIRICHLET ALLOCATION (LDA) DAN BERTOPIC PADA BERITA BERBAHASA INDONESIA creator: Ahmad Dwi Yanuara Nugroho, NIM.: 19106050025 subject: Tehnik Informatika description: Pemodelan topik adalah teknik analisis teks yang dapat menemukan struktur topik tersembunyi dalam korpus. Teknik ini berguna untuk pelabelan otomatis pada himpunan data teks untuk klasifikasi atau untuk meningkatkan relevansi dari mesin pencari. Metode pemodelan topik awal dan masih populer hingga saat ini adalah Latent Dirichlet Allocation (LDA). Walaupun saat ini terdapat metode modern populer seperti BERTopic, namun LDA masih lebih populer digunakan dalam literatur Indonesia. Oleh karena itu diperlukan penelitian komparasi LDA dan BERTopic untuk mengetahui metode mana yang lebih efektif untuk teks berbahasa Indonesia dari segi nilai koherensi, nilai keberagaman, dan waktu pelatihan. Penelitian ini bertujuan untuk membandingkan LDA dan BERTopic dalam memodelkan topik pada korpus berbahasa Indonesia. Korpus yang digunakan adalah 7.836 artikel berita dari situs Tempo pada bulan Desember 2022 yang kemudian diolah dengan prapemrosesan yang berbeda-beda. Prapemrosesan menghasilkan 6 jenis korpus untuk tiap metode. Kemudian tiap korpus dimodelkan topiknya dan diukur kinerjanya berdasarkan nilai koherensi, nilai keberagaman, dan waktu. Proses pemodelan topik dan pengukuran ini dilakukan 5 kali untuk tiap korpus dan diambil rata-ratanya. Metode BERTopic memiliki kinerja tinggi pada metrik koherensi dan keberagaman baik dengan atau tanpa prapemrosesan. Sedangkan pada metrik waktu metode LDA memberikan waktu pelatihan dan evaluasi tercepat. Jadi pada metrik koherensi pertimbangan metode terbaik adalah BERTopic, pada metrik waktu pertimbangan metode terbaik adalah LDA, sedangkan pada metrik keberagaman kedua metode dapat dipertimbangkan namun untuk metode LDA harus menggunakan korpus dengan dokumen pendek dan prapemrosesan lemmatisasi, stopword, dan ngram. Terakhir, model BERTopic dengan prapemrosesan stopword dan ngram menghasilkan kinerja yang relatif baik pada ketiga metrik dengan proses pembuatan model yang paling mudah. date: 2023-12-13 type: Thesis type: NonPeerReviewed format: text language: id identifier: https://digilib.uin-suka.ac.id/id/eprint/63479/1/19106050025_BAB-I_IV-atau-V_DAFTAR-PUSTAKA.pdf format: text language: id identifier: https://digilib.uin-suka.ac.id/id/eprint/63479/2/19106050025_BAB-II_sampai_SEBELUM-BAB-TERAKHIR.pdf identifier: Ahmad Dwi Yanuara Nugroho, NIM.: 19106050025 (2023) ANALISIS KOMPARASI PEMODELAN TOPIK METODE LATENT DIRICHLET ALLOCATION (LDA) DAN BERTOPIC PADA BERITA BERBAHASA INDONESIA. Skripsi thesis, UIN SUNAN KALIJAGA YOGYAKARTA.