eprintid: 63479 rev_number: 10 eprint_status: archive userid: 12243 dir: disk0/00/06/34/79 datestamp: 2024-02-06 06:51:46 lastmod: 2024-02-06 06:51:46 status_changed: 2024-02-06 06:51:46 type: thesis metadata_visibility: show contact_email: muchti.nurhidaya@uin-suka.ac.id creators_name: Ahmad Dwi Yanuara Nugroho, NIM.: 19106050025 title: ANALISIS KOMPARASI PEMODELAN TOPIK METODE LATENT DIRICHLET ALLOCATION (LDA) DAN BERTOPIC PADA BERITA BERBAHASA INDONESIA ispublished: pub subjects: TB divisions: jur_tinf full_text_status: restricted keywords: topic modeling; BERTopic; news articles; coherence score; diversity score note: Pembimbing: Prof. Dr. Ir. Shofwatul 'Uyun, S.T., M.Kom., IPM., ASEAN Eng. abstract: Pemodelan topik adalah teknik analisis teks yang dapat menemukan struktur topik tersembunyi dalam korpus. Teknik ini berguna untuk pelabelan otomatis pada himpunan data teks untuk klasifikasi atau untuk meningkatkan relevansi dari mesin pencari. Metode pemodelan topik awal dan masih populer hingga saat ini adalah Latent Dirichlet Allocation (LDA). Walaupun saat ini terdapat metode modern populer seperti BERTopic, namun LDA masih lebih populer digunakan dalam literatur Indonesia. Oleh karena itu diperlukan penelitian komparasi LDA dan BERTopic untuk mengetahui metode mana yang lebih efektif untuk teks berbahasa Indonesia dari segi nilai koherensi, nilai keberagaman, dan waktu pelatihan. Penelitian ini bertujuan untuk membandingkan LDA dan BERTopic dalam memodelkan topik pada korpus berbahasa Indonesia. Korpus yang digunakan adalah 7.836 artikel berita dari situs Tempo pada bulan Desember 2022 yang kemudian diolah dengan prapemrosesan yang berbeda-beda. Prapemrosesan menghasilkan 6 jenis korpus untuk tiap metode. Kemudian tiap korpus dimodelkan topiknya dan diukur kinerjanya berdasarkan nilai koherensi, nilai keberagaman, dan waktu. Proses pemodelan topik dan pengukuran ini dilakukan 5 kali untuk tiap korpus dan diambil rata-ratanya. Metode BERTopic memiliki kinerja tinggi pada metrik koherensi dan keberagaman baik dengan atau tanpa prapemrosesan. Sedangkan pada metrik waktu metode LDA memberikan waktu pelatihan dan evaluasi tercepat. Jadi pada metrik koherensi pertimbangan metode terbaik adalah BERTopic, pada metrik waktu pertimbangan metode terbaik adalah LDA, sedangkan pada metrik keberagaman kedua metode dapat dipertimbangkan namun untuk metode LDA harus menggunakan korpus dengan dokumen pendek dan prapemrosesan lemmatisasi, stopword, dan ngram. Terakhir, model BERTopic dengan prapemrosesan stopword dan ngram menghasilkan kinerja yang relatif baik pada ketiga metrik dengan proses pembuatan model yang paling mudah. date: 2023-12-13 date_type: published pages: 122 institution: UIN SUNAN KALIJAGA YOGYAKARTA department: FAKULTAS SAINS DAN TEKNOLOGI thesis_type: skripsi thesis_name: other citation: Ahmad Dwi Yanuara Nugroho, NIM.: 19106050025 (2023) ANALISIS KOMPARASI PEMODELAN TOPIK METODE LATENT DIRICHLET ALLOCATION (LDA) DAN BERTOPIC PADA BERITA BERBAHASA INDONESIA. Skripsi thesis, UIN SUNAN KALIJAGA YOGYAKARTA. document_url: https://digilib.uin-suka.ac.id/id/eprint/63479/1/19106050025_BAB-I_IV-atau-V_DAFTAR-PUSTAKA.pdf document_url: https://digilib.uin-suka.ac.id/id/eprint/63479/2/19106050025_BAB-II_sampai_SEBELUM-BAB-TERAKHIR.pdf