ANALISIS KOMPARASI PEMODELAN TOPIK METODE LATENT DIRICHLET ALLOCATION (LDA) DAN BERTOPIC PADA BERITA BERBAHASA INDONESIA

Ahmad Dwi Yanuara Nugroho, NIM.: 19106050025 (2023) ANALISIS KOMPARASI PEMODELAN TOPIK METODE LATENT DIRICHLET ALLOCATION (LDA) DAN BERTOPIC PADA BERITA BERBAHASA INDONESIA. Skripsi thesis, UIN SUNAN KALIJAGA YOGYAKARTA.

[img]
Preview
Text (ANALISIS KOMPARASI PEMODELAN TOPIK METODE LATENT DIRICHLET ALLOCATION (LDA) DAN BERTOPIC PADA BERITA BERBAHASA INDONESIA)
19106050025_BAB-I_IV-atau-V_DAFTAR-PUSTAKA.pdf - Published Version

Download (2MB) | Preview
[img] Text (ANALISIS KOMPARASI PEMODELAN TOPIK METODE LATENT DIRICHLET ALLOCATION (LDA) DAN BERTOPIC PADA BERITA BERBAHASA INDONESIA)
19106050025_BAB-II_sampai_SEBELUM-BAB-TERAKHIR.pdf
Restricted to Registered users only

Download (5MB) | Request a copy

Abstract

Pemodelan topik adalah teknik analisis teks yang dapat menemukan struktur topik tersembunyi dalam korpus. Teknik ini berguna untuk pelabelan otomatis pada himpunan data teks untuk klasifikasi atau untuk meningkatkan relevansi dari mesin pencari. Metode pemodelan topik awal dan masih populer hingga saat ini adalah Latent Dirichlet Allocation (LDA). Walaupun saat ini terdapat metode modern populer seperti BERTopic, namun LDA masih lebih populer digunakan dalam literatur Indonesia. Oleh karena itu diperlukan penelitian komparasi LDA dan BERTopic untuk mengetahui metode mana yang lebih efektif untuk teks berbahasa Indonesia dari segi nilai koherensi, nilai keberagaman, dan waktu pelatihan. Penelitian ini bertujuan untuk membandingkan LDA dan BERTopic dalam memodelkan topik pada korpus berbahasa Indonesia. Korpus yang digunakan adalah 7.836 artikel berita dari situs Tempo pada bulan Desember 2022 yang kemudian diolah dengan prapemrosesan yang berbeda-beda. Prapemrosesan menghasilkan 6 jenis korpus untuk tiap metode. Kemudian tiap korpus dimodelkan topiknya dan diukur kinerjanya berdasarkan nilai koherensi, nilai keberagaman, dan waktu. Proses pemodelan topik dan pengukuran ini dilakukan 5 kali untuk tiap korpus dan diambil rata-ratanya. Metode BERTopic memiliki kinerja tinggi pada metrik koherensi dan keberagaman baik dengan atau tanpa prapemrosesan. Sedangkan pada metrik waktu metode LDA memberikan waktu pelatihan dan evaluasi tercepat. Jadi pada metrik koherensi pertimbangan metode terbaik adalah BERTopic, pada metrik waktu pertimbangan metode terbaik adalah LDA, sedangkan pada metrik keberagaman kedua metode dapat dipertimbangkan namun untuk metode LDA harus menggunakan korpus dengan dokumen pendek dan prapemrosesan lemmatisasi, stopword, dan ngram. Terakhir, model BERTopic dengan prapemrosesan stopword dan ngram menghasilkan kinerja yang relatif baik pada ketiga metrik dengan proses pembuatan model yang paling mudah.

Item Type: Thesis (Skripsi)
Additional Information: Pembimbing: Prof. Dr. Ir. Shofwatul 'Uyun, S.T., M.Kom., IPM., ASEAN Eng.
Uncontrolled Keywords: topic modeling; BERTopic; news articles; coherence score; diversity score
Subjects: Tehnik Informatika
Divisions: Fakultas Sains dan Teknologi > Teknik Informatika (S1)
Depositing User: Muchti Nurhidaya [muchti.nurhidaya@uin-suka.ac.id]
Date Deposited: 06 Feb 2024 13:51
Last Modified: 06 Feb 2024 13:51
URI: http://digilib.uin-suka.ac.id/id/eprint/63479

Share this knowledge with your friends :

Actions (login required)

View Item View Item
Chat Kak Imum