%0 Thesis
%9 Masters
%A Muh Nur Aslam, NIM.: 23206051031
%B FAKULTAS SAINS DAN TEKNOLOGI
%D 2025
%F digilib:73934
%I UIN SUNAN KALIJAGA YOGYAKARTA
%K Large Language Models (LLMs) Parameter Kecil, Code Generation, Fine-tuning, Metrik Fungsional (pass@k), Metrik Sintaktik
%P 178
%T EVALUASI DAN PERBANDINGAN KINERJA MODEL BAHASA  BESAR BERPARAMETER KECIL DALAM MEMBUAT KODE  PYTHON SECARA OTOMATIS
%U https://digilib.uin-suka.ac.id/id/eprint/73934/
%X Large Language Models (LLMs) dengan parameter kecil seperti  CodeGemma-2B, Qwen2.5-1.5B-Instruct, dan LLaMA-3.2-1B telah  menunjukkan potensi dalam tugas code generation. Namun, belum ada  studi yang secara khusus membandingkan kinerja model-model  tersebut berdasarkan metrik berbasis sintaktik maupun fungsional.  Oleh karena itu, penelitian ini bertujuan untuk mengevaluasi dan  membandingkan kinerja base model sebelum dan setelah fine-tuning  menggunakan metrik fungsional pass@k serta metrik berbasis sintaktik  seperti BLEU, ROUGE, ChrF, Exact Match, dan Levenshtein Distance.  Metodologi penelitian ini bersifat deskriptif komparatif dengan  pendekatan kuantitatif empiris. Pengumpulan data dilakukan secara  eksperimental dengan menggunakan dataset Evol-Instruct untuk finetuning  dan HumanEval untuk evaluasi. Hasil penelitian menunjukkan  bahwa fine-tuning secara signifikan meningkatkan performa  fungsional model berdasarkan metrik pass@k. Berdasarkan metode  Chen, pass@1 CodeGemma-2B meningkat dari 0,057 (base model -  FM) menjadi 0,186 (fine-tuned - FT), Qwen2.5 meningkat dari 0,456  (FM) menjadi 0,567 (FT), dan LLaMA-3.2 meningkat dari 0,815 (FM)  menjadi 0,844 (FT). Peningkatan serupa terjadi pada pass@5, pass@10,  dan pass@100, dengan kenaikan yang lebih signifikan terutama pada  CodeGemma-2B. Sementara itu, hasil evaluasi menggunakan metode  Kulal menunjukkan peningkatan yang lebih tinggi, terutama pada  CodeGemma-2B, yang mengalami kenaikan dari 0,463 (FM) menjadi  0,878 (FT) pada pass@1. Qwen2.5 mencapai skor pass@1 sebesar 1.0  setelah fine-tuning, sementara LLaMA-3.2 telah mencapai performa  optimal dengan skor 1.0 sejak awal. Namun, analisis metrik sintaktik  menunjukkan hasil yang beragam. BLEU dan ROUGE mengalami  sedikit penurunan pada ketiga model setelah fine-tuning, sementara  ChrF menunjukkan peningkatan kecil pada CodeGemma-2B (dari 21,0  menjadi 22,2) dan Qwen2.5 (dari 23,11 menjadi 23,17). Exact Match  tetap 0,0 untuk semua model, sedangkan Levenshtein Distance  meningkat pada CodeGemma-2B (dari 102 menjadi 126) serta  Qwen2.5 (dari 135 menjadi 131), mengindikasikan bahwa fine-tuning  tidak secara konsisten meningkatkan kesamaan sintaktik. Selain itu,  hasil uji Wilcoxon Signed-Rank Test dan analisis median-percentile  menunjukkan bahwa fine-tuning tidak secara signifikan meningkatkan  efisiensi waktu eksekusi model. Meskipun CodeGemma-2B dan  LLaMA-3.2 menunjukkan sedikit peningkatan, Qwen2.5 justru  VII  mengalami penurunan pada nilai median dan percentile 75%. Temuan  ini mengindikasikan bahwa fine-tuning efektif dalam meningkatkan  akurasi fungsional, tetapi belum tentu meningkatkan kesamaan  sintaktik atau efisiensi waktu eksekusi. Penelitian ini memberikan  kontribusi penting dalam memahami dampak fine-tuning terhadap  model LLM dengan parameter kecil, khususnya dalam konteks code  generation.
%Z Dr. Agung Fatwanto, S.Si., M.Kom.