%0 Thesis %9 Masters %A Muh Nur Aslam, NIM.: 23206051031 %B FAKULTAS SAINS DAN TEKNOLOGI %D 2025 %F digilib:73934 %I UIN SUNAN KALIJAGA YOGYAKARTA %K Large Language Models (LLMs) Parameter Kecil, Code Generation, Fine-tuning, Metrik Fungsional (pass@k), Metrik Sintaktik %P 178 %T EVALUASI DAN PERBANDINGAN KINERJA MODEL BAHASA BESAR BERPARAMETER KECIL DALAM MEMBUAT KODE PYTHON SECARA OTOMATIS %U https://digilib.uin-suka.ac.id/id/eprint/73934/ %X Large Language Models (LLMs) dengan parameter kecil seperti CodeGemma-2B, Qwen2.5-1.5B-Instruct, dan LLaMA-3.2-1B telah menunjukkan potensi dalam tugas code generation. Namun, belum ada studi yang secara khusus membandingkan kinerja model-model tersebut berdasarkan metrik berbasis sintaktik maupun fungsional. Oleh karena itu, penelitian ini bertujuan untuk mengevaluasi dan membandingkan kinerja base model sebelum dan setelah fine-tuning menggunakan metrik fungsional pass@k serta metrik berbasis sintaktik seperti BLEU, ROUGE, ChrF, Exact Match, dan Levenshtein Distance. Metodologi penelitian ini bersifat deskriptif komparatif dengan pendekatan kuantitatif empiris. Pengumpulan data dilakukan secara eksperimental dengan menggunakan dataset Evol-Instruct untuk finetuning dan HumanEval untuk evaluasi. Hasil penelitian menunjukkan bahwa fine-tuning secara signifikan meningkatkan performa fungsional model berdasarkan metrik pass@k. Berdasarkan metode Chen, pass@1 CodeGemma-2B meningkat dari 0,057 (base model - FM) menjadi 0,186 (fine-tuned - FT), Qwen2.5 meningkat dari 0,456 (FM) menjadi 0,567 (FT), dan LLaMA-3.2 meningkat dari 0,815 (FM) menjadi 0,844 (FT). Peningkatan serupa terjadi pada pass@5, pass@10, dan pass@100, dengan kenaikan yang lebih signifikan terutama pada CodeGemma-2B. Sementara itu, hasil evaluasi menggunakan metode Kulal menunjukkan peningkatan yang lebih tinggi, terutama pada CodeGemma-2B, yang mengalami kenaikan dari 0,463 (FM) menjadi 0,878 (FT) pada pass@1. Qwen2.5 mencapai skor pass@1 sebesar 1.0 setelah fine-tuning, sementara LLaMA-3.2 telah mencapai performa optimal dengan skor 1.0 sejak awal. Namun, analisis metrik sintaktik menunjukkan hasil yang beragam. BLEU dan ROUGE mengalami sedikit penurunan pada ketiga model setelah fine-tuning, sementara ChrF menunjukkan peningkatan kecil pada CodeGemma-2B (dari 21,0 menjadi 22,2) dan Qwen2.5 (dari 23,11 menjadi 23,17). Exact Match tetap 0,0 untuk semua model, sedangkan Levenshtein Distance meningkat pada CodeGemma-2B (dari 102 menjadi 126) serta Qwen2.5 (dari 135 menjadi 131), mengindikasikan bahwa fine-tuning tidak secara konsisten meningkatkan kesamaan sintaktik. Selain itu, hasil uji Wilcoxon Signed-Rank Test dan analisis median-percentile menunjukkan bahwa fine-tuning tidak secara signifikan meningkatkan efisiensi waktu eksekusi model. Meskipun CodeGemma-2B dan LLaMA-3.2 menunjukkan sedikit peningkatan, Qwen2.5 justru VII mengalami penurunan pada nilai median dan percentile 75%. Temuan ini mengindikasikan bahwa fine-tuning efektif dalam meningkatkan akurasi fungsional, tetapi belum tentu meningkatkan kesamaan sintaktik atau efisiensi waktu eksekusi. Penelitian ini memberikan kontribusi penting dalam memahami dampak fine-tuning terhadap model LLM dengan parameter kecil, khususnya dalam konteks code generation. %Z Dr. Agung Fatwanto, S.Si., M.Kom.