Implementasi Arsitektur Transformer Pada Image Captioning Dengan Bahasa Indonesia
Abstract
Penelitian image captioning untuk menghasilkan deskripsi yang baik pada gambar dalam
Bahasa Inggris banyak dilakukan. Sedikit penelitian yang ditemukan mengenai image
captioning untuk menghasilkan deskripsi gambar dalam Bahasa Indonesia. Penelitian dengan
Bahasa Indonesia semuanya menggunakan model sequence-to-sequence dan attention
mechanism. Kedua model telah memberikan hasil yang baik namun terdapat kekurangan yang
krusial. Model seq2seq memberikan performa yang buruk saat berhadapan dengan kalimat
panjang sedangkan attention mechanism memakan banyak resource karena mengandalkan
RNN. Terinspirasi oleh keberhasilan arsitektur Transformer dalam machine translation,
penelitian ini akan berfokus dalam mengembangkan arsitektur Transformer untuk
diimplementasikan pada image captioning Bahasa Indonesia. Dibandingkan penelitian image
captioning Bahasa Indonesia yang sudah ada, arsitektur Transformer bisa melakukan
komputasi paralel sehingga mampu mengakselerasi proses training karena Transformer hanya
menggunakan attention mechanism tanpa mengandalkan RNN. Penelitian ini menggunakan
dataset MS COCO 2014 yang sudah diterjemahkan ke dalam Bahasa Indonesia. Penelitian ini
mendapatkan skor rata-rata BLEU-{1,2,3,4} sebesar {78.05, 68.21, 61.89, 52.09}, skor
tersebut menunjukkan bahwa arsitektur Transformer melampaui hasil matrik evaluasi BLEU
yang didapatkan oleh kedua model sebelumnya secara signifikan.
Collections
- Informatics Engineering [2170]