Pemahaman Visual Di Dalam Ruangan Dengan Image Captioning Berbasis Transformer
Abstract
Model enkoder-dekoder telah menjadi model standar untuk digunakan sebagai framework
untuk menyelesaikan masalah image captioning dengan CNN sebagai enkoder dan RNN
sebagai dekoder. Namun RNN memiliki kekurangan dalam dependensi jangka panjang
dalam jaringannya dan menyebabkan RNN kesulitan dalam mengingat urutan panjang yang
kemudian diperbaiki dengan munculnya Transformer dengan mekanisme attention.
Transformer telah banyak digunakan dalam tugas image captioning pada dataset berbahasa
Inggris seperti MSCOCO dan Flickr. Namun begitu, penelitian terkait image captioning
dengan Bahasa Indonesia masih sedikit dan menggunakan penerjemah untuk mendapatkan
dataset berbahasa Indonesia. Pada penelitian ini, digunakan model Transformer untuk
memprediksi deskripsi gambar pada dataset modifikasi MSCOCO dan Flickr berbahasa
Indonesia untuk mendapatkan pemahaman visual di dalam ruangan. Dataset yang digunakan
merupakan dataset yang telah dimodifikasi dengan membuat captions menjadi captions baru
Berbahasa Indonesia dengan menuliskan deskripsi yang mengandung nama objek, warna,
posisi/lokasi (sudut pandang pengguna), karakteristik, dan objek sekitarnya. Dilakukan
eksperimen dengan menggunakan varian model pre-trained CNN untuk mendapatkan fitur
gambar sebelum dilanjutkan pada model Transformer. Kemudian dilakukan pengaturan
hyperparameter pada model dengan mengubah ukuran batch, dropout, dan attention heads
untuk mendapatkan model terbaik. Matriks evaluasi yang digunakan yakni BLEU-n,
METEOR, CIDEr, dan ROUGE-L untuk mengevaluasi model. Dari penelitian ini,
didapatkan model dengan memanfaatkan fitur ekstraktor IncepResNetV2 yang memiliki
ukuran batch dengan nilai 128, dropout dengan nilai 0.1, dan attention heads dengan nilai 4
mampu mendapatkan skor terbaik di semua matriks evaluasi. Model IncepResNetV2
mendapatkan skor tertinggi pada BLEU-1 dengan skor 0.6971, BLEU-2 dengan skor 0.5246,
BLEU-3 dengan skor 0.3921, BLEU-4 dengan skor 0.2831, METEOR dengan skor 0.2468,
CIDEr dengan skor 0.4801, dan ROUGE-L dengan skor 0.5114.