Pemahaman Visual Di Dalam Ruangan Dengan Image Captioning Berbasis Transformer

ROYAN ABIDA NUR NAYOAN

View/Open

20917031.pdf (7.159Mb)

Date

2022-07

Author

ROYAN ABIDA NUR NAYOAN

Metadata

Show full item record

Abstract

Model enkoder-dekoder telah menjadi model standar untuk digunakan sebagai framework untuk menyelesaikan masalah image captioning dengan CNN sebagai enkoder dan RNN sebagai dekoder. Namun RNN memiliki kekurangan dalam dependensi jangka panjang dalam jaringannya dan menyebabkan RNN kesulitan dalam mengingat urutan panjang yang kemudian diperbaiki dengan munculnya Transformer dengan mekanisme attention. Transformer telah banyak digunakan dalam tugas image captioning pada dataset berbahasa Inggris seperti MSCOCO dan Flickr. Namun begitu, penelitian terkait image captioning dengan Bahasa Indonesia masih sedikit dan menggunakan penerjemah untuk mendapatkan dataset berbahasa Indonesia. Pada penelitian ini, digunakan model Transformer untuk memprediksi deskripsi gambar pada dataset modifikasi MSCOCO dan Flickr berbahasa Indonesia untuk mendapatkan pemahaman visual di dalam ruangan. Dataset yang digunakan merupakan dataset yang telah dimodifikasi dengan membuat captions menjadi captions baru Berbahasa Indonesia dengan menuliskan deskripsi yang mengandung nama objek, warna, posisi/lokasi (sudut pandang pengguna), karakteristik, dan objek sekitarnya. Dilakukan eksperimen dengan menggunakan varian model pre-trained CNN untuk mendapatkan fitur gambar sebelum dilanjutkan pada model Transformer. Kemudian dilakukan pengaturan hyperparameter pada model dengan mengubah ukuran batch, dropout, dan attention heads untuk mendapatkan model terbaik. Matriks evaluasi yang digunakan yakni BLEU-n, METEOR, CIDEr, dan ROUGE-L untuk mengevaluasi model. Dari penelitian ini, didapatkan model dengan memanfaatkan fitur ekstraktor IncepResNetV2 yang memiliki ukuran batch dengan nilai 128, dropout dengan nilai 0.1, dan attention heads dengan nilai 4 mampu mendapatkan skor terbaik di semua matriks evaluasi. Model IncepResNetV2 mendapatkan skor tertinggi pada BLEU-1 dengan skor 0.6971, BLEU-2 dengan skor 0.5246, BLEU-3 dengan skor 0.3921, BLEU-4 dengan skor 0.2831, METEOR dengan skor 0.2468, CIDEr dengan skor 0.4801, dan ROUGE-L dengan skor 0.5114.

URI

https://dspace.uii.ac.id/handle/123456789/39968

Collections

Master of Informatics Engineering [293]