Named Entity Recognition Untuk Data Review Tempat Wisata Dengan Metode “Bidirectional Encoder Representations From Transformers”
Abstract
Negara Indonesia merupakan negara yang menjadi salah satu tujuan wisata, biasanya
wisatawan ketika akan mengunjungi tempat wisata akan mencari informasi terlebih dahulu.
Informasi tersebut sangat lah penting untuk calon wisatawan, tetapi dengan adanya banyak
sekali review tempat wisata akan memperlambat informasi yang ingin diketahui oleh calon
wisatawan, sehingga tidak dapat langsung menemukan informasi yang diinginkan.
Named Entity Recognition (NER) dapat digunakan untuk membantu menemukan
informasi penting yang dibutuhkan dengan mendeteksi entitas yang terdapat dalam suatu teks.
Tujuan dari penelitian ini adalah membangun model NER yang berguna untuk membantu
mengidentifikasi informasi pada review tempat wisata, dan mengetahui parameter terbaik yang
digunakan dalam membangun model, serta mengetahui performa model yang dibangun. Dalam
penelitian ini, terdapat 7723 review tempat wisata dari beberapa tempat wisata yang berada di
Indonesia. Kumpulan review tersebut dipecah menjadi 207.993 token kata. Kemudian katakata
yang telah dipecah akan diberi label entitas sesuai dengan kategori, beberapa kategori
yaitu nama tempat wisata, nama lokasi, fasilitas, dan suasana. Selain dari kategori tersebut akan
diberi label O yang berarti outside.
Dalam proses membangun model NER ada beberapa langkah untuk mencapai tujuan
penelitian ini, yaitu mengumpulkan dataset, ekstraksi fitur dengan word embedding yaitu
WordPiece, pemodelan NER, evaluasi dan deteksi entitas. Dalam penelitian ini menggunakan
metode Bidirectional Encoder Representations from Transformer (BERT). BERT dipilih
karena metode BERT ini dirancang untuk melatih representasi dua arah dari teks yang tidak
berlabel dengan bersama-sama mengkondisikan konteks dari kiri dan kanan di semua lapisan.
BERT mencapai hasil seni dalam banyak tugas seperti menjawab pertanyaan, interferensi
bahasa dan named entity recognition. Dari hasil metode BERT ini diperoleh, model yang telah
dibangun mampu mendeteksi entitas dengan cukup baik, namun ada beberapa kesalahan dalam
mendeteksi entitas. Dari scenario yang dibuat dalam penelitian ini, diperoleh model dengan
rata-rata F1-Score sebesar 75%.
Collections
- Informatics Engineering [2148]