Deteksi Ujaran Kebencian pada Teks Bahasa Indonesia Menggunakan Bidirectional Long Short Term Memory (Bi-LSTM)
Abstract
Media sosial memberikan wadah bagi pengguna untuk bebas berekspresi termasuk
menyebarkan konten ujaran kebencian yang dapat menimbulkan konflik sosial. Pemerintah
Indonesia telah menerbitkan UU ITE sebagai upaya penanganan serta membentuk satu
departemen khusus yaitu virtual police. Dari sisi teknologi, penelitian dilakukan
menggunakan LSTM untuk mendeteksi ujaran kebencian pada teks media sosial. Penelitian
tersebut berhasil mendapatkan akurasi yang sangat baik yakni 94,66%. Akan tetapi,
penelitian tersebut memiliki batasan dengan output hanya satu label saja. Penelitian lain
kemudian dilakukan untuk mendeteksi ujaran kebencian dengan output multilabel
menggunakan Bi-GRU. Namun, akurasi yang didapatkan masih lebih rendah dari penelitian
dengan LSTM yakni 86,44%. Oleh karena itu, penelitian terkait ujaran kebencian multilabel
dilakukan pada penelitian ini. Penelitian dilakukan dengan menggunakan algoritma Bi-
LSTM. Dataset yang digunakan dalam penelitian diambil dari dataset publik yang dapat
diakses melalui github. Dataset tersebut berisikan data teks yang berasal dari twitter dengan
jumlah 13ribu data. Percobaan dalam penelitian dimulai dari eksplorasi data dan pre-
processing. Kemudian dilanjutkan dengan tokenisasi pada teks menggunakan model pre-
train dari IndoBERT. Percobaan-percobaan untuk menggunakan variasi nilai parameter
dilakukan untuk mendapatkan model dengan performa terbaik dalam mendeteksi ujaran
kebencian multilabel. Penelitian juga dilakukan terhadap beberapa model IndoBERT guna
mendapatkan hasil tokenisasi yang menunjang performa dari Bi-LSTM dalam melakukan
klasifikasi. Hasilnya, model terbaik yang diusulkan dalam penelitian ini adalah dengan
menggunakan 20 epoch, 192 batch size, 1 layer Bi-LSTM dengan 40 node, dan menerapkan
class weighing dalam proses optimasinya. Pre-train model dari IndoBERT yang digunakan
untuk mendukung kinerja dari model dalam melakukan klasifikasi adalah
“indobenchmark/indobert-large-p2”. Performa yang diberikan model sangat baik dengan
berhasil mendapatkan akurasi yang lebih tinggi dari penelitian sebelumnya yakni 97,66%.
Collections
- Master of Informatics [361]
