Deteksi Ujaran Kebencian pada Teks Bahasa Indonesia Menggunakan Bidirectional Long Short Term Memory  (Bi-LSTM)

Dwitama, Aditya Perwira Joan

View/Open

20917035.pdf (2.157Mb)

Date

2023

Author

Dwitama, Aditya Perwira Joan

Metadata

Show full item record

Abstract

Media sosial memberikan wadah bagi pengguna untuk bebas berekspresi termasuk menyebarkan konten ujaran kebencian yang dapat menimbulkan konflik sosial. Pemerintah Indonesia telah menerbitkan UU ITE sebagai upaya penanganan serta membentuk satu departemen khusus yaitu virtual police. Dari sisi teknologi, penelitian dilakukan menggunakan LSTM untuk mendeteksi ujaran kebencian pada teks media sosial. Penelitian tersebut berhasil mendapatkan akurasi yang sangat baik yakni 94,66%. Akan tetapi, penelitian tersebut memiliki batasan dengan output hanya satu label saja. Penelitian lain kemudian dilakukan untuk mendeteksi ujaran kebencian dengan output multilabel menggunakan Bi-GRU. Namun, akurasi yang didapatkan masih lebih rendah dari penelitian dengan LSTM yakni 86,44%. Oleh karena itu, penelitian terkait ujaran kebencian multilabel dilakukan pada penelitian ini. Penelitian dilakukan dengan menggunakan algoritma Bi- LSTM. Dataset yang digunakan dalam penelitian diambil dari dataset publik yang dapat diakses melalui github. Dataset tersebut berisikan data teks yang berasal dari twitter dengan jumlah 13ribu data. Percobaan dalam penelitian dimulai dari eksplorasi data dan pre- processing. Kemudian dilanjutkan dengan tokenisasi pada teks menggunakan model pre- train dari IndoBERT. Percobaan-percobaan untuk menggunakan variasi nilai parameter dilakukan untuk mendapatkan model dengan performa terbaik dalam mendeteksi ujaran kebencian multilabel. Penelitian juga dilakukan terhadap beberapa model IndoBERT guna mendapatkan hasil tokenisasi yang menunjang performa dari Bi-LSTM dalam melakukan klasifikasi. Hasilnya, model terbaik yang diusulkan dalam penelitian ini adalah dengan menggunakan 20 epoch, 192 batch size, 1 layer Bi-LSTM dengan 40 node, dan menerapkan class weighing dalam proses optimasinya. Pre-train model dari IndoBERT yang digunakan untuk mendukung kinerja dari model dalam melakukan klasifikasi adalah “indobenchmark/indobert-large-p2”. Performa yang diberikan model sangat baik dengan berhasil mendapatkan akurasi yang lebih tinggi dari penelitian sebelumnya yakni 97,66%.

URI

http://dspace.uii.ac.id/123456789/54505

Collections

Master of Informatics [361]