Analisis Perbandingan Metode Naïve Bayes, SVM, dan BiLSTM Untuk Klasifikasi Gender berdasarkan Tweet berbahasa Indonesia
Abstract
Media sosial X (Twitter) menghasilkan data teks dalam jumlah besar yang dapat
dimanfaatkan untuk kajian pemrosesan bahasa alami, khususnya author profiling. Salah satu
atribut penting dalam author profiling adalah jenis kelamin, terutama ketika informasi profil
pengguna tidak tersedia atau tidak dapat diandalkan. Teks tweet yang bersifat singkat dan
informal menjadikan klasifikasi gender berbasis teks sebagai permasalahan yang menantang,
khususnya pada bahasa Indonesia.
Penelitian ini bertujuan untuk membandingkan kinerja algoritma Multinomial Naïve
Bayes, Support Vector Machine (SVM), dan Bidirectional Long Short-Term Memory
(BiLSTM) dalam mengklasifikasikan gender pengguna media sosial X (Twitter) berdasarkan
tweet berbahasa Indonesia. Data penelitian berupa tweet berbahasa Indonesia yang
dikumpulkan menggunakan layanan API pihak ketiga dengan beberapa kata kunci yang
merepresentasikan topik beragam.
Metodologi penelitian meliputi tahap pengumpulan data, pra-pemrosesan teks yang
mencangkup pembersihan teks, penghapusan stopword, dan stemming Sastrawi, serta
penyeimbangan data menggunakan teknik oversampling. Representasi fitur untuk Naïve Bayes
dan SVM menggunakan metode TF–IDF, sedangkan BiLSTM menggunakan representasi
sekuensial berbasis token. Evaluasi model dilakukan menggunakan metrik accuracy, macro
F1-score, confusion matrix, dan ROC–AUC.
Hasil penelitian menunjukkan bahwa algoritma Support Vector Machine memberikan
performa terbaik dibandingkan Multinomial Naïve Bayes dan Bidirectional Long Short-Term
Memory pada dataset yang digunakan. Temuan ini menunjukkan bahwa pada kondisi data
terbatas dan teks pendek, metode pembelajaran mesin klasik masih efektif untuk
mengklasifikasi gender berbasis teks tweet berbahasa Indonesia.
Collections
- Informatics Engineering [2572]
