Pemodelan Topik dengan Latent-Dirichlet Allocation untuk penemuan State-of-the-Art dalam Keilmuan
Abstract
Mengembangkan ilmu pengetahuan adalah ambisi dalam dunia akademis. Dalam melakukan
hal tersebut, penting untuk menemukan state-of-the-art dalam keilmuan sebagai dasar untuk
pengembangan ilmu. Pendekatan penemuan state-of-the-art yang ada saat ini cenderung
language-specific dan belum dapat memfasilitasi penemuan state-of-the-art secara otomatis
dan intuitif. Tujuan penelitian ini adalah untuk menghasilkan sebuah perangkat lunak yang
dapat mempermudah proses penemuan state-of-the-art pada topik apapun dalam dunia
akademis dan yang juga language-agnostic. Sebuah perangkat lunak yang dapat melakukan
pengumpulan artikel dari berbagai basis data untuk topik apapun secara otomatis dibangun.
Konten artikel yang dikumpulkan lalu dipraproses dengan tokenization, token cleansing,
penghapusan stopwords, dan lemmatization. Konten yang telah dipraproses, lalu dikonversi
ke sebuah matriks dokumen-frasa numerik dan dianalisis dengan model latent-dirichlet
allocation (LDA) dan bidirectional encoder representations from transformers (BERT)
untuk melakukan penemuan dan pelabelan topik secara otomatis. Sebuah metode
penyaringan luaran topik berbasis entity linking juga diusulkan dalam penelitian ini dimana
luaran topik dari model difiltrasi menggunakan basis data pengetahuan agar memastikan
luaran topik sesuai. Luaran topik lalu divisualisasi dengan nested bubble dan line chart untuk
memvisualisasikan topik terkini, kesenjangan, dan tren evolusi dalam penelitian. Sebuah
survei yang disebarkan untuk menilai aspek antarmuka dan relevansi topik dari luaran
penelitian menunjukkan bahwa antarmuka perangkat lunak yang telah dikembangkan mudah
untuk dinavigasi dan informasi yang ditunjukkan mudah untuk dicerna. Selain itu, hasil
survei juga mengindikasikan bahwa topik-topik yang dihasilkan relevan dan sesuai dengan
konten artikel yang diproses, serta visualisasi yang dihasilkan membantu dalam memahami
state-of-the-art dan peta penelitian pada topik yang diberikan. Hasil survei ini menunjukkan
bahwa luaran penelitian adekuat untuk digunakan dalam analisis preliminer penelitian
dengan presisi dan relevansi yang tinggi.
Collections
- Master of Informatics [361]
