Perbandingan Metode Seleksi Fitur Filter, Wrapper, Dan Embedded Pada Klasifikasi Data Nirs Mangga Menggunakan Random Forest Dan Support Vector Machine (Svm)
Abstract
Pembangunan model klasifikasi seringkali dihadapkan pada masalah pengolahan data
saat ingin menggunakan dataset yang berdimensi tinggi karena dapat memakan waktu dan
memerlukan upaya komputasi yang berlebihan. Hal ini juga menyebabkan terjadinya sebuah
fenomena pada data yaitu “Curse of Dimensionality”. Curse of Dimensionality ini terjadi saat
dimensi dari data sangat tinggi dan mengakibatkan nilai informasi penting yang didapatkan
semakin menurun. Untuk mengatasi masalah tersebut, penelitian ini akan menggunakan teknik
pengurangan dimensi yaitu teknik seleksi fitur. Penelitian ini akan menerapkan sembilan
metode seleksi fitur dari tiga kategori berbeda yaitu filter, wrapper, dan embedded terhadap
dataset spektrum NIRS dari buah mangga untuk kemudian dilakukan proses klasifikasi
menggunakan Random Forest dan Support Vector Machine (SVM). Penelitian ini membangun
empat skenario pada model klasifikasi yaitu Random Forest dengan 100, 150, dan 200 trees
serta klasfikasi menggunakan SVM dengan RBF kernel. Hasil yang diperoleh dari masingmasing
klasifikasi berbeda tergantung dari model klasifikasi, jumlah tree (pada Random
Forest), metode seleksi fitur, dan jumlah fitur yang digunakan. Seluruh skenario klasifikasi
yang menggunakan Random Forest dapat mencapai performa tertinggi dengan menggunakan
fitur-fitur Mutual Information, perbedaan hanya terdapat pada jumlah fitur yang dibutuhkan.
Pada klasifikasi Random Forest dengan 100 tree, performa terbaik diperoleh dari penggunaan
70 fitur dari Mutual Information yang menghasilkan 0.96 accuracy, 0.96 recall, dan 0.96
precision sedangkan yang terendah dihasilakan menggunakan 63 fitur dari ANOVA yang
menghasilkan 0.88 accuracy, 0.88 recall, dan 0.88 precision. Pada klasifikasi Random Forest
yang menggunakan 150 tree, hasil klasifikasi terbaik diperoleh dengan menggunakan 69 fitur
Mutual Information yang menghasilkan 0.96 accuracy, 0.96 recall, dan 0.95 precision. Pada
skenario klasifikasi ini, hasil terendah juga diperoleh dari penggunaan 63 fitur dari ANOVA
yang mendapatkan 0.88 accuracy, 0.88 recall, dan 0.88 precision. Selanjutnya, klasifikasi
Random Forest yang menggunakan 200 trees mendapatkan performa tertinggi dengan
menggunakan 72 fitur dari metode Mutual Information dan menghasilkan 0.96 accuracy, 0.96
recall, dan 0.96 precision. Sedangkan performa terendah diperoleh dengan menggunakan 66
fitur hasil seleksi ANOVA yang menghasilkan 0.88 accuracy, 0.88 recall, dan 0.88 precision.
Collections
- Informatics Engineering [2065]