Perbandingan Metode Seleksi Fitur Filter, Wrapper, Dan Embedded Prediksi Kandungan Vitamin C Pada Buah Mangga Meggunakan Metode Linear Regression Dan Random Forest Regression
Abstract
Mengolah data yang memiliki dimensi tinggi merupakan suatu tantangan penelitian.
Alasannya karena memerlukan waktu komputasi yang lama untuk bisa menyelesaikannya.
Data yang memiliki dimensi tinggi juga memiliki kekurangan yang sering disebut high
dimensional data karena dapat menyebabkan fenomena Curse of dimensionality. Fenomena ini
menyebabkan pemborosan ruang penyimpanan, kemampuan visualisasi yang buruk, serta
terjadi overfitting. Untuk mengatasi masalah itu, penelitian ini akan menggunakan teknik untuk
mengurangi fitur yang banyak dengan seleksi fitur. Penelitian ini menggunakan sembilan
metode berbeda yang dapat dikategorikan menjadi tiga kategori seleksi fitur, yaitu Filter,
Wrapper, dan Embedded. Untuk data yang diuji adalah dataset NIRS mangga yang terkenal
dengan banyaknya fitur didalamnya. Setelah berhasil di seleksi fitur, data kemudian akan
dilakukan prediksi menggunakan metode regresi untuk mengetahui kandungan vitamin c pada
mangga menggunakan dua metode berbeda, yaitu Linear Regression dan Random Forest
Regression. Metode Random Forest Regression akan dilakukan dengan tiga skenario
menggunakan tiga trees yang berbeda untuk dibandingkan performanya. Hasil yang diperoleh
dari prediksi vitamin c pada mangga berbeda tergantung pada model regresi dan seleksi fitur.
Untuk prediksi tanpa melakukan seleksi fitur, Linear Regression mendapatkan nilai performa
yang lebih baik dibandingkan Random Forest Regression dengan nilai pengujian 187.48 MSE,
13,42 RMSE, 10,89 MAE, dan R2 -0.17. Sedangkan untuk metode seleksi fitur Fisher Score
mendapatkan nilai pengujian performa terbaik di antara delapan metode lainnya setelah di
prediksi menggunakan Linear Regression dengan nilai pengujian 132.19 MSE, 11.5 RMSE,
9.51 MAE, dan 023 R2
Collections
- Informatics Engineering [2174]