Implementasi Metode Extreme Gradient Boosting (XGBOOST) untuk Klasifikasi pada Data Bioinformatika (Studi Kasus : Penyakit Ebola, GSE122692)
Abstract
Bioinformatika mempunyai kajian yang tak lepas dari perkembangan biologi molekuler modern yang diketahui dengan kemampuan manusia untuk memahami genom. Pada bidang kesehatan, bioinformatika digunakan dalam penerapan diagnosis, prediksi maupun pencegahan sebuah penyakit salah satunya yaitu virus Ebola atau EBOV. Berdasarkan data, dari Maret 2014 hingga Maret 2016, Afrika barat menderita wabah virus Ebola (EBOV) terbesar hingga saat ini, dengan 28.652 kasus dan 11.325 kematian. Data microarray pasien virus Ebola yang terdiri dari sampel jaringan Fatalities, Viremic suvivors, Suvivors in recovery phase dan Healthy control yang diperoleh dari website National Center of Biotechnology Information (NCBI), platform GPL16686 - GSE 122692, digunakan dalam penelitian ini. Pengolahan data microarray, dimulai dengan preprocessing dan filtering. Machine learning banyak digunakan pada analisis data microarray, salah satu diantaranya adalah eXtreme Gradient Boosting (XGBoost). Pembagian data set Train dan Test dilakukan dengan ratio 80% : 20%,. Berdasarkan model yang dipilih, diperoleh nilai accuracy 69.23% dan Kappa 0.05702. Melalui grid search didapatkan hasil nilai terbaik accuracy adalah 76.92% dan nilai Kappa 0.675 dengan nilai AUC\ sebesar 0,85.
Collections
- Statistics [899]