Synthetic Minority Over-sampling Technique (SMOTE) Algorithm For Handling Imbalanced Data

Oleh :

ARWAN, VIRMAN ARDINA, LUDKI REZA ARIANA, FERICO SAMUEL, DUDI RAMDANI, ADITYA,  EVANS ANDITA SUKMANA

Akurasi  dari kelas data sangat penting dalam klasifikasi machine learning. Semakin akurat data set dan kelas yang ada, semakin baik output yang dihasilkan oleh machine learning.  Pada kenyataannya klasifikasi dapat mengalami imbalance class data yang mana setiap kelas yang ada tidak mempunyai porsi yang sama pada data-set yang dimiliki. Masalah imbalanced data dapat menyebabkan hasil dari kalsifikasi tidak akurat sehingga dibutuhkan teknik agar data-set yang dimiliki menjadi seimbang sehingga dapat menghasilkan data yang akurat.

Salah satu cara yang paling mundah untuk memperbaiki data yang tidak seimbang adalah dengan membuat data tersebut menjadi seimbang adalah Oversampling pada minority kelas atau Undersampling pada majority class. Dengan metode Over/under sampling dengan mudah dapat membaut data-set menjadi seimbang tetapi metode ini mempunyai kelemahan, Ovesampling pada data-set minority akan menuju model yang overfitting, karena Oversampling dilakukan dengan duplikasi data yang sudah mempunyai nilai yang sudah kecil, Undersampling pada majority juga dapat mengakibat data yang penting pembeda dua kelas menjadi diluar dari data-set.

Metode Synthetic Minority Over-samplingTechnique (SMOTE) merupakan metode yang populer diterapkan dalam rangka menangani ketidak seimbangan kelas. Teknik ini mensintesis sampel baru dari kelas minoritas untuk menyeimbangkan dataset dengan cara membuat instance baru dari minority class dengan pembentukan convex kombanasi dari instances yang saling berdekatan. Seperti gambar 1 dibawah ini, secara efektif menggambarkan garis antara minority point di ruang fitur dan sampel di sepanjang garis ini. Dengan metode ini dapat membuat data-set menjadi seimbang tanpa terlalu overfit, yaitu dengan membuat sample synthetic daripada dengan melakukan duplicate sample.

Gambar 2-5 menunjukkan proses / cara kerja SMOTE. Contoh sampel data yang tidak seimbang dapat dilihat pada gambar 2. Persamaan garis dibuat untuk menghubungkan data yang ada pada kelas yang merupakan minoritas untuk kemudian ditambahkan data sintetis sepanjang garis tersebut, seperti tampak pada gambar 3. Data secara acak sepanjang garis yang saling menghubungkan data asli kelas minoritas ditambahkan seperti gambar 4. Akhirnya data secara acak sepanjang garis yang saling menghubungkan data asli kelas yang merupakan minoritas ditambahkan seperti gambar 5. Hasil akhir yang didapatkan adalah sebagai berikut dimana data pada minority class dapat ditambahkan secara sintetis untuk mengimbangi jumlah data pada majority class

Abba Suganda Girsang