People Innovation Excellence

Synthetic Minority Over-sampling Technique (SMOTE) Algorithm For Handling Imbalanced Data

Oleh :

ARWAN, VIRMAN ARDINA, LUDKI REZA ARIANA, FERICO SAMUEL, DUDI RAMDANI, ADITYA,  EVANS ANDITA SUKMANA

Akurasi  dari kelas data sangat penting dalam klasifikasi machine learning. Semakin akurat data set dan kelas yang ada, semakin baik output yang dihasilkan oleh machine learning.  Pada kenyataannya klasifikasi dapat mengalami imbalance class data yang mana setiap kelas yang ada tidak mempunyai porsi yang sama pada data-set yang dimiliki. Masalah imbalanced data dapat menyebabkan hasil dari kalsifikasi tidak akurat sehingga dibutuhkan teknik agar data-set yang dimiliki menjadi seimbang sehingga dapat menghasilkan data yang akurat.

Salah satu cara yang paling mundah untuk memperbaiki data yang tidak seimbang adalah dengan membuat data tersebut menjadi seimbang adalah Oversampling pada minority kelas atau Undersampling pada majority class. Dengan metode Over/under sampling dengan mudah dapat membaut data-set menjadi seimbang tetapi metode ini mempunyai kelemahan, Ovesampling pada data-set minority akan menuju model yang overfitting, karena Oversampling dilakukan dengan duplikasi data yang sudah mempunyai nilai yang sudah kecil, Undersampling pada majority juga dapat mengakibat data yang penting pembeda dua kelas menjadi diluar dari data-set.

Metode Synthetic Minority Over-samplingTechnique (SMOTE) merupakan metode yang populer diterapkan dalam rangka menangani ketidak seimbangan kelas. Teknik ini mensintesis sampel baru dari kelas minoritas untuk menyeimbangkan dataset dengan cara membuat instance baru dari minority class dengan pembentukan convex kombanasi dari instances yang saling berdekatan. Seperti gambar 1 dibawah ini, secara efektif menggambarkan garis antara minority point di ruang fitur dan sampel di sepanjang garis ini. Dengan metode ini dapat membuat data-set menjadi seimbang tanpa terlalu overfit, yaitu dengan membuat sample synthetic daripada dengan melakukan duplicate sample.

Gambar 2-5 menunjukkan proses / cara kerja SMOTE. Contoh sampel data yang tidak seimbang dapat dilihat pada gambar 2. Persamaan garis dibuat untuk menghubungkan data yang ada pada kelas yang merupakan minoritas untuk kemudian ditambahkan data sintetis sepanjang garis tersebut, seperti tampak pada gambar 3. Data secara acak sepanjang garis yang saling menghubungkan data asli kelas minoritas ditambahkan seperti gambar 4. Akhirnya data secara acak sepanjang garis yang saling menghubungkan data asli kelas yang merupakan minoritas ditambahkan seperti gambar 5. Hasil akhir yang didapatkan adalah sebagai berikut dimana data pada minority class dapat ditambahkan secara sintetis untuk mengimbangi jumlah data pada majority class


Published at :
Written By
Abba Suganda Girsang
Lecture Specialist S3 | Universitas Bina Nusantara
Leave Your Footprint

    Periksa Browser Anda

    Check Your Browser

    Situs ini tidak lagi mendukung penggunaan browser dengan teknologi tertinggal.

    Apabila Anda melihat pesan ini, berarti Anda masih menggunakan browser Internet Explorer seri 8 / 7 / 6 / ...

    Sebagai informasi, browser yang anda gunakan ini tidaklah aman dan tidak dapat menampilkan teknologi CSS terakhir yang dapat membuat sebuah situs tampil lebih baik. Bahkan Microsoft sebagai pembuatnya, telah merekomendasikan agar menggunakan browser yang lebih modern.

    Untuk tampilan yang lebih baik, gunakan salah satu browser berikut. Download dan Install, seluruhnya gratis untuk digunakan.

    We're Moving Forward.

    This Site Is No Longer Supporting Out-of Date Browser.

    If you are viewing this message, it means that you are currently using Internet Explorer 8 / 7 / 6 / below to access this site. FYI, it is unsafe and unable to render the latest CSS improvements. Even Microsoft, its creator, wants you to install more modern browser.

    Best viewed with one of these browser instead. It is totally free.

    1. Google Chrome
    2. Mozilla Firefox
    3. Opera
    4. Internet Explorer 9
    Close