Pemanfaatan Deep Learning dalam Mendeteksi Spam di Media Sosial

Penulis: Andary Dadang Yuliono dan Baehaki

Pembimbing/Editor: Amalia Zahra, S.Kom., Ph.D.

Deteksi terhadap spam adalah termasuk dalam masalah klasifikasi pada Natural Language Processing (NLP). Pada awalnya, deteksi terhadap spam yang disebar melalui email dilakukan dengan menggunakan teknik-teknik machine learning seperti SVM, Naïve Bayes, dan Random Forests. Pada masa itu, mendeteksi spam yang disebar melalui email dengan menggunakan machine learning telah berjalan dengan efektif dan sederhana. Namun, saat ini mendeteksi spam pada pesan di media sosial seperti Twitter adalah hal yang sulit karena pesan pada Twitter mengandung banyak sekali noise seperti banyaknya singkatan, penggunaan bahasa gaul, banyaknya emoticon, dan sebagainya.

Beberapa tahun terakhir terjadi perkembangan yang pesat pada Deep Learning (salah satu cabang dari machine learning yang menggunakan banyak hidden layer dalam arsitekturnya). Penggunaan deep learning dalam bidang NLP (Natural Language Processing) telah menunjukkan hasil yang luar biasa. Salah satu penelitian yang menggunakan deep learning untuk mendeteksi spam dilakukan oleh Jain, Sharma, & Agarwal (2019). Penelitian ini menggunakan Convolutional Neural Network (CNN) dan Long Short Term Memory (LSTM) dalam melakukan klasifikasi spam. Dalam model-model pada penelitian ini, teks diubah menjadi vektor dengan menggunakan word2vec. Konsep utama dari model ini adalah ditambahkannya semantic layer sebelum embedding layer. Penambahan semantic layer dilakukan dengan menggunakan kamus semantik seperti WordNet dan ConceptNet, sehingga apabila terdapat kata-kata yang tidak ditemukan dalam word2vec, maka akan dicari semantiknya dalam WordNet dan ConceptNet.

Pada penelitian ini terdapat tiga model yang digunakan. Model yang pertama adalah dengan menambahkan semantic layer pada CNN, sehingga model ini dinamakan Semantic Convolutional Neural Network (SCNN). Model yang kedua adalah dengan menambahkan semantic layer pada LSTM, sehingga model ini dinamakan Semantic Long Short Term Memory (SLSTM). Dan pada model ketiga dilakukan penggabungan CNN dan LSTM setelah semantic layer, sehingga model yang ketiga ini dinamakan Sequential Stacked CNN-LSTM (SCCL).

Untuk melakukan klasifikasi terhadap teks dalam sebuah pesan di Twitter, kata-kata dalam teks terlebih dahulu harus diubah menjadi angka yang berbentuk vektor yang mewakili kata-kata tersebut dengan menggunakan word2vec. Namun apabila kata-kata tersebut tidak ditemukan dalam word2vec akan dicari semantiknya dengan menggunakan kamus semantik dalam hal ini WordNet dan ConceptNet. Dan apabila tidak juga ditemukan dalam WordNet maupun ConceptNet, maka akan dibuat vektor acak untuk mewakili kata tersebut.

Pada model ini, CNN digunakan untuk mengekstrak fitur n-gram paling penting dari kata-kata yang telah diubah menjadi vektor. Sedangkan LSTM digunakan untuk menangkap long term dependencies dalam sequence vector untuk menjaga keterkaitan vektor. Penggunaan LSTM ini dikarenakan LSTM memiliki kemampuan untuk mengingat dalam rentang yang panjang dan menyampaikan informasi seperti sebuah rantai. Arsitektur dari SSCL dapat dilihat pada gambar berikut ini.

Hasil dari penelitian ini menunjukkan bahwa untuk deteksi yang dilakukan dengan menggunakan machine learning, model dengan menggunakan random forest memiliki akurasi yang tertinggi dibandingkan dengan model machine learning lainnya dalam mendeteksi spam di Twitter.

Semua model yang diusulkan dalam penelitian ini (SCNN, SLSTM dan SSCL) memiliki akurasi yang lebih tinggi dibanding semua model yang menggunakan machine learning. Model CNN yang menggunakan semantic layer (SCNN) juga memiliki akurasi yang lebih tinggi dibanding model yang tidak menggunakan semantic layer (hanya CNN), begitu juga model LSTM yang menggunakan semantic layer (SLSTM) memiliki akurasi yang lebih baik dari model LSTM yang tidak menggunakan semantic layer. Dari ketiga model yang diusulkan, SCCL memiliki akurasi yang tertinggi. Dari hasil ini dapat dilihat bahwa gabungan antara CNN dan LSTM dalam mendeteksi spam dapat meningkatkan akurasi. Grafik kinerja berbagai model, baik yang menggunakan machine learning maupun deep learning dapat dilihat pada grafik berikut ini.

Referensi

Jain, G., Sharma, M., & Agarwal, B. (2019). Spam detection in social media using convolutional and long short term memory neural network. Annals of Mathematics and Artificial Intelligence, 1-24.

Amalia Zahra