Sistem Rekomendasi dengan Content Based

Metode Content Based (CB) merekomendasikan itemitem mirip dengan item yang disukai pengguna di masa lalu. Algoritme CB memeriksa item yang dinilai sebelumnya dan merekomendasikan item yang paling sesuai (Geetha et al., 2018}. Lagu-lagu direkomendasikan berdasarkan perbandingan yang dilakukan oleh sistem antara konten item dan profil pengguna sehingga teknik ini bisa menyelesaikan masalah coldstart karena dapat merekomendasikan lagu-lagu berdasarkan data yang sangat sedikit (Paul & Kundu, 2020).

Ada penambahan bobot untuk setiap kata dalam deskripsi item pada model CB yang bertujuan untuk menetapkan nilai dari kata tersebut dalam kumpulan data. Penggunaan Algoritme term frequencyinverse document frequency (TF-IDF) yang mengukur bobot kata kunci dalam dokumen dan nilai atribut untuk kata kunci tersebut bergantung pada berapa kali kata kunci itu muncul dalam dokumen.

Sistem rekomendasi CB berusaha membuat prediksi berdasarkan analisis itemitem yang saling terkait. Sistem rekomendasi CB mengetahui semua item yang digunakan oleh pengguna dimasa lampau dan dapat dijadikan sebagai landasan untuk menentukan seberapa  mirip preferensi mereka dengan item yang ada saat ini. Item yang memiliki kemiripan pola peringkat lama dapat digunakan untuk menghitung peringkat terhadap item yang baru. Sistem rekomendasi CB menganalisis item serta melakukan ekstraksi fitur yang dapat menggambarkannya. Setelah fitur diekstraksi, secara otomatis sistem akan melakukan pengecekan item yang mirip dengan preferensi pengguna. Karena sistem rekomendasi CB tergantung pada analisis konten, kualitas data yang tersedia adalah faktor penentu dalam kualitas hasil yang dihasilkan oleh sistem. Keuntungan dan kerugian dari pendekatan CB menurut (Al-Ghuribi & Noah, 2019):

Keuntungan:

  1. Pendekatan CB dapat memberikan penjelasan mengenai logika yang digunakan dalam sistem rekomendasi mereka dalam merekomendasi item item yang spesifik melalui penyediaan daftar fitur-fitur konten. Akibatnya, Pendekatan CB dapat memperkuat kepercayaan pengguna mengenai sistem rekomendasi yang mencerminkan preferensi pengguna itu sendiri.
  2. Pendekatan CB menawarkan personalization tingkat tinggi dalam rekomendasi.
  3. Pendekatan CB berkategori scalable dalam hal jumlah pengguna.
  4. Pendekatan CB dapat membuat rekomendasi untuk pengguna dengan minat khusus.
  5. Pendekatan CB memiliki keamanan tinggi dari penciptaan item berbahaya dan memungkinkan pengguna untuk mencegah pemasaran viral.

Kerugian:

  1. Jumlah item yang besar dianggap sebagai masalah utama karena ketika rekomendasi dibuat, konten setiap item harus diperiksa untuk menemukan item-item yang mungkin berhubungan dengan minat pengguna. Tugas ini rentan akan kesalahan dan memakan waktu.
  2. Profil pengguna dibangun berdasarkan karakteristik statis dari itemitem. Akibatnya, ada kemungkinan besar pengguna yang berbeda memiliki profil yang sama meskipun mereka memiliki preferensi yang berbeda karena mereka mengomentari itemitem yang sama.
  3. Masalah overspecialization terjadi pada pendekatan CB karena pengguna tidak menerima itemitem yang beragam atau baru karena pembatasan dalam profilnya mengenai deskripsi itemitem
  4. Overspecialization dapat menyebabkan isu pada serendipity ketika pengguna direkomendasikan dengan itemitem yang terkenal.

TF-IDF adalah sebuah metode yang merupakan integrasi antar 2 matriks yang saling terkait. TF memperlihatkan seberapa sering kata tertentu muncul dalam dokumen tertentu. IDF memperlihatkan seberapa sering sebuah kata muncul di seluruh kumpulan dokumen. Metode TF-IDF berfungsi untuk mencari representasi nilai dari setiap dokumen yang ada dalam kumpulan data training dan membentuk suatu vektor antara dokumen dengan kata (documents with terms). Kesamaan antar dokumen dengan cluster ditentukan oleh cluster centroid. Rumus yang digunakan dalam menghitung TF-IDF adalah sebagai berikut.

  1. Menghitung frekuensi kemunculan  dalam dokumen  (term frequency ).
  2. Menghitung logaritma dari rasio jumlah seluruh dokumen dalam korpus dengan jumlah dokumen yang memiliki term yang dimaksud (IDF).
  3. Mengalikan keduanya untuk mendapatkan nilai TF-IDF.

 Ridge regression adalah salah satu metode dalam menganalisis data regresi berganda untuk mengatasi masalah multicollinearity. Multicollinearity adalah kondisi yang tidak diinginkan disebabkan oleh korelasi atau hubungan yang tinggi antara beberapa variabel tunggal sehingga menghasilkan nilai dugaan parameter model regresi yang tidak stabil. Ridge reggresion menggunakan regulasi untuk menyelesaikan model dengan performa baik akan tetapi mendapat performa buruk ketika diterapkan ke data pengujian.

Referensi

Al-Ghuribi, S. M., & Noah, S. A. M. (2019). Multi-criteria review-based recommender system–the state of the art. IEEE Access, 7, 169446–169468.

Geetha, G., Safa, M., Fancy, C., & Saranya, D. (2018). A hybrid approach using collaborative filtering and content based filtering for recommender system. In Journal of physics: Conference series

Paul, D., & Kundu, S. (2020). A survey of music recommendation systems with a proposed music recommendation system. In Emerging technology in modelling and graphics (pp. 279–285). Springer.

Abba Suganda Girsang