Sistem Rekomendasi dengan Content Based
Metode Content Based (CB) merekomendasikan item–item mirip dengan item yang disukai pengguna di masa lalu. Algoritme CB memeriksa item yang dinilai sebelumnya dan merekomendasikan item yang paling sesuai (Geetha et al., 2018}. Lagu-lagu direkomendasikan berdasarkan perbandingan yang dilakukan oleh sistem antara konten item dan profil pengguna sehingga teknik ini bisa menyelesaikan masalah cold–start karena dapat merekomendasikan lagu-lagu berdasarkan data yang sangat sedikit (Paul & Kundu, 2020).
Ada penambahan bobot untuk setiap kata dalam deskripsi item pada model CB yang bertujuan untuk menetapkan nilai dari kata tersebut dalam kumpulan data. Penggunaan Algoritme term frequency–inverse document frequency (TF-IDF) yang mengukur bobot kata kunci dalam dokumen dan nilai atribut untuk kata kunci tersebut bergantung pada berapa kali kata kunci itu muncul dalam dokumen.
Sistem rekomendasi CB berusaha membuat prediksi berdasarkan analisis item–item yang saling terkait. Sistem rekomendasi CB mengetahui semua item yang digunakan oleh pengguna dimasa lampau dan dapat dijadikan sebagai landasan untuk menentukan seberapa mirip preferensi mereka dengan item yang ada saat ini. Item yang memiliki kemiripan pola peringkat lama dapat digunakan untuk menghitung peringkat terhadap item yang baru. Sistem rekomendasi CB menganalisis item serta melakukan ekstraksi fitur yang dapat menggambarkannya. Setelah fitur diekstraksi, secara otomatis sistem akan melakukan pengecekan item yang mirip dengan preferensi pengguna. Karena sistem rekomendasi CB tergantung pada analisis konten, kualitas data yang tersedia adalah faktor penentu dalam kualitas hasil yang dihasilkan oleh sistem. Keuntungan dan kerugian dari pendekatan CB menurut (Al-Ghuribi & Noah, 2019):
Keuntungan:
- Pendekatan CB dapat memberikan penjelasan mengenai logika yang digunakan dalam sistem rekomendasi mereka dalam merekomendasi item– item yang spesifik melalui penyediaan daftar fitur-fitur konten. Akibatnya, Pendekatan CB dapat memperkuat kepercayaan pengguna mengenai sistem rekomendasi yang mencerminkan preferensi pengguna itu sendiri.
- Pendekatan CB menawarkan personalization tingkat tinggi dalam rekomendasi.
- Pendekatan CB berkategori scalable dalam hal jumlah pengguna.
- Pendekatan CB dapat membuat rekomendasi untuk pengguna dengan minat khusus.
- Pendekatan CB memiliki keamanan tinggi dari penciptaan item berbahaya dan memungkinkan pengguna untuk mencegah pemasaran viral.
Kerugian:
- Jumlah item yang besar dianggap sebagai masalah utama karena ketika rekomendasi dibuat, konten setiap item harus diperiksa untuk menemukan item-item yang mungkin berhubungan dengan minat pengguna. Tugas ini rentan akan kesalahan dan memakan waktu.
- Profil pengguna dibangun berdasarkan karakteristik statis dari item–item. Akibatnya, ada kemungkinan besar pengguna yang berbeda memiliki profil yang sama meskipun mereka memiliki preferensi yang berbeda karena mereka mengomentari item–item yang sama.
- Masalah over–specialization terjadi pada pendekatan CB karena pengguna tidak menerima item–item yang beragam atau baru karena pembatasan dalam profilnya mengenai deskripsi item–item
- Overspecialization dapat menyebabkan isu pada serendipity ketika pengguna direkomendasikan dengan item–item yang terkenal.
TF-IDF adalah sebuah metode yang merupakan integrasi antar 2 matriks yang saling terkait. TF memperlihatkan seberapa sering kata tertentu muncul dalam dokumen tertentu. IDF memperlihatkan seberapa sering sebuah kata muncul di seluruh kumpulan dokumen. Metode TF-IDF berfungsi untuk mencari representasi nilai dari setiap dokumen yang ada dalam kumpulan data training dan membentuk suatu vektor antara dokumen dengan kata (documents with terms). Kesamaan antar dokumen dengan cluster ditentukan oleh cluster centroid. Rumus yang digunakan dalam menghitung TF-IDF adalah sebagai berikut.
- Menghitung frekuensi kemunculan dalam dokumen (term frequency ).
- Menghitung logaritma dari rasio jumlah seluruh dokumen dalam korpus dengan jumlah dokumen yang memiliki term yang dimaksud (IDF).
- Mengalikan keduanya untuk mendapatkan nilai TF-IDF.
Ridge regression adalah salah satu metode dalam menganalisis data regresi berganda untuk mengatasi masalah multicollinearity. Multicollinearity adalah kondisi yang tidak diinginkan disebabkan oleh korelasi atau hubungan yang tinggi antara beberapa variabel tunggal sehingga menghasilkan nilai dugaan parameter model regresi yang tidak stabil. Ridge reggresion menggunakan regulasi untuk menyelesaikan model dengan performa baik akan tetapi mendapat performa buruk ketika diterapkan ke data pengujian.
Referensi
Al-Ghuribi, S. M., & Noah, S. A. M. (2019). Multi-criteria review-based recommender system–the state of the art. IEEE Access, 7, 169446–169468.
Geetha, G., Safa, M., Fancy, C., & Saranya, D. (2018). A hybrid approach using collaborative filtering and content based filtering for recommender system. In Journal of physics: Conference series
Paul, D., & Kundu, S. (2020). A survey of music recommendation systems with a proposed music recommendation system. In Emerging technology in modelling and graphics (pp. 279–285). Springer.