Tiga Teknik Peringkasan Teks

Keterkaitan antar kalimat atau kata dalam teks merupakan hal yang penting untuk menilai pentingnya kalimat atau kata tersebut serta dapat menjaga susunan kalimat-kalimat ringkasan yang dihasilkan agar tetap informatif.Pada metode peringkasan teks yang menggunakan kata-kata sebagai nodes, ringkasan yang dihasilkan memang dapat membentuk kalimat baru yang berpotensi menggabungkan ide utama dari kalimat-kalimat lainnya. Namun demikian menggabungkan kata-kata tersebut menjadi kalimat yang mudah dibaca memiliki tingkat kesulitan yang tinggi. Lain halnya metode peringkasan teks yang menggunakan kalimat sebagai nodes menghasilkan ringkasan berupa kalimat-kalimat terpilih di mana tingkat pentingnya paling tinggi dibandingkan dengan kalimat-kalimat lainnya. Pada metode tersebut, ringkasan yang dihasilkan mengambil secara utuh kalimat-kalimat tertentu dari sekumpulan kalimat yang akan diringkas. Meskipun metode tersebut tidak dapat menghasilkan kalimat yang baru, ringkasan yang dihasilkan pasti lebih mudah untuk dibaca. Pemilihan kalimat-kalimat untuk menghasilkan ringkasan yang baik merupakan permasalahan kombinatorial yang kompleks di mana jumlah kombinasi kalimat ringkasan yang bisa sangat banyak dan bervariasi.

  1. Peringkasan Berbasis statistic

Penelitian ini ada yang  menggunakan Hidden Markov Model untuk melakukan segmentasi kejadian pada komentar-komentar Twitter. Lalu proses peringkasan komentar-komentar tersebut menggunakan metode Term Frequency – Inverse Document Frequency (TF-IDF) untuk memberi nilai pada komentar lalu memilih komentar-komentar dengan nilai tertinggi.

Pada penelitian berikutnya, tingkat penting komentar-komentar pada media sosial diukur menggunakan data-data statistik seperti reputasi pengguna, panjangnya komentar, hingga seberapa informatif sebuah komentar dengan diukur menggunakan TF-IDF dan Mutual Information.

Ada juga penelitian lain, peringkasan teks dilakukan berdasarkan ukuran kesamaan kalimat-kalimat yang ada pada suatu teks .  Pada penelitian tersebut, kalimat-kalimat dikelompokkan terlebih dulu ke dalam cluster-cluster berdasarkan kesamaannya. Setelah itu kalimat dalam tiap cluster diukur ketidaksamaannya satu dengan yang lain menggunakan algoritma Normalized Google Distance (NGD) lalu diurutkan secara terbalik dari nilai ketidaksamaan yang terkecil ke terbesar. Beberapa kalimat pada peringkat teratas dipilih untuk menghasilkan ringkasan.

  1. Peringkasan Teks Berbasis Graph

Pendekatan berbasis graph merupakan pendekatan yang paling banyak digunakan dalam penelitian-penelitian peringkasan teks otomatis. Seperti pada sebuah penelitian yang melakukan peringkasan komentar-komentar dengan menggunakan graph yang menggambarkan urutan dan keterkaitan kata-kata dalam komentar-komentar tersebut. Dari graph tersebut, disusunlah ringkasan dari kata-kata yang saling berhubungan berdasarkan pada tingkat redundansi dan urutan dari kata-kata tersebut dalam kalimat.

Penelitian berikutnya memanfaatkan graph untuk meringkas beberapa kalimat menjadi satu kalimat dengan mencari jalur terpendek dari graph yang dibentuk dari nodes yang berisi kata-kata yang ada pada kalimat-kalimat yang akan diringkas. Jalur atau edges yang menghubungkan setiap nodes tersebut kemudian diberikan bobot tertentu. Pertama, bobot kekuatan hubungan antar kata dihitung berdasarkan frekuensi kata-kata yang saling terhubung lalu dibagi secara proposional berdasarkan jarak antar kata yang dihitung berdasarkan selisih posisi-posisinya pada kalimat. Kedua, bobot tersebut kemudian dibagi lagi dengan frekuensi kata-kata yang terhubung tersebut. Setelah itu, algoritma K-shortest path digunakan untuk mencari jarak terpendek dengan menelusuri edge dengan bobot terendah.

Dua penelitian berikutnya melakukan peringkasan komentar-komentar yang ada pada video Youtube  (Khabiri et al., 2011) dan pada halaman situs surat kabar daring  (Llewellyn, Grover, & Oberlander, 2014). Metode yang digunakan kedua penelitian tersebut cukup serupa. Sebelum melakukan peringkasan, komentar-komentar dikelompokkan terlebih dulu ke dalam topik-topik tertentu menggunakan LDA. Setelah komentar-komentar terbaik dipilih menggunakan algoritma PageRank.

Sedangkan penelitian lainnya melakukan peringkasan dengan mengisi sebuah template standar dengan jenis pembicaraan dan obyek apa yang dibicarakan pada media sosial Twitter (Zhang et al., 2013). Jenis pembicaraan tersebut dapat berupa pertanyaan, komentar, dan saran. Jenis pembicaran pada setiap komentar Twitter ditentukan dari hasil prediksi berdasarkan data training yang sudah diberi label. Sedangkan obyek yang dibicarakan didapatkan dari frase dalam bentuk n-gram yang memiliki nilai atau peringkat tertinggi. Adapun penentuan nilai atau peringkat n-gram tersebut memanfaatkan graph dan algoritma TextRank.

Sebuah penelitian berbasis graph memanfaatkan konsep centrality atau keterpusatan antara teks hasil ringkasan dengan teks sumbernya (Algaphari, Ba-Alwi, & Moharram, 2013). Penelitian tersebut membuat ringkasan berdasarkan kalimat-kalimat yang memiliki nilai cosine similarity tinggi dengan centroid atau titik pusat dokumen.

Lalu pada penelitian lain, sebuah metode yang bernama Phrase Reinforcement Graph dimanfaatkan untuk meringkas komentar-komentar Twitter yang memiliki topik sama menjadi satu kalimat (Sharifi et al., 2015). Metode tersebut memecah setiap kata menjadi nodes yang saling terhubung dan menggunakan kalimat terpanjang sebagai jalur utama graph. Kata-kata yang dipilih untuk menghasilkan kalimat ringkasan adalah kata-kata yang memiliki redundansi tinggi dan tetap saling terhubung sesuai urutan pada kalimat asalnya.

Metode yang sama seperti Phrase Reinforcement Graph juga digunakan dalam penelitian untuk merangkum kejadian pada pertandingan olah raga dengan menggunakan komentar-komentar dari Twitter (Nichols et al., 2012). Namun graph tersebut dibentuk bukan berdasarkan satu per satu kata, melainkan frase atau dalam bentuk n-gram. Ringkasan yang dihasilkan tersebut dapat terdiri dari lebih dari satu kalimat.

Penelitian lainnya menggunakan graph empat dimensi yang menggunakan empat jenis edges untuk menghubungkan kalimat-kalimat, lalu membuat ringkasannya (Ferreira et al., 2013). Empat jenis edges yang dibentuk adalah kesamaan kata-kata pada setiap kalimat, kesamaan kalimat secara semantik, kata-kata benda yang merujuk pada entitas yang sama, hingga jenis hubungan antar kalimat atau bagiannya. Setelah itu algoritma TextRank digunakan untuk memilih kalimat-kalimat yang terbaik.

  1. Peringkasan Teks Berbasis Metaheuristic

Pada peringkasan teks berbasis metaheuristic, sebuah penelitian sudah dilakukan untuk melakukan peringkasan komentar-komentar pada media sosial Facebook menggunakan algoritma Ant Colony Optimization (ACO) (Mosa et al., 2017a, 2017b).  Penelitian tersebut juga memanfaatkan graph di mana komentar-komentar disusun menjadi nodes. Pada graph tersebut, nodes atau komentar-komentar terbaik akan dipilih oleh algoritma ACO secara probabilistik berdasarkan informasi heuristic yang ada pada tiap komentar. Yang menjadi informasi heuristic tersebut adalah nilai PageRank, tingkat pentingnya suatu komentar berdasarkan banyaknya kata penting yang didapatkan dari metode TF-IDF, dan statistik interaksi pengguna lain pada komentar tersebut seperti jumlah likes, share, dan reply (Mosa et al., 2017a), hingga Mutual Information dari komentar-komentar tersebut (Mosa et al., 2017b). Dari kombinasi-kombinasi yang telah terbentuk, dipilihlah solusi terbaik menggunakan algoritma Jensen–Shannon Divergence (JSD) (Mosa et al., 2017a), maupun Trivergence of Probability Distribution (TPD) (Mosa et al., 2017b). Hal tersebut untuk memastikan bahwa ringkasan yang dihasilkan tidak jauh berbeda dengan teks sumbernya.

Metode lain menggunakan pendekatan metaheuristics berbasis multi-objective optimization memanfaatkan algoritma Artificial Bee Colony (ABC) (Sanchez-Gomez, Vega-Rodríguez, & Pérez, 2018). Pada penelitian tersebut dua objective yang dioptimisasi adalah cakupan atau kesamaan isi yang tinggi antara ringkasan dan teks asal dan pengurangan redundansi. Dalam penelitian tersebut salah satu pengukuran yang digunakan untuk mengukur cakupan isi dan redundansi adalah cosine similarity.

Referensi

Algaphari, G., Ba-Alwi, F. M., & Moharram, A. (2013). Text Summarization using Centrality Concept. International Journal of Computer Applications, 79(1), 5–12.

Ferreira, R., Freitas, F., Cabral, L. de S., Lins, R. D., Lima, R., França, G., … Favaro, L. (2013). A Four Dimension Graph Model for Automatic Text Summarization. In 2013 IEEE/WIC/ACM International Conferences on Web Intelligence (WI) and Intelligent Agent Technology (IAT).

Khabiri, E., Caverlee, J., & Hsu, C.-F. (2011). Summarizing User-Contributed Comments. In Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media.

Llewellyn, C., Grover, C., & Oberlander, J. (2014). Summarizing Newspaper Comments. In Proceedings of the Eighth International AAAI Conference on Weblogs and Social Media.

Mosa, M. A., Hamouda, A., & Marei, M. (2017a). Ant Colony Heuristic for User-Contributed Comments Summarization. Knowledge-Based Systems, 118.

Mosa, M. A., Hamouda, A., & Marei, M. (2017b). Graph coloring and ACO based summarization for social networks. Expert Systems with ApplicationsApplications, 74.

Nichols, J., Mahmud, J., & Drews, C. (2012). Summarizing Sporting Events Using Twitter. In Proceedings of the 2012 ACM international conference on Intelligent User Interfaces (pp. 189–198).

Sanchez-Gomez, J. M., Vega-Rodríguez, M. A., & Pérez, C. J. (2018). Extractive multi-document text summarization using a multi-objective artificial bee colony optimization approach. Knowledge-Based Systems, 159, 1–8.

Sharifi, B., Hutton, M.-A., & Kalita, J. (2015). Summarizing Microblogs Automatically. In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (pp. 685–688).

Zhang, R., Li, W., Gao, D., & Ouyang, Y. (2013). Automatic Twitter Topic Summarization With Speech Acts. IEEE Transactions on Audio, Speech, and Language Processing, 21(3).

Abba Suganda Girsang