Peringkas Teks Otomatis (Automatic Text Summarization)
Penulis: Yulyardo, Okta Purnama Rahadian, Martin Sujono
Pembimbing/Editor: Amalia Zahra, S.Kom., Ph.D.
Pendahuluan
Text Summarization atau ringkasan teks pertama kali diperkenalkan pada tahun 1950 (Gaikwad & Mahender, 2016), merupakan suatu metode dalam membuat ringkasan yang singkat, akurat, dan dapat dicerna dari suatu dokumen teks yang panjang. Sedangkan automatic text summarization adalah suatu langkah untuk membuat ringkasan secara otomatis dengan tidak mengubah inti dari suatu dokumen yang diringkas. Automatic text summarization atau biasa disebut automatic summarization sangat dibutuhkan pada era big data sekarang ini, di mana jumlah data teks setiap hari selalu bertambah dengan sangat banyak dan tidak terstruktur sehingga untuk membantu menemukan informasi yang relevan dengan lebih cepat dibutuhkan automatic summarization.
Tahukah Anda bahwa sebenarnya text summarization sudah ada dalam kehidupan sehari-hari kita? Contohnya, headline atau tajuk berita, rangkuman dari siswa atas materi yang diberikan oleh pengajar, dalam dunia kerja terdapat notulen dari suatu rapat, sinopsis dari sebuah buku ataupun review dari sebuah film.
Beberapa manfaat yang didapat dengan adanya automatic summarization (Torres-Moreno, 2014) antara lain:
- Ringkasan mengurangi waktu membaca dan memahami suatu dokumen.
- Dalam pencarian suatu dokumen, ringkasan membuat proses pemilihan dokumen yang relevan menjadi lebih mudah.
- Automatic summarization meningkatkan tingkat efektifitas dari suatu indexing.
- Algoritma yang digunakan padaautomatic summarization cenderung tidak bias daripada ringkasan yang dibuat oleh manusia.
Fitur Text Summarization
Untuk menentukan frase atau kalimat utama maka digunakan beberapa fitur yang dijadikan dasar pertimbangan untuk menghitung weight, di antaranya:
- Frekuensi
Kata yang dianggap penting adalah kata yang sering muncul dalam sebuah dokumen. Semakin sering muncul, maka perhitungan skor untuk kata tersebut semakin tinggi. Pengukuran yang umum digunakan untuk menghitung frekuensi kata adalah TF-IDF.
- Lokasi
Kalimat utama dalam suatu paragraf biasanya terdapat pada bagian awal dan akhir dari sebuah paragraf, sehingga kalimat ini memiliki kesempatan yang lebih besar untuk diikutsertakan dalam sebuah ringkasan daripada kalimat yang berada di tengah paragraf (Reeve et al., 2006).
- Cue Method
Pentingnya suatu ide biasanya tersirat dari kalimat: “in summary”, “in conclusion”, “the paper describes”, atau “kesimpulannya adalah”, “ringkasannya”.
- Judul/Kepala Berita
Kata yang ada pada judul dan kepala/pokok berita besar kemungkinannya berhubungan dengan ringkasan. Kata-kata yang ada pada sebuah judul juga mengindikasikan topik dari suatu dokumen (Khan & Salim, 2014).
- Panjang Kalimat
Pada umumnya, kalimat yang terlalu panjang ataupun pendek tidak cocok digunakan dalam sebuah ringkasan (Reeve et al., 2006).
- Kemiripan
Kemiripan dapat dikalkulasi dengan pengetahuan linguistik. Hal ini mengindikasi kemiripan kalimat yang digunakan dalam judul dan dalam isi dokumen.
- Kata Benda
Penggunaan kata benda yang tepat harus diperhatikan. Ringkasan harus menggunakan kata benda yang tepat, misalnya nama seseorang, nama tempat ataupun organisasi.
- Kedekatan
Jarak antar kata dalam sebuah entity menjadi sebuah faktor untuk membuat relasi antar entity.
Metode Text Summarization
Pendekatan yang umum dalam membuat text summarization antara lain:
- Metode extraction/ekstraksi
- Metode abstraction/abstraksi
Dari kedua metode di atas, yang paling sering digunakan adalah metode ekstraksi karena metode ini lebih mudah digunakan. Akan tetapi metode abstraksi menjanjikan hasil yang lebih baik di masa mendatang. Berikut pembahasan dari dua metode tersebut.
1. Metode extraction/ekstraksi
Metode extraction/ekstraksi sesuai dengan namanya, yakni mengekstrak atau memilih kata, frase, ataupun kalimat dari sumber dokumen untuk dijadikan sebuah ringkasan. Teknik yang digunakan pada metode ini adalah menggunakan ranking dari relevansi suatu frase. Yang nanti akan dipilih hanya bagian yang paling relevan untuk digunakan dalam ringkasan. Pada metode ini, frase atau kalimat utama diekstrak dari sumber dokumen dan digabungkan sehingga menjadi suatu ringkasan yang mewakili isi dari sumber dokumen (Kumar, Goh, Basiron, Choon, & Suppiah, 2016). Berikut adalah teknik yang menggunakan metode ekstraksi:
- Term frequency-inverse document frequency method
- Cluster based method
- Graph theoretic method
- Machine learning approach
- LSA method
- Text summarization with neural networks
- Automatic TS based on fuzzy logic
- Query based extractive text summarization
2. Metode abstraction/abstraksi
Metode abstraction/abstraksi yakni membuat ringkasan dari kalimat ataupun frase yang berbeda, tetapi tetap memiliki intisari arti yang sama dari sumber dokumen. Metode ini biasa digunakan oleh kita dalam membuat ringkasan, dan metode ini lebih menantang daripada metode sebelumnya. Teknik yang digunakan salah satunya adalah teknik natural language yang kompleks. Metode ini diklasifikasi menjadi dua kategori, yakni:
- Structured based approach
Pendekatan ini mengubah informasi yang penting dari suatu dokumen melalui skema kognitif seperti template, aturan ekstraksi (extraction rules) dan struktur lainnya seperti tree, ontology, lead and body phrase structure (Saranyamol & Sindhu, 2004). Metode yang menggunakan pendekatan ini di antaranya:
- Tree based method
- Template based method
- Ontology based method
- Lead and body phrase method
- Rule based method
-
- Semantic based approach
- Pada pendekatan ini, representasi secara semantik dari suatu dokumen digunakan sebagai masukan dari sistem natural language. Metode ini berfokus pada identifikasi frase kata benda dan kata kerja dengan memproses data linguistik (Saranyamol & Sindhu, 2004). Metode yang menggunakan pendekatan ini di antaranya:
- Multimodal semantic model
- Information item based method
- Semantic graph based method
Referensi
Gaikwad, D. K., & Mahender, C. N. (2016). A Review Paper on Text Summarization, 5(3), 154–160. https://doi.org/10.17148/IJARCCE.2016.5340
Khan, A., & Salim, N. (2014). A review on abstractive summarization methods. Journal of Theoretical and Applied Information Technology, 59(1), 64–72. https://doi.org/10.1016/j.asoc.2015.01.070
Kumar, Y. J., Goh, O. S., Basiron, H., Choon, N. H., & Suppiah, P. C. (2016). A review on automatic text summarization approaches. Journal of Computer Science, 12(4), 178–190. https://doi.org/10.3844/jcssp.2016.178.190
Reeve, L. H., Han, H., Nagori, S. V., Yang, J. C., Schwimmer, T. A., & Brooks, A. D. (2006). Concept frequency distribution in biomedical text summarization. Proceedings of the 15th ACM International Conference on Information and Knowledge Management – CIKM ’06, 604. https://doi.org/10.1145/1183614.1183701
Saranyamol, C. S., & Sindhu, L. (2004). A Survey on Automatic Text Summarization. International Journal of Computer Science and Information Technologies, 5(6).
Torres-Moreno, J.-M. (2014). Automatic Text Summarization (Cognitive Science and Knowledge Management) (1st ed.). Wiley-ISTE.