Peringkas Teks Otomatis (Automatic Text Summarization)

 

Penulis: Yulyardo, Okta Purnama Rahadian, Martin Sujono

Pembimbing/Editor: Amalia Zahra, S.Kom., Ph.D.

 

 

Pendahuluan

Text Summarization atau ringkasan teks pertama kali diperkenalkan pada tahun 1950 (Gaikwad & Mahender, 2016), merupakan suatu metode dalam membuat ringkasan yang singkat, akurat, dan dapat dicerna dari suatu dokumen teks yang panjang. Sedangkan automatic text summarization adalah suatu langkah untuk membuat ringkasan secara otomatis dengan tidak mengubah inti dari suatu dokumen yang diringkas. Automatic text summarization atau biasa disebut automatic summarization sangat dibutuhkan pada era big data sekarang ini, di mana jumlah data teks setiap hari selalu bertambah dengan sangat banyak dan tidak terstruktur sehingga untuk membantu menemukan informasi yang relevan dengan lebih cepat dibutuhkan automatic summarization.

Tahukah Anda bahwa sebenarnya text summarization sudah ada dalam kehidupan sehari-hari kita? Contohnya, headline atau tajuk berita, rangkuman dari siswa atas materi yang diberikan oleh pengajar, dalam dunia kerja terdapat notulen dari suatu rapat, sinopsis dari sebuah buku ataupun review dari sebuah film.

Beberapa manfaat yang didapat dengan adanya automatic summarization (Torres-Moreno, 2014) antara lain:

  1. Ringkasan mengurangi waktu membaca dan memahami suatu dokumen.
  2. Dalam pencarian suatu dokumen, ringkasan membuat proses pemilihan dokumen yang relevan menjadi lebih mudah.
  3. Automatic summarization meningkatkan tingkat efektifitas dari suatu indexing.
  4. Algoritma yang digunakan padaautomatic summarization cenderung tidak bias daripada ringkasan yang dibuat oleh manusia.

Fitur Text Summarization

Untuk menentukan frase atau kalimat utama maka digunakan beberapa fitur yang dijadikan dasar pertimbangan untuk menghitung weight, di antaranya:

  1. Frekuensi

Kata yang dianggap penting adalah kata yang sering muncul dalam sebuah dokumen. Semakin sering muncul, maka perhitungan skor untuk kata tersebut semakin tinggi. Pengukuran yang umum digunakan untuk menghitung frekuensi kata adalah TF-IDF.

  1. Lokasi

Kalimat utama dalam suatu paragraf biasanya terdapat pada bagian awal dan akhir dari sebuah paragraf, sehingga kalimat ini memiliki kesempatan yang lebih besar untuk diikutsertakan dalam sebuah ringkasan daripada kalimat yang berada di tengah paragraf (Reeve et al., 2006).

  1. Cue Method

Pentingnya suatu ide biasanya tersirat dari kalimat: “in summary”, “in conclusion”, “the paper describes”, atau “kesimpulannya adalah”, “ringkasannya”.

  1. Judul/Kepala Berita

Kata yang ada pada judul dan kepala/pokok berita besar kemungkinannya berhubungan dengan ringkasan. Kata-kata yang ada pada sebuah judul juga mengindikasikan topik dari suatu dokumen (Khan & Salim, 2014).

  1. Panjang Kalimat

Pada umumnya, kalimat yang terlalu panjang ataupun pendek tidak cocok digunakan dalam sebuah ringkasan (Reeve et al., 2006).

  1. Kemiripan

Kemiripan dapat dikalkulasi dengan pengetahuan linguistik. Hal ini mengindikasi kemiripan kalimat yang digunakan dalam judul dan dalam isi dokumen.

  1. Kata Benda

Penggunaan kata benda yang tepat harus diperhatikan. Ringkasan harus menggunakan kata benda yang tepat, misalnya nama seseorang, nama tempat ataupun organisasi.

  1. Kedekatan

Jarak antar kata dalam sebuah entity menjadi sebuah faktor untuk membuat relasi antar entity.

 

Metode Text Summarization

Pendekatan yang umum dalam membuat text summarization antara lain:

  1. Metode extraction/ekstraksi
  2. Metode abstraction/abstraksi

Dari kedua metode di atas, yang paling sering digunakan adalah metode ekstraksi karena metode ini lebih mudah digunakan. Akan tetapi metode abstraksi menjanjikan hasil yang lebih baik di masa mendatang. Berikut pembahasan dari dua metode tersebut.

 

1.      Metode extraction/ekstraksi

Metode extraction/ekstraksi sesuai dengan namanya, yakni mengekstrak atau memilih kata, frase, ataupun kalimat dari sumber dokumen untuk dijadikan sebuah ringkasan. Teknik yang digunakan pada metode ini adalah menggunakan ranking dari relevansi suatu frase. Yang nanti akan dipilih hanya bagian yang paling relevan untuk digunakan dalam ringkasan. Pada metode ini, frase atau kalimat utama diekstrak dari sumber dokumen dan digabungkan sehingga menjadi suatu ringkasan yang mewakili isi dari sumber dokumen (Kumar, Goh, Basiron, Choon, & Suppiah, 2016). Berikut adalah teknik yang menggunakan metode ekstraksi:

  • Term frequency-inverse document frequency method
  • Cluster based method
  • Graph theoretic method
  • Machine learning approach
  • LSA method
  • Text summarization with neural networks
  • Automatic TS based on fuzzy logic
  • Query based extractive text summarization

 

2.    Metode abstraction/abstraksi

Metode abstraction/abstraksi yakni membuat ringkasan dari kalimat ataupun frase yang berbeda, tetapi tetap memiliki intisari arti yang sama dari sumber dokumen. Metode ini biasa digunakan oleh kita dalam membuat ringkasan, dan metode ini lebih menantang daripada metode sebelumnya. Teknik yang digunakan salah satunya adalah teknik natural language yang kompleks. Metode ini diklasifikasi menjadi dua kategori, yakni:

  • Structured based approach

Pendekatan ini mengubah informasi yang penting dari suatu dokumen melalui skema kognitif seperti template, aturan ekstraksi (extraction rules) dan struktur lainnya seperti tree, ontology, lead and body phrase structure (Saranyamol & Sindhu, 2004). Metode yang menggunakan pendekatan ini di antaranya:

  1. Tree based method
  2. Template based method
  3. Ontology based method
  4. Lead and body phrase method
  5. Rule based method
    • Semantic based approach
  • Pada pendekatan ini, representasi secara semantik dari suatu dokumen digunakan sebagai masukan dari sistem natural language. Metode ini berfokus pada identifikasi frase kata benda dan kata kerja dengan memproses data linguistik (Saranyamol & Sindhu, 2004). Metode yang menggunakan pendekatan ini di antaranya:
  1. Multimodal semantic model
  2. Information item based method
  3. Semantic graph based method

Referensi

Gaikwad, D. K., & Mahender, C. N. (2016). A Review Paper on Text Summarization, 5(3), 154–160. https://doi.org/10.17148/IJARCCE.2016.5340

Khan, A., & Salim, N. (2014). A review on abstractive summarization methods. Journal of Theoretical and Applied Information Technology, 59(1), 64–72. https://doi.org/10.1016/j.asoc.2015.01.070

Kumar, Y. J., Goh, O. S., Basiron, H., Choon, N. H., & Suppiah, P. C. (2016). A review on automatic text summarization approaches. Journal of Computer Science, 12(4), 178–190. https://doi.org/10.3844/jcssp.2016.178.190

Reeve, L. H., Han, H., Nagori, S. V., Yang, J. C., Schwimmer, T. A., & Brooks, A. D. (2006). Concept frequency distribution in biomedical text summarization. Proceedings of the 15th ACM International Conference on Information and Knowledge Management  – CIKM ’06, 604. https://doi.org/10.1145/1183614.1183701

Saranyamol, C. S., & Sindhu, L. (2004). A Survey on Automatic Text Summarization. International Journal of Computer Science and Information Technologies, 5(6).

Torres-Moreno, J.-M. (2014). Automatic Text Summarization (Cognitive Science and Knowledge Management) (1st ed.). Wiley-ISTE.

Amalia Zahra