Named Entity Recognition

 

 

 

Named Entity Recognition (NER) merupakan salah satu langkah pertama menuju ekstraksi informasi yang berupaya menemukan dan mengklasifikasikan entitas yang disebutkan pada suatu teks ke dalam kategori yang telah ditentukan sebelumnya seperti nama orang, organisasi, lokasi, waktu, nilai, persentase, dan lain-lain. NER digunakan di banyak bidang dalan Natural Language Processing (NLP) dan dapat membantu menjawab banyak kebutuhan.. NER bertindak sebagai langka pra-pemrosesan yang penting untuk berbagai aplikasi hilir seperti pemulihan informasi, penjawab pertanyaan, terjemahan mesin, dan lainnya. Pengenalan entitas bernama dalam permintaan pencarian akan membantu untuk lebih memahami maksud pengguna, sehingga memberikan hasil pencarian yang lebih baik

Terdapat tiga pendekatan utama untuk NER, lexicon-based, rule-based, dan machine learning based. Namun, NER juga dapat menggabungkan lebih dari satu kategori tersebut. Beberapa pendekatan untuk NER bergantung pada POS tagging. Ditampilkan pada Tabel 1 adalah alat untuk NER tagging. Seluruh alat didasarkan terutama pada pendekatan statistik, sedangkan CoreNLP NER Stanford menggunakan linear chain CRFs, dan Apache OpenNLP menggunakan ME .

 

Tabel 1. Tools / Library untuk Named Entity Recognition

Nama Library Bahasa Pemrograman Lisensi
SpaCy Python MIT
GATE Java LGPL
OpenNLP Java Apache 2.0
CoreNLP Java GPL 3.0
NLTK Python Apache 2.0
CogcompNLP Java Research

 

Ekstraksi entitas pada kumpulan kalimat merupakan upaya untuk mendeteksi dan mengklasifikasi entitas seperti nama orang, organisasi, tempat, dan waktu. Hal ini sering disebut dengan istilah Named Entity Recognition (NER). NER tidak hanya bertindak sebagai alat untuk ekstraksi informasi, namun juga memainkan peran penting dalam berbagai natural language processing (NLP) seperti text understanding, information retrieval, automatic text summerization, machine translation, dan knowledge base construction. Terdapat empat pendekatan utama yang diterapkan dalam NER : 1) Pendekatan rule-based, yang tidak membutuhkan data beranotasi karena mengandalkan aturan buatan, 2) Pendekatan unsupervied learning, 3) Pendekatan feature-based supervised learning yang mengandalkan algoritma pembelajaran yang diawasi dengan rekayasa fitur yang cermat, dan 4) Pendekatan berbasis deep-learning, yang secara otomatis menemukan representasi yang diperlukan untuk klasifikasi dan/atau deteksi dari input mentah secara end-to-end

Sistem rule-based NER mengandalkan aturan buatan. Kim & Woodland, 2000 mengusulkan untuk menggunakan pendekatan Brill rule inference untuk masukan speech. Performa rule-based dibandingkan dengan IdentiFinder yang merupakan salah satu sistem stokastik paling sukses. Kedua teknik ini menunjukkan kinerja yang hampir sama, begitu juga dalam hal informasi tambahan seperti tanda baca, penggunaan huruf besar, dan daftar nama. Penelitian ini menghasilkan inferensi aturan otomatis merupakan alternatif yang layak untuk pendekatan berbasis HMM dalam named entity recognition, namun tetap mempertahankan keuntungan dari pendekatan rule-based. Hanisch (Hanisch et al., 2005) mengusulkan ProMiner yang memanfaatkan kamus sinonim pra-proses untuk mengidentifikasi penyebutan protein dan gen potensial dalam teks biomedis. Berdasarkan semua sinonim yang terdeteksi untuk satu abstrak, pengenal database yang paling masuk akal dikaitkan dengan teks. Hasilnya dalam prediksi buta, sistem mencapai F-measure sekitar 0,8 untuk organisme tikus dan lalat serta 0,9 untuk organisme ragi.

Pendekatan khas dari unsupervised learning adalah clustering atau pengelompokan. Sistem NER berbasis pengelompokan mengekstrak entitas bernama dari kelompok yang dikelompokkan berdasarkan kesamaan konteks. Collins (Collins & Singer, 1999) mengamati bahwa penggunaan data yang tidak berlabel mengurangi persyaratan pengawasan menjadi hanya 7 aturan sederhana. Pendekatan ini memperoleh pengaruh dari redundansi alami dalam data, untuk banyak contoh entitas bernama baik ejaan nama dan konteks yang muncul cukup untuk menentukan jenisnya. Demikian pula KNOWITALL (Etzioni et al., 2005) yang memanfaatkan satu set nama predikat sebagai input dan memproses pengenalannya dari sekumpulan kecil pola ekstraksi generik. Penelitian ini menyajikan tiga cara berbeda untuk mengatasi tantangan dan mengevaluasi kinerjanya dengan perolehan peningkatan 4 kali lipat menjadi 8 kali lipat dengan presisi 0,90 dan menemukan lebih dari 10.000 kota yang hilang.

Pada supervised learning, NER diterapkan ke multi-class classification atau tugas sequence labeling. Dengan sampel data beranotasi, fitur dirancang dengan cermat untuk mewakili setiap contoh pelatihan. Algoritma pembelajaran mesin kemudian digunakan untuk mempelajari model guna mengenali pola sepura dari data yang tidak terlihat. Feature engineering merupakan hal yang sangat penting dalam sistem supervised NER. Representasi feature vector merupakan abstraksi atas teks di mana sebuah kata diwakili oleh satu atau banyak nilai boolean, numerik, atau nominal. Fitur tingkat kata, fitur pencarian daftar, dan fitur corpus telah banyak digunakan dalam supervised NER. Berdasarkan fitur-fitur ini, banyak algoritma pembelajaran mesin yang telah diterapkan dalam supervised NER, termasuk Hidden Markov Model (HMM), Decision Threes, Maximum Entropy Model, Support Vector Machine, dan Contitional Random Fields (CRF)

 

Disadur dari :

Anugerah Atmaja, Abba Suganda Girsang, Analisis Pengaruh Named-Entity Terhadap Klasifikasi Teks Data Kecelakaan Lalu Lintas Menggunakan Machine Learning. Tesis, Universitas Bina Nusantara, Jakarta. 2021

 

Abba Suganda Girsang S.T., M.Cs., Ph.D