NLP for Indonesian Languages: The Current States and Future Works

(Sesi Guest Lecture  oleh Fajri Koto dari University of Melbourne, Australia)

Pada hari Kamis, 6 Oktober 2022 pukul 09:00 WIB telah diadakan sesi guest lecture di Magister Teknik Informatika (MTI), Universitas Bina Nusantara dengan pembicara Fajri Koto, S.Kom., M.Kom., yang merupakan PhD candidate dari University of Melbourne, Australia dan penerima Australia Award Scholarship (AAS). Beliau memperoleh pendidikan S1 dan S2 dari Fakultas Ilmu Komputer, Universitas Indonesia. Di dunia profesional, Beliau pernah menjadi applied scientist di Amazon selama 6 bulan di tahun 2021-2022. Selain itu, Beliau juga pernah bekerja sebagai research engineer di Samsung R&D Institute Indonesia. Area penelitian yang menjadi minat Beliau adalah Natural Language Processing (NLP) dan deep learning.

Pada sesi guest lecture yang masih diadakan secara online melalui video conference ini (Gambar 1), Beliau berbagi ilmu dengan judul “NLP for Indonesian Languages: The Current States and Future Works” dengan peserta kuliah tamu didominasi oleh mahasiswa/i MTI, baik jalur reguler maupun online. Topik tersebut relevan dengan bidang penelitian tesis sejumlah mahasiswa MTI. Dengan demikian, mahasiswa diharapkan memperoleh insight lebih kaya dan inspirasi langsung dari pakarnya.

Gambar 1. Pembukaan Sesi Guest Lecture

Sebelum tahun 2014, penelitian di ranah NLP banyak menerapkan pendekatan-pendekatan machine learning biasa, yang dianggap sudah outdated di masa sekarang. Beberapa algoritma yang dimaksud di antaranya Naïve Bayes, Support Vector Machine (SVM), simple Artificial Neural Network (ANN), Logistic Regression, dan sebagainya. Model-model yang sudah outdated ini bukan berarti ditinggalkan sama sekali, melainkan masih digunakan untuk menyelesaikan masalah-masalah sederhana atau dijadikan sebagai baseline model, tetapi bukan untuk kebaruan penelitian. Model-model modern saat ini seluruhnya berbasis Neural Networks, seperti Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), RNN yang dilengkapi dengan attention mechanism, dan seterusnya. Konsep model-model tersebut dipaparkan oleh pembicara pada sesi ini.

Perkembangan penelitian NLP untuk Bahasa Inggris sangatlah pesat dan sudah jauh di depan. Bagaimana dengan bahasa lainnya? Masih banyak bahasa lain di dunia yang belum diteliti sejauh Bahasa Inggris. Namun pertanyaannya, mengapa penting untuk meneliti NLP selain Bahasa Inggris?

Gambar 2. Keragaman Bahasa dan Keterlibatannya dalam NLP (Joshi et al., 2020)

Pada Gambar 2 terlihat bahwa penutur Bahasa Inggris (bersama Bahasa Spanyol, Jerman, Jepang, dan Perancis) berada di posisi kelima dengan mencakup hanya 0,28% dari seluruh total bahasa yang ada di dunia. Masih banyak bahasa lain yang belum dieksplor atau diteliti, sedangkan jumlah penuturnya tidaklah sedikit. Salah satunya adalah Bahasa Indonesia. Salah satu kontribusi penelitian Pak Fajri di dunia NLP Bahasa Indonesia adalah menghasilkan IndoLEM dan IndoBERT (Koto et al., 2020), yang sudah banyak digunakan oleh para peneliti NLP untuk Bahasa Indonesia. Sesi penyampaian materi ditutup dengan pemaparan tantangan-tantangan penelitian di bidang NLP, khususnya untuk Bahasa Indonesia dan bahasa-bahasa daerah di Indonesia beserta topik-topik yang potensial untuk diteliti di masa mendatang. Masih banyak research gap yang perlu diisi.

Setelah kurang lebih 1 jam penyampaian materi, sesi guest lecture ditutup dengan Q&A dari para peserta ke pembicara selama kurang lebih 30 menit. Peserta antusias menggali informasi lebih jauh mengenai NLP, khususnya untuk Bahasa Indonesia, mulai dari konsep umum mengenai cara mengatasi kata-kata ambigu di bahasa daerah hingga hal teknis terkait arsitektur model transformer. Dapat disimpulkan bahwa acara yang dihadiri oleh sekitar 110 orang berjalan lancar hingga selesai.

Referensi:

Joshi, P., Santy, S., Budhiraja, A., Bali, K., and Choudhury, M. (2020). The state and fate of linguistic diversity and inclusion in the NLP world. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Online, 6282–6293. https://doi.org/10.18653/v1/2020.acl-main.560

Koto, F., Rahimi, A., Lau, J. H., & Baldwin, T. (2020). IndoLEM and IndoBERT: A benchmark dataset and pre-trained language model for Indonesian NLP. In Proceedings of the 28th COLING 2020, Barcelona, Spain (virtual).

Amalia Zahra