Studi Literatur : Penilaian Jawaban Singkat secara Otomatis

Penilaian terhadap jawaban singkat secara otomatis dapat dicapai dengan beberapa cara. (Magooda, Zahran, Rashwan, Raafat, & Fayek, 2016) di dalam penelitiannya membuat sebuah sistem yang menjalankan proses penilaian dengan menggunakan sejumlah besar algoritma sekaligus, antara lain Block Distance Measure, JiangConrath, Lesk, DISCO, Word2Vec, GloVe, dan Sense Aware Vectors, kemudian menggunakan nilai rata-rata dari semuanya itu sebagai nilai akhir. Mereka menggunakan dataset berupa soal dan jawaban dari mahasiswa Texas University jurusan computer science dan Cairo University jurusan environmental science, serta dataset SemEval 2013. Dari dataset Texas University didapatkan bahwa penilaian yang dihasilkan oleh sistem mereka berhasil mendapatkan nilai RMSE sebesar 0,91 apabila dibandingkan dengan hasil penilaian dosen. Nilai ini masih kalah dibandingkan dengan algoritma SVR yang memiliki nilai RMSE sebesar 0.998 dan algoritma SVM yang memiliki nilai RMSE sebesar 0,978. Sementara itu pada dataset Cairo University, hasil penilaian gabungan yang didapatkan dari sistem mereka mendapatkan nilai RMSE sebesar 0,89; di mana nilai ini juga kalah dari nilai RMSE yang didapatkan apabila cukup menggunakan satu algoritma saja. Walaupun waktu pemrosesan tidak dicatat dan dipaparkan dalam paper mereka, penulis meyakini bahwa kelemahan lain dari metode ini adalah waktu pemrosesan yang bisa dipastikan sangat panjang, mengingat semua algoritma penilaian yang disebutkan di atas harus dijalankan, sebelum hasil akhirnya digabungkan menjadi satu. Pemborosan daya listrik dan waktu membuat sistem ini hanya mentok di level lab saja dan tidak mungkin diaplikasikan di dunia nyata.

(Saha, Dhamecha, Marvaniya, Sindhgatta, & Sengupta, 2018) juga membuat sebuah metode gabungan di dalam penelitian mereka, di mana mereka menggabungkan metode machine learning (proses embeddings menggunakan InferSent) dan tiga metode penilaian dari zaman sebelum machine learning, di mana aturan masih tulis tangan, yakni  Word Overlap, Histogram of Partial Similarity, dan Question Types. Dataset yang digunakan ada tiga, yaitu Large Scale Industry Dataset, SemEval 2013, dan Mohler. Hasilnya, penggabungan dua metode ini diklaim memiliki keakuratan yang menyaingi, bahkan melebihi metode state of the art, terutama pada jawaban-jawaban yang menggunakan terlalu banyak parafrase / melenceng jauh dari domain pertanyaan; tetapi mereka sama sekali tidak menampilkan berapa cepat waktu eksekusi program mereka.

(Ghavidel, Zouaq, & Desmarais, 2020) di dalam penelitiannya tentang membuat sistem penilaian otomatis terhadap jawaban singkat menggunakan machine learning model jenis transformers, yakni BERT dan XLNET. Untuk dataset, mereka menggunakan SemEval 2013. Mereka membandingkan hasil penelitiannya dengan paper lain dan mendapatkan bahwa penggunaan machine learning model BERT dan XLNET untuk penilaian jawaban singkat memiliki hasil yang setara atau sedikit lebih baik daripada metode populer lainnya dengan dataset yang sama. Kelemahan yang penulis temukan dari jurnal ilmiah ini adalah dataset yang digunakan adalah dataset yang sudah sangat umum dan sudah dipakai oleh berbagai jenis paper sejak tahun 2013. Lagi pula dataset SemEval 2013 itu lebih ditujukan penggunaannya kepada Semantic Analysis dan Word Disambiguation.

(Condor, Litster, & Pardos, 2021) menggunakan tiga metode berbeda untuk proses embeddings di dalam penelitian mereka, yaitu SBERT, Word2Vec, dan Bag of Words. Untuk dataset, mereka menggunakan data milik Berkeley Evaluation and Assessment Research (BEAR) center yang berisi data pertanyaan dan jawaban ujian masuk perguruan tinggi, di mana semua data ini berhubungan dengan materi aljabar. Dataset diproses dengan dua kombinasi, ada yang hanya dimasukkan jawaban, ada yang dimasukkan pertanyaan dan jawabannya sekaligus. Hasilnya adalah, SBERT secara konsisten mengalahkan Word2Vec dan Bag of Words. Kelemahan yang diakui penulisnya sendiri adalah, mereka belum mencobakannya pada kumpulan pertanyaan dan jawaban lain untuk melihat konsistensi hasilnya

(Sultan, Salazar, & Sumner, 2016) di dalam laporan penelitiannya mencoba mengajukan sebuah sistem penilaian jawaban singkat secara otomatis yang cepat, simpel, dan memiliki akurasi tinggi. Proses penilaian yang terjadi di dalam sistem buatan mereka memiliki lima teknik utama, yakni Alignment, Semantic Vector Similarity, Question Demoting, Term Weighting dan Length Ratio. Untuk dataset, mereka juga menggunakan milik Mohler (2011), dan SemEval 2013. Hasilnya adalah sistem penilaian jawaban otomatis dengan performa cukup baik, di mana sistem berhasil menilai rata-rata 33 jawaban per menit pada komputer dengan kecepatan 2.25 GHz. Sayangnya Term Weighting dinilai kurang berpengaruh karena kebanyakan jawaban dari dataset yang digunakan dalam penelitian ini hanya terdiri dari beberapa kata sehingga tidak ada bedanya antara kata kunci dan kata yang kurang penting. Penelitian lanjutan diperlukan menggunakan dataset yang memiliki jawaban lebih panjang.

Referensi
Condor, A., Litster, M., & Pardos, Z. (2021). Automatic short answer grading with SBERT on out of sample questions. Proceedings of The 14th International Conference on Educational Data Mining, 345-352.

Ghavidel, H. A., Zouaq, A., & Desmarais, M. C. (2020). Using BERT and XLNET for the Automatic Short Answer Grading Task. Proceedings of the 12th International Conference on Computer Supported Education, 58-67.

Magooda, A., Zahran, M. A., Rashwan, M., Raafat, H., & Fayek, M. B. (2016). Vector Based Techniques for Short Answer Grading. Proceedings of the Twenty-Ninth International Florida Artificial Intelligence Research Society Conference (pp. 238-243). Florida: Florida Artificial Intelligence Research Society.

Saha, S., Dhamecha, T. I., Marvaniya, S., Sindhgatta, R., & Sengupta, B. (2018). Sentence Level or Token Level Features for Automatic Short Answer Grading?: Use Both. 19th International Conference of Artificial Intelligence in Education (pp. 1-14). London: IBM Research-India.

Sultan, M. A., Salazar, C., & Sumner, T. (2016). Fast and Easy Short Answer Grading with High Accuracy. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 1070-1075). San Diego: Association for Computational Linguistics.

  1. Program jurusan sangat bagus.

    • Terimakasih