Sistem Pengenalan Suara Percakapan Pada Microsoft 2017

Penulis: Fransiska Humida Marpaung dan Meri Chindyana

Pembimbing/Editor: Amalia Zahra, S.Kom., Ph.D.

Pengenalan suara percakapan pada Microsoft 2017 dihasilkan dari pembaharuan pada Microsoft 2016 dengan pengembangan berbasis jaringan saraf pada acoustic models dan language models untuk memajukan state of the art pada tugas pengenalan suara Switchboard. Sistem menambahkan acoustic models berupa Convolutional Neural Network – Bidirectional Long Short Term Memory (CNN-BLSTM) ke set model arsitektur yang dikombinasikan sebelumnya, termasuk karakter dan sesi dialog. Kombinasi sistem juga mengadopsi pendekatan dua tahap, di mana himpunan bagian dari acoustic models pertama kali digabungkan pada tingkat senone/frame, lalu diikuti oleh pemungutan suara word-level menggunakan confusion networks.

Language models ditingkatkan dengan tambahan level-ucapan atau utterance-level LSTM berdasarkan karakter kata-kata yang ada, serta LSTM berbasis dialog session yang menggunakan seluruh percakapan sebelumnya sebagai histori. Pendekatan kombinasi pada sistem ini disempurnakan dengan menggabungkan prediksi dari beberapa model akustik di tingkat senone/frame dan kata. Kemudian menambahkan langkah Language Model (LM) rescoring. Hasil yang diperoleh sistem menghasilkan tingkat kesalahan kata 5,1% pada himpunan evaluasi Switchboard 2000, sehingga melampaui tingkat akurasi manusia yang telah diukur sebelumnya. Acoustic models yang digunakan adalah sebagai berikut:

  1. Convolutional Neural Nets (CNN): Sistem ini menggunakan dua jenis model arsitektur CNN yaitu residual-network (ResNet) dan LACE. Arsitektur ResNet adalah CNN standar, yaitu transformasi linear dari setiap input layer ke output layer. Sistem ini juga menerapkan normalisasi sebelum menghitung aktivasi rectified linear unit (ReLU) yang diperbaiki.
  2. Bidirectional LSTM: Untuk model acoustic berbasis LSTM, digunakan bidirectional architecture (BLSTM) tanpa frame-skipping. Ditemukan bahwa menggunakan jaringan dengan lebih dari enam lapisan tidak meningkatkan tingkat kesalahan kata pada himpunan pengembangan, hal ini memberikan trade-off yang wajar antara waktu pelatihan dan akurasi model akhir.
  3. Senone set diversity: Dikombinasikan dengan ukuran himpunan menghasilkan total empat himpunan senone yang berbeda.
  4. Speaker adaptation: Pemodelan speaker adaptation dalam sistem didasarkan pada pengkondisian jaringan pada karakterisasi i-vector masing-masing pembicara.
  5. Sequence training: Semua model dilatih secara berurutan menggunakan maximum mutual information (MMI) sebagai fungsi objektif diskriminatif.
  6. Frame-level model combination: Dalam sistem baru ini, ditambahkan kombinasi frame-level dari senone posteriors dari beberapa acoustic models.

Sedangkan tahap language models terdiri dari vocabulary size, yaitu menambahkan kosakata dalam-domain dengan frekuensi kata-kata yang paling sering muncul pada sumber di luar domain yang digunakan untuk pelatihan language models, LSTM-LM rescoring, yaitu untuk setiap acoustic models, sistem menerjemahkan dengan memangkas 4-gram LM untuk menghasilkan kisi-kisi, kemudian dialog session-based modeling mengekstraksi i-vector dari semua pidato di satu sisi percakapan. Kegiatan awal adalah melakukan pengaturan terhadap sistem output beserta language models-nya. Setelah itu dilakukan penggabungan skor log-linear dan normalisasi untuk mengetahui probabilitas posterior tingkat ucapan.

Hasil yang berupa output N-terbaik dari ucapan yang sama akan digabungkan menjadi satu kata dalam confusion networks (CN) melalui alat nbestrover SRILM. Pemberian bobot sistem terhadap probabilitas posterior diperkirakan melalui hipotesis N-best. Setiap sistem mempunyai bobot yang sama terhadap kombinasi yang telah dibentuk. Dimulai dari sembilan sistem individual terbaik, kemudian menghilangkan dua sistem, sehingga terbentuklah kombinasi tujuh sistem. Pada kegiatan terakhir, perlu dibuatnya daftar N-best baru yang berasal dari confusion networks (CN) hasil kombinasi sistem di atas menggunakan N-gram LM, dengan subset dari LSTM-LMs level-ucapan, dan satu tambahan sumber pengetahuan.

Sumber pengetahuan dalam tahap ini berguna untuk menganalisis perbedaan antara mesin dan kesalahan transkripsi manusia. Pola kesalahan yang spesifik terhadap mesin yang biasa terjadi adalah kesalahan pengenalan jeda dalam percakapan (‘uh’, ‘um’). Penggabungan acoustic models yang berbeda pada tingkat senone/frame perlu dimasukkan ke dalam kombinasi word-level. Language models perlu diperbarui dengan kosakata yang lebih besar untuk menurunkan tingkat Out-of-Vocabulary (OOV) sebesar 0,2% absolut.

Tabel 1. Hasil sistem yang dipilih untuk kombinasi, sistem gabungan, dan confusion network rescoring [1]

Penelitian ini mampu mengurangi tingkat kesalahan pada data Switchboard dalam mengenali kata yang diucapkan manusia sebanyak 5,1% dibandingkan kombinasi BLSTM + ResNet + LACE tahun 2016, yaitu sebesar 5,8%. Dengan demikian, dapat disimpulkan bahwa kombinasi menggunakan Confusion Network + LSTM rescoring + N-gram Rescoring + backchannel penalty adalah cara yang lebih efisien dan efektif dalam pengenalan suara percakapan.

Referensi

[1] Xiong.W; Wu.L; Alleva.F; Droppo.J; Huang.X; and Stolcke.A, “The Microsoft 2017 Conversational Speech Recognition System”, arXiv preprint arXiv:1708.0607324, 2017.

Amalia Zahra