SPEECH RECOGNITION

Speech Recognition atau yang biasa dikenal dengan automatic speech recognition (ASR) merupakan suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.

Sejarah perkembangan speech recognition dimulai pada tahun 1952 dengan ditemukannya Audrey
(automatic digit recognizer) oleh Bell Laboratories yang mampu mengenali suara angka. Namun pada tahun 1962 dikembangkannya teknologi shoebox , dimana teknologi ini mampu memahami 16 kata , 9 konsonan dan 4 vocal dalam Bahasa inggris. Selanjutnya pada tahun 1970-an Departemen Pertahanan A.S. memberikan kontribusi besar terhadap pengembangan speech recognition mengenai program DARPA SUR (speech understanding research) yang menghasilkan sistem dengan kemampuan memahami 1011 kata dan juga kalimat yang logis dalam Bahasa inggris. Selanjutnya pada tahun 1980-an sebuah terobosan besar mengenai pengembangan model Hidden Markov yang menggunakan statiska untuk menentukan probabilitas kata dari suara yang tidak dikenal. Sistem tersebut diadopsi dalam sebuah boneka yang dibuat untuk anak-anak yang di kenal sebai Julie. Boneka tersebut dilatih dengan kemampuan untuk menanggapi upacan namun masih ada kelemahannya yaitu pemberian jeda pada kata yang diucapkan. Kemudian pada tahun 1990-an perusahaan yang bernama DRAGON merilis sebuah speech recognition software pertama di dunia yang bernama Dragon Naturally Speaking yang membuat kita dapat mengucapkan 100 kata dalam 1 menit. Sedangkan pada tahun 2000-an sampai sekarang pengembangan speech recognition terus dikembangkan dengan didukung dengan teknologi-teknologi yang super canggih juga dan memungkinkan semakin canggih juga kemampuan speech recognition yang dihasilkan. Salah satu penerapan speech recognition yang terkenal saat ini yaitu munculnya aplikasi google voice search yang dirilis oleh google untuk iphone yang memanfaatkan data centers untuk menghitung sejumlah besar analisis data yang diperlukan untuk mencocokan permintaan pengguna dengan contoh-contoh nyata ucapan manusia

Jenis – Jenis Speech Recognition

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata,
yaitu:
1. Kata-kata yang terisolasi : Proses pengidentifikasian kata yang hanya dapat mengenal kata
yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata
2. Kata-kata yang berhubungan : Proses pengidentifikasian kata yang mirip dengan kata-kata
terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat
3. Kata-kata yang berkelanjutan: Proses pengidentifikasian kata yang sudah lebih maju karena
dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang
sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena
membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu.
Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
4. Kata-kata spontan : Proses pengidentifikasian kata yang dapat mengenal kata-kata yang
diucapkan secara spontan tanpa jeda waktu antar kata
5. Verifikasi atau identifikasi suara : Proses pengidentifikasian kata yang tidak hanya mampu
mengenal kata, namun juga mengidentifikasi siapa yang berbicara.

Proses pengenalan suara tidak hanya disediakannya data set dalam data center namun banyak metode yang digunakan pada proses pengenalan suara itu sendiri. Salah satu metode yang diperkenalan pada akhir tahun 1960 adalah metode Hidden Markov Model, metode ini berupa model statistika dari rantai markov. (Rabiner, Lawrence, 1989) dalam laporannya yang berjudul “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition” menjelaskan bahwa proses dalam dunia nyata secara umum menghasilkan observable output yang dapat dikarakterisasikan sebagai signal. Signal bisa bersifat diskrit (karakter dalam alfabet) maupun kontinu (pengukuran temperatur, alunan musik). Signal bisa bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai signal berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap signal secara benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model signal dapat dikategorikan menjadi 2 golongan yaitu : model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah signal seperti : amplitudo, frekuensi, fase dari gelombang sinus. Sedangkan model statistikal menggunakan nilai-nilai statistik dari sebuah signal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Hidden Markov.

Salah satu penelitian mengenai pengenalan suara dengan menggunakan nilai-nilai statistik dari sebuah signal yaitu peneltian mengenai jaringan syaraf tiruan murni yang dilakukan oleh (Graves, Mohamed, & Hinton, 2013) menjelaskan bahwa jaringan syaraf berulang atau RNN merupakan model yang kuat untuk proses pengenalan suara. Metode pelatihan seperti Connectionist Temporal Classification memungkinkan dalam melatih RNN untuk keselarasan dari input dan output yang tidak diketahui. Jaringan saraf memiliki sejarah panjang dalam pengenalan suara, dalam kombinasi dengan HMM (hidden markov model) mendapatkan perbaikan dalam pemodelan akustik yang dihasilkan oleh deep feedforward. Kombinasi HMM-RNN memungkinkan melatih RNN ‘end-to-end’ untuk pengenal ucapan dengan regularisasi. Hal tersebut dibuktikan dengan penemuan bahwa memori jangka pendek dalam RNNs mencapi tingkat kesalahan 17,7 % pada TIMIT atau satuan ukur dalam pengenalan suara.

Proses Kerja Alat Speech Recognition

Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu :
1. Tahap penerimaan masukan : sumber suara diterima melalui media perantara.
2. Tahap ekstraksi : penyimpanaan masukan yang berupa suara dan sekaligus pembuatan basis data
sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden
Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh
Markov sebagai suatu proses dengan parameter yang tidak diketahui.:
o N, yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung satu dengan
yang lain, dan suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut
dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana
suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini
bergantung pada implementasi dari model.
o M, yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya: karakter dalam abjad,
dimana bagian diartikan sebagai huruf dalam kata.
o Probabilita Perpindahan Bagian { } = ij A a
o Probabilita Simbol Observasi pada bagian j, { } () = j Bb k

o Inisial Distribusi Bagian i p p . Dengan memberikan nilai pada N, M, A, B, dan p , HMM dapat
digunakan sebagai generator untuk menghasilkan urutan observasi. dimana tiap observasi t o
adalah salah satu simbol dari V, dan T adalah jumlah observasi dalam suatu sequence.
o Setelah memberikan nilai N, M, A, B, dan p , maka proses ekstraksi dapat diurutkan. Berikut
adalah tahapan ekstraksi pengenalan ucapan berdasarkan HMM :
▪ Tahap ekstraksi tampilan : Penyaringan sinyal suara dan pengubahan sinyal suara analog ke
digital
▪ Tahap tugas pemodelan : Pembuatan suatu model HMM dari data-data yang berupa sampel
ucapan sebuah kata yang sudah berupa data digital
▪ Tahap sistem pengenalan HMM : Penemuan parameter-parameter yang dapat
merepresentasikan sinyal suara untuk analisis lebih lanjut.
3. Tahap pembandingan : Tahap ini merupakan tahap pencocokan data baru dengan data suara
(pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel.

Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam
bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
o Transformasi gelombang diskrit menjadi data yang terurut : Gelombang diskrit berbentuk
masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara
pembagian rincian waktu
o Menghitung frekuensi pada tiap elemen data yang terurut
o Selanjutnya tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan biner.
Data biner tersebut nantinya akan dibandingkan dengan pola data suara dan kemudian
diterjemahkan sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat.
4. Tahap validasi identitas pengguna : Alat pengenal ucapan yang sudah memiliki sistem
verifikasi/identifikasi suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang
diucapkan setelah menerjemahkan suara tersebut menjadi tulisan atau komando.

Penerapan Speech Recognition
1. Bidang komunikasi
• Komando Suara , suatu program pada komputer yang melakukan perintah berdasarkan komando
suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris. Ketika
pengguna mengatakan “Mulai kalkulator” dengan intonasi dan tata bahasa yang sesuai, komputer
akan segera membuka aplikasi kalkulator. Jika komando suara yang diberikan sesuai dengan daftar
perintah yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna
cukup mengatakan “Lakukan” dan komputer akan langsung beroperasi.
• Pendiktean, sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan
laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang
dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.
2. Bidang kesehatan
Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol yang lain.
3. Bidang militer
Pelatihan Penerbangan, Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalulintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot
dengan cara berdialog.

Kesimpulan
Speech recognition merupakan salah satu jenis bimetrik recognition, yaitu proses komputer
mengenali apa yang diucapkan seseorang berdasarkan intonasi suara yang dikonversi ke dalam bentuk digital print. Pengenalan pola suara adalah salah satu aplikasi yang berkembang saat ini. System ini mengizinkan kita untuk berkomunikasi antara manusia dengan memasukkan data ke komputer. Algoritma yang di implementasikan untuk masalah pengenalan suara ini adalah algoritma devide dan conquer. Proses awalnya ialah menkonversi data spectrum suara ke dalam bentuk digital dan mengubah dalam bentuk diskrit. Dari bentuk diskrit itulah yang kemudian mengaplikasikan algoritma divide dan conquer untuk mengoptimalkan waktu pencocokan speech recognition. Di masa yang akan datang tidak memungkinkan bahwa speech recognition akan banyak digunakan dalam melakukan segala aktifitas manusia karena proses perintah melalui suara dapat lebih mudah dilakukan dibandingkan dengan penggunaan input kata secara manual.

Report by :
Barra Al Faruq – 2001851235
Hemdani Rahendra Herlianto – 2001859093
Sihar Parulian Hendrik Simbolon – 2001847830

Referensi :
Graves, A., Mohamed, A., & Hinton, G. (2013). SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS.
IEEE International Conference, (3), 6645–6649.
Rabiner, Lawrence, R. (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech
Recognition. Proceedings of the IEEE, 77(2), 257–286.

Sani M Isa