Algoritma Mel Frequency Cepstral Coefficient (MFCC) untuk Ekstraksi Suara

Untuk mengukur performa seseorang biasanya tidak terlepas dari faktor kehadiran yang dinilai dari seberapa banyak kehadiran yang tepat waktu, keterlambatan, ijin dan ketidakhadiran. Hal ini tidak hanya dilakukan pada pegawai di kantor, namun juga dalam banyak bidang lain seperti siswa di sekolah, mahasiswa di kampus dan sebagainya. Agar diperoleh hasil pencatatan kehadiran yang akurat maka saat ini banyak digunakan berbagai metode absensi, baik itu dengan pencatatan manual, maupun menggunakan mesin absensi yang banyak beredar dipasaran, dimana masing-masing mesin absensi ini menggunakan metode yang berbeda-beda dalam mengidentifikasi orang yang melakukan absen.

Masing-masing sistem ini memiliki kekurangan dan kelebihannya sendiri. Pada sistem manual, tidak perlu infrastruktur dan instalasi serta tidak perlu membeli alat yang mahal, namun keakuratannya diragukan, kompilasi atau perhitungan kehadiran juga lebih sulit untuk dilakukan jika dibandingkan dengan sistem absensi yang menggunakan mesin. Sedangkan jika ingin menggunakan mesin absensi, maka harus mengeluarkan sejumlah biaya yang diperlukan untuk membeli mesin absensi tersebut, dan harus menyiapkan infrastruktur jika ingin menerapkan sistem ini. Jumlah user yang akan menggunakan mesin absensi juga harus sebanding dengan jumlah mesin absensi itu sendiri, kalau tidak ini bisa berdampak pada adanya antrian ketika secara bersamaan user hendak mengakses mesin absensi tersebut, misalnya ketika jam masuk dan jam pulang. Belum adanya fitur untuk mencatat posisi atau lokasi user ketika melakukan sistem absensi (position based) juga menambah daftar keterbatasan sistem absensi yang ada pada saat ini. Biasanya mesin absensi sudah dilengkapi dengan fitur biometric untuk mengindentifikasi user yang bersangkutan, hal ini juga berfungsi untuk mencegah adanya kecurangan yang dilakukan user dalam melakukan absensi.

Untuk itu sistem absensi modern dapat menggunakan mobile phone atau HP yang harus mengakomodir fitur biometric dan lokasi atau GPS. Smart phone atau mobile phone atau HP sangat potential untuk digunakan sebagai alat untuk melakukan absensi dikarenakan beberapa pertimbangan seperti adanya perangkat microphone, kamera, dan fingerprint scanner pada device mobile sehingga tidak memerlukan tambahan perangkat apapun lagi untuk melakukan identifikasi atau absensi.

Sistem absensi dengan menggunakan suara sifatnya natural, dimana user dapat melakukan identifikasi dengan cukup sederhana yaitu dengan cara berbicara seperti biasa menyebabkan metode ini dapat diterima dengan mudah oleh user. Storage yang dibutuhkan untuk menyimpan template cukup kecil sehingga mudah untuk disimpan pada mobile device serta nilai crossover error rate (CER) cocok digunakan untuk sistem yang membutuhkan pengamanan dengan tingkat medium seperti sistem absensi. CER merupakan persinggungan (intersect) antara nilai false accept rate dan false rejection rate.

Berbagai faktor yang menyebabkan suara (voice) menjadi unik sehingga dapat digunakan sebagai metode identifikasi adalah perbedaan bentuk organ artikulasi yang dimiliki masing-masing orang seperti panjang rongga suara, karakteristik pita suara dan perbedaan kebiasaan berbicara masing-masing orang. Organ yang memproduksi suara seseorang adalah faring laring (terletak dibawah epiglotis), faring oral (dibelakang lidah antara epiglotis dan vellum), rongga mulut (didepan velum dan dibatasi oleh bibir, lidah dan langit-langit), faring hidung (terletak diatas velum, bagian belakang rongga hidung) dan rongga hidung(diatas langit-langit dan membentang dari faring ke lubang hidung) Yang membuat suara berbeda adalah adanya perbedaan pada intonasi (pitch), tone dan volume. Beberapa faktor yang berkontribusi pada perbedaan hal diatas adalah keunikan bentuk dan ukuran mulut, hidung dan gigi yang disebut dengan artikulator dan juga bentuk, ukuran dan tegangan pita suara dimana kemungkinan semua hal ini sama pada dua orang sangatlah rendah.

Berbagai tantangan terkait sistem absensi yang telah dipaparkan diatas sesungguhnya memberikan sebuah kesempatan untuk dikembangkannya sebuah sistem absensi yang akurat, efisien dan mudah digunakan. Algoritma ekstraksi ciri suara yang akan digunakan nantinya adalah algoritma Mel Frequency Cepstral Coefficient (MFCC), algoritma ini memiliki beberapa keunggulan sebagai berikut.

MFCC mengadaptasi pendengaran manusia dengan cara memfilter secara linear pada frekuensi dibawah 1000 Hz dan secara logaritmik pada frekuensi diatas 1000 Hz, hal ini didasarkan pada persepsi pendengaran manusia yang tidak mampu mendengar suara dengan frekuensi lebih dari satu KHz, dikarenakan pembedaan ini MFCC dapat meningkatkan sensitifitas untuk menangkap suara dengan frekuensi rendah dan berlaku sebaliknya pada suara dengan frekuensi tinggi.
MFCC memiliki waktu ekstraksi yang lebih cepat dan tingkat akurasi yang lebih tinggi dibandingkan dengan metode sejenis seperti Linear Predictive Coding (LPC) dan Pitch-Synchronous Zero-crossing peak-amplitude (PS-ZCPA).

Sedangkan untuk metode pencocokan fitur suara akan digunakan algoritma Dynamic Time Warping (DTW), algoritma ini memiliki kelebihan yaitu dapat mendeteksi pola yang sangat lambat maupun sangat cepat dikarenakan pembacaan panjang pendeknya gelombang frekuensi serta mampu menghitung jarak dari dua vector data dengan panjang yang berbeda.

Cite
Benfano Soewito (2022). Algoritma Mel Frequency Cepstral Coefficient (MFCC) untuk Ekstraksi Suara. Journal of Information Technology,

Journal: 290

Author(s)

1. Prof. Benfano Soewito M.Sc., Ph.D BINUS HIGHER EDUCATION