Mendeteksi Aktivitas Suara dari Sinyal Audio Menggunakan Fitur Berbasis Spectral Line dan Extreme Learning Machine

Penulis: Andi Putra dan Dennis Luqman

Pembimbing/Editor: Amalia Zahra, S.Kom., Ph.D.

 

Pendahuluan

            Pada sebuah rekaman audio, biasanya hanya 40% dari total waktu rekaman yang berisikan sebuah pembicaraan, sedangkan 60% lainnya berisikan hal-hal lain di luar percakapan yang biasanya merupakan jeda waktu berpikir sang pembicara. Dalam melakukan pemrosesan suara, hal seperti ini harus dihindari untuk menghemat penggunaan komputasi pada server. Untuk melakukan ini, dibutuhkan sebuah mekanisme untuk menentukan bagian yang berisi percakapan dan yang tidak berisi percakapan; metode untuk melakukannya disebut Voice Activity Detection (VAD).

            Pada sebuah rekaman audio biasanya terdapat noise yang terekam atau suara-suara lain yang berasal dari beragam sumber yang dapat mengganggu algoritma segmentasi dari VAD. Inilah yang menjadi tantangan utama dalam melakukan VAD. Untuk mengatasi hal tersebut, penelitian terbaru memperkenalkan suatu sistem VAD yang memanfaatkan frekuensi spectral line yang telah dimodifikasi dan melakukan klasifikasi berbasis extreme learning. Detail metode tersebut dibahas pada bagian berikut ini.

Metode yang Diajukan

Dalam proses VAD, hal pertama yang dilakukan adalah audio preprocessing untuk mempermudah proses analisis dari konten spektral dan kemudian melakukan ekstraksi fitur. Fitur dari berbagai dimensi kemudian diekstrak dan diteruskan ke extreme learning berdasarkan klasifikasi, seperti yang terlihat pada gambar 1.

Gambar 1. Gambaran Umum Metode yang Diajukan

  • Pre-processing

Tahapan pertama yang dilakukan ialah melakukan pre-processing dari raw audio yang diterima. Fungsi dari pre-procesing ialah untuk mengeliminasi komponen frekuensi yang menyimpang. Apabila frekuensi-frekuensi yang menyimpang ini tidak diselesaikan, maka akan menyebabkan masalah pada analisis ke depannya. Oleh karena itu, untuk mengatasi hal ini, sebuah sinyal audio akan dianalisa dalam beberapa bagian-bagian kecil. Kumpulan dari beberapa bagian disebut sebuah frame. Langkah selanjutnya ialah membuat sejumlah frame yang akan dianalisa. Frames tersebut dibuat dalam keadaan overlapping untuk memastikan tidak ada frame yang tertinggal. Dalam banyak kasus, frame tidak mengandung kelipatan integral periode dari sinyal asli, sehingga menyebabkan diskontinuitas dalam garis batas frame. Penyimpangan ini dapat mengganggu resolusi frekuensi sinyal yang disebut spectral leakage. Untuk mengatasi hal tersebut, frame akan dikalikan dengan Hamming Windows yang juga berfungsi untuk mengurangi efek lobes.

  • Line Spectral Freqency (LSF) Extraction

Line Spectral Freqency (LSF) merupakan cara transformasi matematis untuk menghadirkan Linear Prediction Coefficients (LPC). LSF memiliki kemampuan kuantisasi yang sangat baik serta memilki efisiensi dalam hal representasi. Biasanya panjang durasi sebuah audio yang direkam sangatlah bervariasi. Dalam perhitungan LSF, hal ini akan menyebabkan jumlah koefisien yang dihasilkan berbeda-beda apabila panjang durasi sebuah audio berbeda. Salah satu solusi untuk mengatasi permasalahan ini ialah dengan memotong-motong audio ke dalam bentuk terkecilnya. Namun, hal ini dapat menimbulkan ketidakutuhan data saat proses analisa karena data-data yang penting bisa saja terbuang saat melakukan proses pemotongan audio. Oleh karena itu, hasil perhitungan LSF harus dimodifikasi, di mana hasilnya disebut LSF-S.

  • LSF-S Generation

Langkah selanjutnya ialah melakukan modifikasi LSF ke dalam LSF-S. LSF-S dihasilkan dengan cara mengambil band/pita rata-rata dan standar deviasi dari nilai LSF yang belum diolah.  Band dalam hal ini mengacu pada jumlah koefisien LSF yang belum diolah  untuk frames tertentu. Setiap band merupakan sekumpulan besar rentang frekuensi, yang berarti perhitungan ini dilakukan untuk mendapatkan energi rata-rata di setiap band karena biasanya klip yang memiliki voice cenderung memilki rata-rata energi yang tinggi pada bands tertentu apabila dibandingkan dengan klip-klip yang tidak memiliki voice di dalamnya. Rata -rata sumber energi pada sebuah band dapat dihitung menggunakan formula berikut:

B : Rata-rata energi

r : energi

b1, b2, b3… br : band

Nilai energi biasanya memiliki outliers. Nilai outliers akan mempengaruhi nilai rata-rata yang digunakan untuk memvalidasi nilai dispersi energi. Dengan demikian, perhitungan standar deviasi untuk sebuah band juga harus dilakukan. Perhitungan standar deviasi bisa menggunakan formula berikut:

S : Nilai standar deviasi

B : nilai rata-rata energi

r : energi

  • Klasifikasi berbasis Extreme Learning Machines (ELMs)

Extreme Learning Machine merupakan varian dari Artificial Neural Netowk (ANN) yang digunakan untuk mengatasi waktu training yang lama dengan cara memilih node tersembunyi secara acak dan melakukan analisa untuk menentukan bobot data yang di-traning. ELM digunakan secara efektif dalam berbagai aplikasi klasifikasi untuk mengenali pola yang berbeda-beda. ELM melibatkan dua tahap utama yang biasa disebut dengan feature mapping dan ELM training. Dalam beberapa penilitian, ELM digunakan untuk mengklasifikasikan sinyal EEG yang kemudian diperoleh peningkatan akurasi yang cukup siginifikan. ELM juga digunakan untuk melakukan segmentasi rongga dalam tubuh sebelah kiri dari MRI, dan juga digunakan untuk identifikasi instrumen musik pada tingkat Signal-to-Noise Ratio (SNR). Pada pengembangan selanjutnya, ELM juga diimplementasi untuk mengurangi noise pada saat pemrosesan speech.

Reference

Mukherjee, H., Obaidullah, S. M., Santosh, K. C., Phadikar, S., & Roy, K. (2018). Line spectral frequency-based features and extreme learning machine for voice activity detection from audio signal. International Journal of Speech Technology, 1-8.

Amalia Zahra