Ekstraksi Fitur Untuk Genre Musik
Musik adalah segala sesuatu yang berhubungan dengan bunyi dan memiliki unsur-unsur irama, melodi dan harmoni yang mewujudkan sesuatu yang indah dan dapat dinikmati melalui indera pendengar. Setiap orang dapat mengartikan musik secara berbeda satu sama lainnya, tergantung pada sudut pandang orang tersebut. Genre musik adalah label yang dibuat dan digunakan manusia untuk mencirikan dan mengkategorikan musik yang kini tersedia dalam berbagai bentuk dan sumber (Tzanetakis & Cook, 2002).
Perkembangan musik pada zaman modern ini memunculkan berbagai macam aliran/genre musik, seperti blues, classical, country, disco, hiphop, jazz, metal, pop, reggae, rock dan sebagainya. Pembeda satu musik dengan musik lain sebenarnya dapat dilihat dari hasil ekstraksi fitur-fiturnya. Dengan kata lain fitur-fitur tersebut merupakan unit “unik “ (berbeda satu dengan lainnya) pembentuk musik tersebut. Oleh karena itu untuk membedakan genre musik juga dapat dilakukan dengan mengekstrak fitur-fiturnya untuk kemudian dianalisis.
Ada banyak penelitian yang dilakukan untuk melakukan ekstraksi fitur.Berdasarlan buku (Giannakopoulos & Pikrakis, 2014), fitur low-level audio secara umum dibedakan atas fitur audio domain waktu dan fitur audio domain frekuensi yang juga populer digunakan dalam analisis sinyal audio.
A. Fitur domain waktu terdiri dari beberapa fitur antara lain :
- Energy (E), yang merupakan nilai dari gabungan daru urutan frame
- Zero-Crossing Rate (ZCR), Adalah nilai perubahan sinyal dalam frame atau berapa kali sinyal berubah nilai dari positif ke negatif atau sebaliknya dibagi dengan panjang frame.
- Entropy of Energy (EE), adalah perubahan signifikan dari energy pada sinyal audio
B. Fitur domain frekuensi, terdiri dari beberapa fitur antara lain
4. Spectral Centroid (SC) mengukur posisi dan bentuk spektral dari titik keseimbangan distribusi energi. Secara sederhana spectral centroid disebut gravitasi dari spektrum.
5. Spectral Spread (SS) merupakan momen sentral kedua spectrum dengan mengambil penyimpangan spektrum dari pusat spektrum
6. Spectral Entropy (SE) mirip dengan perhitungan entropy of energy. Entropy dilihat berdasarkan perubahan secara signifikan dari spektrum berturut-turut pada frame. Versi lain dari spectral entropy adalah chromatic entropy.
7. Spectral Flux (SF), yaitu menghitung perubahan spektral antara 2 frame berurutan dan dihitung sebagai kuadrat selisih antara besaran spektral yang dinormalisasi pada 2 window
8. Spectral Rolloff (SR), yaitu menentukan nilai frekuensi yang terletak dibawah nilai distribusi spektrum (biasanya bernilai 90%) terkonsentrasi.
9. Mel-Frequency Cepstrum Coefficients (MFCC) adalah salah satu bentuk representasi cepstral dari sinyal dimana frekuensi didistribusi berdasarkan skala mel bukan secara pendekatan linear. Terdapat beberapa tahap dalam ekstraksi MFCC, yaitu :
- Berupa data DFT (Discrete FourierTransform).
- Spektrum yang dihasilkan diberikan sebagai masukan ke filter mel-scale yang terdiri dari filter L. Filter biasanya memiliki respons frekuensi segitiga yang tumpang tindih. Chroma Vector (CV)
Adalah 12 representasi elemen dari energy spektral. Fitur ini secara luas digunakan sebagai deskriptor dari aplikasi yang berhubungan dengan musik. Chroma vector dihitung dengan mengelompokkan koefisien DFT dari short-term window ke dalam 12 bins. Setiap bin mewakili salah satu dari 12 kelas pitch temper yang sama dengan musik Western-type (semitone spacing).
10. Harmonic (H) merupakan fitur yang merepresentasikan beat dari sebuah audio. Dua fitur harmonic yang digunakan adalah harmonic ratio dan fundamental frequency. Harmonic ratio adalah proporsi harmonik dalam spektrum.
(Andi Manalu dan Abba Suganda Girsang)
Referensi
Tzanetakis, G., & Cook, P. (2002). Musical genre classification of audio signals. IEEE Transactions on Speech and Audio Processing, 10(5), 293–302. http://doi.org/10.1109/TSA.2002.800560
Giannakopoulos, T., & Pikrakis, A. (2014). Introduction to Audio Analysis: A MATLAB Approach. Introduction to Audio Analysis: A MATLAB Approach. http://doi.org/10.1016/C2012-0-03524-7