Ekstraksi Fitur untuk Klasifikasi Genre Musik
Musik adalah segala sesuatu yang berhubungan dengan bunyi dan memiliki unsur-unsur irama, melodi dan harmoni yang mewujudkan sesuatu yang indah dan dapat dinikmati melalui indera pendeng.ar. Genre musik adalah label yang dibuat dan digunakan manusia untuk mencirikan dan mengkategorikan musik yang kini tersedia dalam berbagai bentuk dan sumber. Salah satu tantangan dalam melakukan pengenalan genre adalah untuk mengetahui apa yang membedakan antara satu jenis musik dan jenis lainnya dengan menggunakan data audio. Data audio merupakan data yang tersusun atas sample-sample yang mewakili sebuah sinyal audio. Sehingga sample audio tidak dapat begitu saja dilakukan proses klasifikasi. Pada sinyal suara musik, fitur-fitur tersebut berkaitan dengan dimensi utama dalam musik seperti pitch, rhythm, harmony, melody, timbre, dan spatial location. Beberapa fitur yang secara luas digunakan untuk analisis sinyal suara pada level akhir adalah fitur low-level seperti fitur temporal, fitur energy, dan fitur spectral. Fitur low-level audio secara umum dibedakan atas fitur audio domain waktu dan fitur audio domain frekuensi yang populer digunakan dalam analisis sinyal audio.
Fitur Domain Waktu.
Energy (E). Adalah temuan dari variasi yang tinggi pada beberapa frame secara berurutan. Misalkan xi(n), n = 1,…, WL, adalah sequence dari audio sampel dari frame ke-i, dimana WL adalah panjang frame, xi(n) adalah array yang berisi sampel audio dari frame input dan i adalah jumlah frame short-term.
Zero-Crossing Rate (ZCR). Adalah nilai perubahan sinyal dalam frame atau berapa kali sinyal berubah nilai dari positif ke negatif atau sebaliknya dibagi dengan panjang frame.
Entropy of Energy (EE) Adalah perubahan signifikan dari energy pada sinyal audio. ej, j = 1, K, sebagai urutan probabilitas.
Fitur Domain Frekuensi
Spectral Centroid (SC) mengukur posisi dan bentuk spektral dari titik keseimbangan distribusi energi. Secara sederhana spectral centroid disebut gravitasi dari spektrum.
Spectral Spread (SS) merupakan momen sentral kedua spektrum. Dengan mengambil penyimpangan spektrum dari pusat spektrum.
Spectral Entropy (SE) dihitung mirip dengan perhitungan entropy of energy. Entropy dilihat berdasarkan perubahan secara signifikan dari spektrum berturut-turut pada frame. Versi lain dari spectral entropy adalah chromatic entropy.
Spectral Flux (SF) menghitung perubahan spektral antara 2 frame berurutan dan dihitung sebagai kuadrat selisih antara besaran spektral yang dinormalisasi pada 2 window berurutan.
Spectral Rolloff (SR) Yaitu menentukan nilai frekuensi yang terletak dibawah nilai distribusi spektrum (biasanya bernilai 90%) terkonsentrasi. C, parameter persentase.
Mel-Frequency Cepstrum Coefficients (MFCC) adalah salah satu bentuk representasi cepstral dari sinyal dimana frekuensi didistribusi berdasarkan skala mel bukan secara pendekatan linear.
Chroma Vector (CV) adalah 12 representasi elemen dari energy spektral. Fitur ini secara luas digunakan sebagai deskriptor dari aplikasi yang berhubungan dengan musik. Chroma vector dihitung dengan mengelompokkan koefisien DFT dari short-term window ke dalam 12 bins. Setiap bin mewakili salah satu dari 12 kelas pitch temper yang sama dengan musik Western-type (semitone spacing). Setiap bin menghasilkan nilai mean dari log-magnitudes yang berhubungan dengan koefisien DFT.
Harmonic (H). Merupakan fitur yang merepresentasikan beat dari sebuah audio. Dua fitur harmonic yang digunakan adalah harmonic ratio dan fundamental frequency. Harmonic ratio adalah proporsi harmonik dalam spektrum. HR menggambarkan tingkat harmonicity dari sebuah frame audio.