Klasifikasi Video Menggunakan Convolutional Neural Network
Penulis: Albert Susanto dan Herman
Pembimbing/Editor: Amalia Zahra, S.Kom., Ph.D.
Banyak masalah tentang deteksi gambar statis dapat diselesaikan dengan menggunakan Convolutional Neural Network (CNN). CNN dapat mendeteksi objek visual dengan mudah dengan menggunakan hierarki trainable filter dan feature pooling operation. Terinspirasi dari beberapa poin tersebut, para ilmuwan mulai mencoba menerapkan CNN pada aksi dan klasifikasi video. Namun, untuk video klip pendek saja membutuhkan proses kalkuilasi yang cukup besar karena dalam satu video tersebut mengandung banyak frame. Melakukan CNN terhadap setiap frame pada video tersebut merupakan salah satu cara yang dapat dilakukan untuk melakukan pengklasifikasian video. Namun, setiap frame hanya mempresentasikan sebagian kecil dari inti video tersebut. Oleh karena itu, untuk dapat melakukan klasifikasi video secara akurat, perlu dilakukan training terhadap kumpulan frame yang disatukan dalam satuan waktu.
Untuk dapat mempelajari kumpulan frame yang dikumpulkan pada suatu waktu, proses kalkulasi akan dilakukan per satu frame dalam satu detik. Dalam satuan frame seperti ini, informasi motion secara implisit akan hilang. Untuk mengkompensasi hal tersebut, informasi motion secara eksplisit akan dilihat dalam bentuk optical flow yang dikomputasi dari frames yang berdekatan. Optical flow ini akan dapat mempertahankan informasi motion selagi masih menangkap informasi video secara global.
Dari hasil penelitian sebelumnya, ada beberapa cara yang digunakan sebagai metode untuk klasifikasi, antara lain Histogram of Oriented Gradients (HOG), Histogram of Optical Flow (HOF), Motion Boundary Histogram (MBH). Namun, belum ada peneletian yang meneliti pengklasifikasian video menggunakan CNN dengan informasi motion dan deskripsi video global sebagai dasarnya. Metode yang akan diajukan dalam penelitian ini adalah menggunakan CNN dengan feature pooling dan Long Short Term Memory (LSTM) yang berdasar pada Recurrent Neural Network (RNN) untuk medeteksi klasifikasi video jangka panjang.
Arsitekur model yang digunakan merupakan hasil transfer learning GoogleNet dari dataset Sports-1M yang berupa 1,2 juta video Youtube yang terdiri dari 487 kelas, masing-masing berisi 1.000 hingga 3.000 video. Dataset yang digunakan untuk dievaluasi merupakan UCF-101, terdiri dari 13.320 video dengan 101 kategori kelas seperti olahraga, instrumen musik, barang keseharian manusia. Metode yang digunakan merupakan deep learning neural network dengan menggunakan Convolutional Neural Network yang dilengkapi dengan beberapa layer tambahan. Secara garis besar dihasilkan 2 jenis arsitektur akhir yaitu Layer Pooling setiap 120 frame video, dan jenis layer satu lagi merupakan LSTM dari 30 frame unroll. Kedua arsitektur tersebut menggunakan Optical Flow pada saat memproses frames dari video. Pooling (Gambar 1) merupakan sebuah proses untuk mengecilkan ukuran matriks pada deep learning. Terdapat beberapa jenis pooling seperti Late Pooling yang dilakukan setelah fitur-fitur CNN melewati proses dua Fully Connected Layers yang berfungsi untuk mendapatkan fitur high-level, atau Slow Pooling yang menggabungkan setiap hasil pooling Fully Connected Layers sebelumnya agar mendapatkan fitur lokal dengan baik. Model ini menggunakan Conv Pooling yang mengambil nilai tertinggi pada setiap dimensi pooling, agar setiap informasi spatial masih tersimpan. LSTM (Gambar 2) merupakan sebuah metode deep learning yang menyimpan setiap informasi dari setiap fitur sebelumnya agar dapat direlevansikan. Umumnya, LSTM digunakan pada proses seperti peramalan, atau memprediksi hasil ke depan dengan menggunakan seluruh parameternya. Optical flow merupakan sebuah proses encode sebuah pattern pada klasifikasi video di mana informasi tersebut walaupun bersifat noisy, masih mengandung informasi yang digunakan oleh neural network untuk melakukan klasifikasi. Kedua arsitektur tersebut dapat menghasilkan akurasi yang cukup baik (Tabel 1).
Gambar 1. CNN Pooling (Ng et al., 2015)
Gambar 2. LSTM pada RNN (Ng et al., 2015)
Tabel 1. Hasil evaluasi beberapa arsitektur (Ng et al., 2015)
Dalam penelitian ini, ada 2 metode klasifikasi video yang dipresentasikan, yakni CNN dengan feature pooling yang melakukan max-pool informasi lokal pada setiap waktu dan LSTM di mana hidden state yang ada pada LSTM tersebut berubah pada setiap frame. Metode ini dapat digunakan untuk melakukan training menggunakan data input video yang cukup lama, yakni 2 menit (120 frame). Hasil tersebut dapat mengalahkan metode-metode sebelumnya yang hanya bisa melakukan proses training menggunakan data input video-video yang berdurasi beberapa detik. Hasil dari penelitian ini dapat menjadi tolak ukur baru dalam Sports-1M dan UCF-101.
Reference
Ng, J. Y.-H., Hausknecht, M., Vijayanarasimhan, S., Vinyals, O., Monga, R., & Toderici, G. (2015). Beyond Short Snippets: Deep Networks for Video Classification. AIP Conference Proceedings, 1512, 1082–1083. https://doi.org/10.1063/1.4791421