Warna-warni Tipe dan Jenis Data buat Data Scientist
Banyak yang bertanya-bertanya metode data mining mana yang paling baik untuk digunakan dalam sebuah proyek ataupun kegiatan penelitian. Ada yang memilih sebuah metode karena ikut-ikutan teman dan ada juga yang memilih sebuah metode karena dikira mudah. Pada dasarnya kedua alasan tersebut sama-sama salah kaprah.
Lalu bagaimana caranya memilih metode data mining yang tepat? Jawabannya adalah terletak pada topik dan domain yang dituju. Untuk kebutuhan implementasi, kita dapat meniru best-practice dari makalah-makalah yang berkaitan. Namun untuk kebutuhan penelitian, hal ini tidak cukup karena penelitian menuntut adanya argumentasi ilmiah terhadap metode-metode yang dipilih.
Pada artikel ini, diberikan tips sederhana untuk memilih metode yang tepat, yaitu:
Pilihlah metode data mining sesuai dengan tipe dan jenis data yang akan digunakan!.
Artinya, kita perlu memperhatikan dengan seksama jenis dan tipe data apa saja yang akan digunakan pada penelitian. Setelah memahami jenis dan tipe data yang digunakan barulah anda dapat menentukan metode apa saja yang dapat digunakan sesuai dengan kondisi data tersebut. Marilah kita lihat tipe dan jenis data yang paling sering digunakan.
Tipe-tipe data
Data dapat dikelompokkan berdasarkan nilainya (isinya) yaitu menjadi tipe Data Kategorik dan tipe Data Numerik. Pemahaman terhadap kedua tipe data ini sangatlah penting karena berdampak kepada analisis atau ukuran statistik yang akan digunakan yang akhirnya kepada kemungkinan metode-metode data mining yang digunakan.
Data Kategorik – digunakan untuk data yang tidak dapat dihitung secara kuantitatif sehingga tidak dapat menerima operasi matematik seperti penjumlahan dan perkalian. Namun demikian, nilai-nilainya dapat dibedakan antara satu dengan lainnya. Data kagetorik terdiri dari data nominal, biner, dan ordinal.
- Data nominal
Data nominal merupakan tipe data yang paling sederhana dimana nilai yang diberikan kepada item (record) hanya berupa label atau sekadar penamaan saja, tidak dapat diurut dan tidak dapat diukur. Contoh data seperti ini adalah nama, kelas, teks, tanggal, waktu, mata uang. Walaupun demikian, kita masih dapat menghitung frekuensi dari data nominal tersebut. Oleh karena itu, ukuran statistik yang dapat digunakan untuk data ini adalah modus.
- Data biner
Data biner hanya menggunakan 2 kategori. Data biner dapat dituliskan secara nominal (ya dan tidak) dan secara numerik (contoh 1 dan 0). Representasi angka 1 dan 0 bukan bermaksud menunjukkan angka numerik dalam arti yang sebenarnya, melainkan hanya bentuk representasi dalam membedakan dua nilai yang mungkin. Pada data biner, angka 1 dapat berarti ya dan angka 0 berarti tidak. Seperti data nominal, kita masih dapat menggunakan frekuensi dan modus dari data biner tersebut.
- Data ordinal
Jika data kategori dapat diurutkan dari yang paling rendah sampai yang paling tinggi, maka data tersebut dapat disebut sebagai data ordinal. Namun, jarak antara tingkatan tidak dapat diukur dan dibandingkan secara numerik. Selain modus, ukuran statistik median dapat digunakan untuk mencari nilai tengah di dalam data.
Data Numerik – digunakan untuk data yang dapat diukur secara kuantitatif sehingga dapat menerima operasi matematik. Data numerik mencakup data interval dan data rasio.
- Data interval
Data interval sudah memiliki jarak yang pasti antar tingkatan sehingga operasi penjumlahan dan pengurangan sudah dapat digunakan. Walaupun demikian, nilai nol belum didefinisikan pada data interval sehingga operasi perkalian dan pembagian belum bisa digunakan. Selain modus dan median, ukuran statistik rata-rata atau mean sudah dapat digunakan untuk data ini.
- Data rasio
Data rasio merupakan data numerik yang lengkap dengan nilai nol. Keuntungannya data rasio yaitu dapat diproses dengan operasi matematik yang lengkap (penjumlahan, pengurangan, perkalian dan pembagian).
Jika data yang tersedia adalah data numerik maka semua fungsionalitas / tujuan data mining dapat diterapkan, termasuk klasifikasi, analisis asosiasi, regresi dan clustering. Hampir semua metode-metode data mining, seperti metode neural network, Apriori, regresi linier dan K-means juga dapat digunakan untuk data tersebut. Namun jika data yang tersedia adalah data kategori maka tidak semua metode dapat digunakan.
Contoh, metode yang masih dapat digunakan tujuan klasifikasi pada data kategori adalah Naïve Bayes, sebab metode ini mampu bekerja berdasarkan informasi frekuensi yang dapat diperoleh dari data kategori. Adapun untuk dapat menggunakan metode seperti neural network maka kita memerlukan metode preprocessing seperti label encoding dan one hot encoding. Tujuannya adalah mengubah data kategori menjadi data numerik terlebih dahulu.
Jenis data berdasarkan formatnya
Selain pembagian data berdasarkan nilainya, data dapat dilihat berdasarkan jenisnya yaitu data terstruktur dan data tidak terstruktur. Hal mendasar yang membedakan kedua jenis data tersebut adalah format datanya.
Data terstruktur: merupakan data yang sangat terorganisir dengan format yang sangat baik. Data terstruktur biasanya berbentuk tabel yang terdiri dari kolom dan baris. Data terstruktur biasanya tersimpan dalam database atau data warehouse. Contohnya pada perusahaan adalah tabel ataupun database relational yang berisi informasi tanggal, nomor kontak, produk, transaksi dan pelanggan. Karena memiliki format yang sangat teratur, maka elemen-elemennya mudah untuk diproses dan dianalisis oleh komputer.
Data tidak terstruktur: Data tidak terstruktur merupakan kebalikan data terstruktur yaitu tidak memiliki model ataupun format data secara khusus sehingga sulit diproses dan dianalisis oleh komputer. Data tidak terstruktur seringkali ditemukan pada data multimedia:
- Data Teks – berbentuk susunan kata, frase, atau karakter (seperti ! dan @) yang setiap elemennya memiliki nilai kategorik. Contohnya adalah data rekam medis, halaman web, emails, word files, PDF, XML, blogs, dan pesan media sosial.
- Data gambar – berbentuk susunan data dua dimensi yang setiap elemennya memiliki tipe data numerik. Contohnya adalah data JPEG, BMP, PNG, dan SVG.
- Data video – merupakan gabungan dari data-data gambar yang tersusun berdasarkan satuan waktu. Contohnya adalah data AVI, FLV, windows media video, dan MPEG.
- Data Suara (audio) – berbentuk susunan data satu dimensi yang setiap elemennya elemennya memiliki tipe data numerik. Contohnya adalah data WAV, MP3, dan WMA.
Metode data mining yang biasanya dipakai untuk data terstruktur / database / dataset yang berbentuk tabel adalah:
- Metode untuk mendapatkan aturan asosiasi – Apriori, FP growth.
- Metode untuk mendapatkan model clusters – K-means, Fuzzy C-means.
- Metode untuk meringkas data – statistika deskriptif (mean, variance), PCA.
- Metode regresi – regresi linear, regresi logistik.
- Metode klasifikasi – decision tree, Naïve Bayes, KNN, ANN, SVM.
Adapun data yang tidak terstruktur biasanya memerlukan preprocessing dulu sebelum dapat menggunakan metode-metode di atas. Metode preprocessing ini dapat berbentuk filtering, segmentasi dan ekstraksi fitur. Saat ini pendekatan yang banyak dikembangkan untuk data tidak terstruktur berasal dari metode-metode deep learning
Deep learning memiliki jenis arsitektur yang berbeda-beda seperti LSTM (long short-term memory), RNN (recurrent neural network) dan CNN (convolutional neural network). LSTM dan RNN telah banyak digunakan untuk data teks dan suara sedangkan CNN banyak digunakan untuk data gambar dan video.
Selain pembagian kategori data berdasarkan nilai dan format di atas, data juga dapat dibagi berdasarkan ukurannya yaitu Small Data dan Big Data. Terlepas dari apakah datanya berbentuk kategori ataupun numberik, terstruktur maupun tidak terstruktur, Small data biasanya mengacu pada data yang ukurannya lebih kecil dari Gigabytes sedangkan Big Data mengacu kepada data berukuran lebih dari Terabytes. Selain itu, Big Data sering dicirikan dengan sifat 5V yaitu Volume, Velocity, Variety, Variability and Veracity.
Karena ciri 5V tersebut, maka pemrosesannya juga akan memakan waktu yang lama. Oleh karena itu, selain pemilihan metode yang tepat, maka infrastruktur dan tools yang digunakan, untuk menyimpan, memfilter dan menganalisis Big Data, juga harus dipertimbangkan.
Demikian tips singkat untuk memilih metode data mining berdasarkan tipe dan jenis data yang akan digunakan. Agar pilihan metode semakin kaya, maka kita juga perlu membaca artikel / makalah-makalah ilmiah yang berkaitan.