Data Linkage Problem pada Big Data

Era Big Data secara langsung menumbuhkan keinginan / ketertarikan topik terhadap data. Penemuan pada topik ini berkesimpulan bahwa tantangan yang ditimbulkan berdasarkan volume, variasi, dan kecepatan yang menjadi karakteristik data harus diatasi dengan data linkage dan integritas data. Dengan menganalisis beberapa dataset dengan linking dan integrating, dapat menjawab pertanyaan – pertanyaan yang membutuhkan sampel berskala besar atau data yang sangat mendetail terkait dengan populasi yang sulit dijangkau dan dapat dijadikan bukti yang sangat kuat untuk bantuan validitas dan pengaplikasian dari pembuatan peraturan dari luar.

            Pada jurnal “Record Linkage Approaches in Big Data : A State of Art Study”, Randa menjelaskan bahwa masalah-masalah baru muncul seiring dengan berkembangnya Big Data hingga sekarang ini, hal tersebut biasa disebut dengan 5V of Big Data Properties. Kelima V ini terdiri dari Volume, yang berkaitan dengan masalah volume dari database. Variety, yang berkaitan dengan variasi data-data yang ada pada sebuah database, apakah data tersebut ada yang sama atau tidak. Lalu ada Velocity, merupakan masalah yang ada pada database berupa kecepatan data dipanggil dan disimpan pada database. Value, menandakan tiap-tiap data yang ada memiliki tingkat value yang berbeda-beda, dan berarti memiliki tingkat pengamanan yang berbeda-beda juga. Dan yang terakhir adalah Veracity, hal ini merupakan tingkat kebenaran dari tiap-tiap data yang ada pada database, jadi tiap data yang ada dan disimpan, harus di cek kebenaran data tersebut, apakah data tersebut corrupt atau tidak, data tersebut expired atau tidak, dan lain-lain.

Preparing dan cleaning setiap dataset untuk analisis merupakan langkah yang sangat penting, karena konsep ini adalah konsep “garbage in garbage out”. Ini adalah proses yang penting, proses pembersihan kata ini menyita waktu yang cukup banyak. Proses tersebut membutuhkan waktu sekitar 80% dari seluruh waktu yang dihabiskan pada preparing dan cleaning.

Pada jurnal berjudul “Making Sense of the Big Picture: Data Linkage and Integration in the Era of Big Data”, dijelaskan bahwa metode ini banyak digunakan dan diuji pada bidang medis, terutama untuk pengarsipan data pasien. Seperti contohnya pada National Center of Health Statistics (NCHS) sedang dilakukan pengembangan program untuk mengaitkan berbagai macam data eksternal dalam usaha memaksimalkan statistik data berdasarkan survey data yang didapat dari Center for Disease Control (CDC). Dalam bidang kesehatan, data linkage dan integrasi data akan membantu dalam mengidentifikasi faktor yang menyebabkan penyakit dan juga gejala terhadap penyakit tersebut. Penyakit kronis dan pelayanan kesehatan merupakan hasil dari beberapa faktor, mulai dari penyebaran fisik atau genetik serta demografis, sosial, psikologis, ekonomi, sistem medis yang terkait, dan juga faktor lingkungan. Setiap sumber daya dikembangkan untuk mengumpulkan data. Namun,  analisis setiap dataset memiliki keterbatasan. Baik dalam pendekatan pencarian penyebab , maupun dalam pencarian efek dan analisis yang komprehensif. Sebagai cara untuk mengatasi keterbatasan ini, strategi data linkage dan berbagai jenis strategi integrasi untuk database kesehatan menjadi penting dan dapat memperluas potensi pada nilai data yang digunakan.

Data linkage memang telah menjadi lebih umum, namun strategi ini bukan tanpa tantangan. Sebagai contoh, data linkage tidak hanya bergantung pada teknologi dan statistik tetapi juga pada infrastruktur seperti hukum dan peraturan. Di NCHS (National Center of Health Statistics, Amerika Serikat), Dinas Kesehatan Masyarakat, SORN (Systems of Record Notice), dan ketentuan lainnya telah didirikan untuk melindungi privasi dan kerahasiaan responden survei.

Informasi yang disediakan secara confidential digunakan hanya untuk tujuan statistik dan informasi yang tertutup tanpa jaminan juga digunakan untuk menjamin tingginya tingkat confidentiality dan untuk mengambil account dari informasi yang confidential dan efisiensi statistik. Linkage harus digunakan hanya jika ada hasil publik yang lebih tinggi daripada potensi privasi atau kerahasiaan dari individu yang terkait.

Selain digunakan secara masif untuk pengembangan data yang berkaitan dengan kesehatan, data linkage juga digunakan pada Big Data untuk sosial media seperti Facebook, Twitter, Instagram, dan lain-lain. Untuk kasus data linkage pada sosial media, biasanya data yang ada cenderung repetitif. Hal ini dikarenakan akun / data pada platform sosial media tersebut milik satu orang dan disimpan dalam beberapa database yang berbeda, sedangkan alangkah baiknya data-data yang repetitif tersebut dapat dijadikan satu agar tidak ada lagi duplikasi data, sehingga slot yang digunakan oleh data repetitif tersebut dapat digunakan oleh data lain yang tidak repetitif.

Berdasarkan dari kasus di atas, Sneha dan Shailvi pada “An Efficient Record Linkage Technique for Handling Big Data” mengajukan metode berupa software bernama FEBRL (Freely Extensible Biomedical Record Linkage). Aplikasi ini berguna untuk membandingkan algoritma lama yang sudah ada dengan algoritma baru yang mereka usulkan. Berdasarkan dari metode yang diusulkan, Sneha dan Shailvi bertujuan untuk menggabungkan record data secara efisien tanpa mengurangi tingkat keamanan dari data-data tersebut, karena record linking terkadang menemukan kasus dimana ada data yang sangat sensitif dan harus dijaga dengan baik (contoh : data pin / nomor rekening nasabah bank) agar tidak disalahgunakan oleh orang yang tidak memiliki akses terhadap data tersebut, jadi keamanan data juga tetaplah penting untuk record linking.

Dalam bidang kesehatan, big data sudah dapat digunakan dalam membantu dokter untuk mengambil keputusan dalam mendiagnosa penyebab penyakit maupun dan gejala penyakit. Data linkage dapat membantu dalam menggabungkan data dari beberapa sumber yang beragam karakteristik. Masalah yang terjadi dalam data linkage beberapa telah diatasi oleh peraturan peraturan yang dibuat oleh dinas dinas pemerintah ( Vito Vincentdo, Andhika Rizky Pratama, Yosefina Pricilia Andrean, Rizaldi Suwandi )

Referensi:

Ambhore, Sneha & Maurya, Shailvi. (2018). An Efficient Record Linkage Technique for Handling BIG DATA. International Journal of Computer Applications. 182. 56-58. 10.5120/ijca2018917442.

  1. M. A. El-Ghafar, M. H. Gheith, A. H. El-Bastawissy and E. S. Nasr, “Record linkage approaches in big data: A state of art study,” 2017 13th International Computer Engineering Conference (ICENCO), Cairo, 2017, pp. 224-230.
    doi: 10.1109/ICENCO.2017.8289792.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6230539/

Abba Suganda Girsang