TANTANGAN SISTEM MANAJEMEN PENYIMPANAN PADA BIG DATA

 

NAMA           : BARRA AL FARUQ

NIM                : 2001851235

  • Sistem Manajemen Penyimpanan & Big Data

Sistem Manajemen Penyimpanan merupakan  sebuah teknologi yang mencangkup teknologi dan proses yang digunakan untuk meningkatkan dan memaksimalkan kinerja dari sumber daya  berdasarkan penyimapanan yang mereka gunakan. Untuk manajement penyimpanan biasanya mengacu kepada penyimapanan data komputer, yang bisa meliputi manajemen memori.

Di dalam manajemen penyimpanan mempunyai beberapa kategori yang cukup luas yang bisa mencangkup virtualisasi, replikasi, mirroring, kemananan, penyedia penyimpanan, dan sebagainya.

Big Data merupakan sebuah istilah yang menggambarkan sebuah data yang sangat besar baik dari data yang tidak terstruktur maupun terstruktur. Big data biasa digunakan didalam bisnis yang cukup besar. Selain itu Big Data dapat menganalisis dan sebagai pedoman untuk pengambilan keputusan dan strategis bisnis yang bisa lebih baik lagi. Ada beberapa konsep big data yang terdiri dari 3 bagian yang sangat penting diantaranya adalah

  1. Volume

Semua transaksi baik dari transaksi bisnis, media sosial, Informasi yang lainnnya akan dikumpulkan menjadi sebuah big data. Yang dimana untuk dimasa lalu, permasalahan ini sangat bermasalah, namun seiring waktu, masalah tersebut bisa diatasi contohnya seperti hadoop arsitektur

Gambar 1. (Belajar Gratis Sistem Informasi & Informatika, 2017)

  1. Kecepatan

Dalam big data, kecepatan sangat diperlukan sehingga data bisa tersampaikan dengan cepat. Teknologi – teknologi seperti RFID, sensor yang lainnya sangat membutuhkan kecepatan yang sangat baik atau real time

 

  1. Variasi data

Dalam pengumpulan data didalam big data, banyak data yang mempunyai format yang berbeda – beda . data tersebut bisa saja terstruktur dan tidak terstruktur sebagai contoh seperti data numerik, data dokument , teks, email, audio, video , data keuangan dan lain lain.

 

Karena peningkatan besar-besaran didalam Big data dan sifat heterogen dari data aplikasi, salah satu yang merupakan  Tantangan dari big data efektif adalah bagaimana mengelola petabyte (PB) data yang dihasilkan setiap hari. Manajemen penyimpanan mencakup teknologi dan proses organisasi untuk meningkatkan data kinerja penyimpanan. Data besar membutuhkan teknologi yang efisien dalam memproses sejumlah besar data dalam kerangka waktu yang dapat diterima. Berbagai macam teknik dan teknologi telah dikembangkan dan diadaptasi untuk memanipulasi, menganalisis, dan memvisualisasikan data besar (Singhal, R., Bokare, S., & Pawar, P., (2010))

.

  • Tantangan Big data dalam manajement storage

 

Sebuah perusahaan besar seperti Google, Flickr, Yahoo dan Facebook, menjalankan sebuah skala data yang cukup besar untuk menjalankan sebuah operasioanal perusahaan tersebut. Sebagai contoh  YouTube sendiri menerima lebih dari 1.8 miliar pengguna untuk registrasi sedangkan untuk pengguna menggunakan youtube untuk menonton sampai 5 miliar unik setiap hari. ((2018), YouTube Revenue and Usage Statistics, t.thn.). Dengan data tersebut, bisa ditarik kesimpulan bahwa untuk media penyimpanan sangat diperlukan mengingat pengguna akan terus meningkat disetiap hari nya. Salah satu permasalahan yang timbul dalam sistem manajemen penyimpanan berdasarkan big data adalah bagaimana menyimpan dan memelihara set data yang besar dari waktu ke waktu pada tingkat pertumbuhan bisa jadi sangat sulit selain itu baik faktor-faktor seperti kapasitas, kinerja, keluaran, biaya, dan skalabilitas terlibat dalam sistem solusi penyimpanan. Selain itu, perangkat penyimpanan memainkan peran penting dalam mengurangi besar tantangan data.

Gambar 2. ((2018), YouTube Revenue and Usage Statistics, t.thn.)

 

Hal yang dapat di uji dalam big data merupakan perhatian yang sangat di perhatikan untuk penyimpanan data yang cukup besar. keandalan big data dimana setiap pengambilan data dalam bentuk aslinya tanpa menghilangkan salah satu dari data tersebut. Masalah dalam big data  memperhitungkan baik kegagalan sistem internal dan eksternal, dan kerentanan. Dengan skala data yang cukup besar, data probabilitas kehilangan beberapa data selama pengambilan data tersebut bisa terjadi dan bisa sangat tinggi kemungkinannya. Data besar intensif aplikasi seperti Google map, dan Facebook membutuhkan Input-Output-Operasi-Per yang tinggi Kedua (IOPS) untuk mempertahankan kinerja agar tetap dalam bisnis. (Rajeev Agrawal , Christopher Nyamful, 2016)

Dalam perkembangan big data, terlepas dari banyak manfaat yang diberikan di dalam big data, ada beberapa yang akan menjadi tantangan untuk sebuah perkembangan big data ini. Di dalam tahun 2015, diperkirakan total seluruh data yang dikumpulkan adalah sebanyak 7.9 Zettabytes ( ZB ) dan diperkirakan pada tahun 2020  akan mencapai 35 Zettabytes. Untuk mengotimalkan perkembangan big data, untuk teknik tradisional yang sudah ada tidak dapat mendukung dan melaksanakannya dengan effectif karena bisa terlihat data yang dihasilkan sangat besar.

Berikut adalah tantangan – tantangan yang ada di dalam Big Data.

  1. Karakteristik Big Data.

Didalam karakter sebuah data, terdapat beberapa variabel – variabel yang mencirikan fitur – fiturnya.

  • Volume yang besar

Dalam perkumpulan data tersebut, biasanya untuk data yang mempunyai volume yang besar seperti data bisnis, penelitian ilmiah, pemerintahan, jejaring sosial, dan lain lain. Seperti contoh, sebuah data jejaring sosial yang terus mempunyai sebuah data yang sangat besar setiap hari. Data yang di simpan bisa mencapai petabyte atau exabyte.

  • Backup dan Archiving.

Dalam Big data, backup merupakan peran yang sangat diperlukan untuk big data. Backup sangat diperlukan untuk memastikan adanya perlindungan data. Cadangan diperlukan untuk melindungi data dari potensi kerugian seperti kehilangan perangkat keras,kesalahan manusia, dan bencana alam. Ada beberapa cara untuk backup dan archiving yaitu dengan  teknik deduplikasi. Dalam deduplikasi diusulkan bagaimana chuck data, Aliran data, memotong ruang dan energi yang dibutuhkan untuk pencadangan yang berlebihan, sehingga dapat menghasilkan penghematan. (Cara Meningkatkan Efisiensi Data Center dan Menghemat Biaya, 2017). Didalam (Geer, (2008)) mengusulkan untuk meminimalisasi untuk waktu pelaksanaan pencadangan tersebut.

  • Replikasi data

Penggunaan replikasi data untuk membantu proses penyimpanan data yang tersebar di beberapa penyimpanan. Didalam replikasi data ditemukan juga beberapa redudansi dan beberapa ruang kosong untuk penyimpanan data. Didalam replikasi data ada beberapa model yaitu yang pertama adalah Model konsistensi pembaruan pembaruan desentralisasi (Zheng, S., Li, M.-C., & Sun, W.-F, 2011), berdasarkan identifikasi replika Timestamp dan yang kedua adalah model replika master-slave, di mana root simpul mewakili salinan master (Zheng, S., Li, M.-C., & Sun, W.-F, 2011).

    • Data Deduplication

Deduplikasi sudah banyak digunakan dimana – mana yang dimana fungsi deduplikasi adalah untuk mengurangi biaya, dan ruang penyimpanan. Teknologi ini biasanya mengidentifikasi blok data dengan konten yang identik dan dihilangkan redundansi (Sun, G.-Z., Dong, Y., Chen, D.-W., & Wei, J., 2010).  Dalam big data diperlukan karena akan mengurangi sejumlah besar data yang berlebihan

uga mengurangi lalu lintas IO disk untuk meningkatkan kinerja. Ada tiga metode deduplikasi dari berbagai level – byte, file, dan level blok. Tingkat file deduplication, juga dikenal sebagai Single Instance Storage (SIS), mengidentifikasi dua file dengan konten yang sama tetapi nama yang berbeda atau dari direktori yang berbeda, dan dengan demikian menghapus duplikat.lima fase yang biasa disebut dalam data de-duplikasi adalah;

  • Blok data dibagi menjadi blok-blok yang diperbaiki panjang atau panjang variabel.
  • pengidentifikasi blok dihitung untuk setiap blok data.
  • blok pengidentifikasi dibandingkan dengan yang sudah ada untuk memeriksa nilai unik.
  • semua data duplikat dihapus sebelum pemeriksaan integritas data dilakukan.
  • Blok data baru disimpan dan sebelumnya ruang disk yang ditempati dilepaskan untuk penggunaan lain

 

  • Saran Untuk Pengoptimalkan Storage Manajemen Big Data

Didalam Paper (Rajeev Agrawal , Christopher Nyamful, 2016), disarankan beberapa yang bisa di gunakan untuk mengurangi tantangan penyimpanan, dan pengolahan Big Data.

  1. Media Penyimpanan yang besar

Dalam penyimpanan big data, sangat disarankan untuk mempunyai sebuah perangkat yang mempunyai kemampuan penyimpanan untuk mengukur akses, waktu aksesnya, kecepatan transfer data, dan efektivitas biaya. Di dalam paper disarankan untuk menggunakan  hard disk drive (HDD), dan solid state drive (SSD)

 

 

  1. Strategi pencadangan

Pemulihan adalah tujuan utama dari pencadangan. Dimana jika terjadi sesuatu hal yang tidak diinginkan, sistem bisa dipulihkan kembali dan tepat waktu. Cadangan penuh memastikan cepat pemulihan, meskipun dibutuhkan banyak  waktu untuk membuat cadangan dataset besar. Deduplikasi data teknologi secara signifikan mengurangi volume blok data yang disimpan untuk setiap cadangan dan memungkinkan pengguna untuk membuat cadangan, dan memulihkan data dalam periode waktu yang relatif singkat. Dalam sebuah

sistem penyimpanan yang efisien, cadangan biasanya dilakukan dari sistem replikasi, daripada langsung dari sistem produksi. Replikasi menyimpan salinan data produksi dalam waktu nyata.

  1. Business Continuity and Disaster Recovery

Untuk terakhir adalah Business Continuity and Disaster Recovery. Dimana Solusi kontinuitas bisnis yang bisa berjalan dengan optimal, sehingga dapa memperhitungkan, dua parameter, untuk diabaikan level – Recovery Point Objective, (RPO), yang merupakan titik waktu suatu sistem produksi, dan data harus dipulihkan setelah bencana.

Recovery Time Objective (RTO) merupakan kerangka waktu di mana sistem produksi, dan data harus dipulihkan setelah bencana. Dalam dataset besar, kompleksitas kesinambungan bisnis meningkat, dengan masuknya berbagai data, yang harus dipertahankan dalam format. Perencanaan kesinambungan bisnis membutuhkan penyimpanan hasil dari salinan data. Penggunaan perusahaan perangkat lunak seperti EMC Powerpath dapat bermanfaat. EMC Powerpath menyediakan fitur seperti dukungan cluster, penyeimbangan muatan dinamis, konfigurasi dan manajemen, jalur otomatis

kegagalan

Gambar 3. (BIG DATA DBA, 2019)

 

Referensi

(2018), YouTube Revenue and Usage Statistics. (t.thn.). Diambil kembali dari http://www.businessofapps.com/data/youtube-statistics/.

Belajar Gratis Sistem Informasi & Informatika. (2017). Diambil kembali dari beritati.blogspot.com: https://beritati.blogspot.com/2017/03/hadoop-teknologi-dalam-big-data-dan.html

BIG DATA DBA. (2019). Diambil kembali dari https://www.bigdatadba.com

Cara Meningkatkan Efisiensi Data Center dan Menghemat Biaya. (2017). Diambil kembali dari INFO DAN BERITA DATA CENTER INDONESIA TERBARU: https://datacenter-indonesia.com/cara-meningkatkan-efisiensi-data-center/

Geer, D. ((2008)). Reducing the storage burden via data deduplication. Computer,. 41(12), 15-17.

Mengenal Big Data. (2016). Diambil kembali dari https://www.codepolitan.com/mengenal-big-data

Rajeev Agrawal , Christopher Nyamful. (2016). Challenges of big data storage and management. Global Journal of Information Technology, Volume 06, Issue 1, (2016) 01-10.

Renuga, K., Tan, S., Zhu, Y., Low, T., & Wang, Y. (2009). Balanced and efficient data placement and replication strategy for distributed backup storage systems. Paper presented at the Computational Science and Engineering.

Singhal, R., Bokare, S., & Pawar, P. ((2010)). Enterprise storage architecture for optimal business continuity. paper presented at the Data Storage and Data Engineering (DSDE).

Sun, G.-Z., Dong, Y., Chen, D.-W., & Wei, J. (2010). Data backup and recovery based on data de-duplication. Paper presented at the Proceedings of the 2010 International Conference on Artificial Intelligence and Computational Intelligence-Volume 02.

YouTube Revenue and Usage Statistics. (2018). Diambil kembali dari http://www.businessofapps.com/data/youtube-statistics/

Zheng, S., Li, M.-C., & Sun, W.-F. (2011). DRCSM: a Novel Decentralized Replica Consistency Service Model.

 

Disajikan:

Barra Al Faruq

 

 

 

 

 

Antoni Wibowo