DATA WAREHOUSE VS BIG DATA

Oleh : Erick Pineka,1 Thoyib Hidayat,2 dan Sembada Denrineksa Bimorogo 3

Big data dan data warehouse sebenarnya memiliki tujuan dasar yang sama, yaitu untuk memberikan nilai bisnis melalui analisis data. Namun, big data dan data warehouse memiliki perbedaan pada ruang lingkup data mereka, dimana big data mencakup semua data dari data warehouse namun data warehouse tidak bisa disebut sebagai big data karena ruang lingkupnya tidak seluas big data. Untuk memahami keduanya, berikut akan disampaikan secara ringkas karakteristik dari sistme keduanya.

1.  Data warehouse

     Data warehouse adalah database yang didesain khusus untuk mengerjakan proses query, membuat laporan dan analisa. Data yang di simpan adalah data business history dari sebuah organisasi /perusahaan, dimana data tersebut tidak tersimpan secara rinci/detil. Sehingga data dapat bertahan lebih lama berbeda dengan data OLTP (Online Transactional Processing) yang tersimpan sampai prosesnya berlangsung secara lengkap.   Sumber data pada datawarehouse berasal dari berbagai macam format, software, platform dan jaringan yang beda. Data tersebut adalah hasil dari proses transaksi perusahan / organisasi sehari.hari. Karena berasal dari sumber yang berbeda beda tadi, maka data pada data warehouse harus tersimpan dalam sebuah format yang baku.

     Data warehouse juga merupakan salah satu sistem pendukung keputusan, yaitu dengan menyimpan data dari berbagai sumber, mengorganisasikannya dan dianalisa oleh para pengambil kebijakan. Akan tetapi datawarehouse tidak dapat memberikan keputusan secara langsung. Namun ia dapat memberikan informasi yang dapat membuat user menjadi lebih paham dalam membuat kebijakan strategis. Ada 4 karakteristik dari data warehouse : subject oriented, integrated, time variant dan non volatile

2.   Big data

     Big data merupakan sekumpulan data yang memiliki skala besar sehingga tidak dapat diproses menggunakan alat tradisional biasa dan harus menggunakan cara maupun alat baru untuk mendapatkan nilai dari data ini, bisa dengan cara di clustering, partisi, dan digudangkan pada data warehouse.

     Big data mengacu pada kumpulan data yang ukurannya diluar kemampuan dari database software tools untuk meng-capture, menyimpan,me-manage dan menganalisis. Dalam pemrosesan big data, terdapat 3 dimensi pendukung yang kita kenal dengan istilah 3V, antara lain : Variety, Velocity, dan Volume.

3.  Perbedaan Antara Data warehouse Dengan Big data

Perbedaan Antara Big data vs Data warehouse, dijelaskan dalam poin-poin di bawah ini:

  1. Data warehouse adalah arsitektur penyimpanan data atau repositori data. Padahal Big data adalah teknologi untuk menangani big data dan menyiapkan repositori.
  2. Data DBMS apa pun yang diterima oleh Data warehouse, sedangkan Big data menerima semua jenis data termasuk data transnasional, data media sosial , data mesin atau data DBMS.
  3. Data warehouse hanya menangani data struktur (relasional atau tidak relasional), tetapi big data dapat menangani struktur, non-struktur, data semi-terstruktur.
  4. Big data biasanya menggunakan sistem file terdistribusi untuk memuat big data dengan cara terdistribusi, tetapi data warehouse tidak memiliki konsep semacam itu.
  5. Dari sudut pandang bisnis, karena big data memiliki banyak data, analitik tentang itu akan sangat bermanfaat, dan hasilnya akan lebih berarti yang membantu mengambil keputusan yang tepat untuk organisasi itu. Sedangkan data warehouseterutama membantu analitik pada informasi informasi.
  6. Data warehouse berarti database relasional, sehingga menyimpan, mengambil data akan mirip dengan permintaan SQL normal. Dan big data tidak mengikuti struktur database yang tepat, kita perlu menggunakan sarang atau memicu SQL untuk melihat data dengan menggunakan kueri spesifik sarang.
  7. 100% data yang dimuat ke dalam data warehouse digunakan untuk laporan analitik . Tetapi data apa pun yang dimuat oleh Hadoop , maksimum 0,5% digunakan pada laporan analisis sampai sekarang. Data lain dimuat ke dalam sistem, tetapi tidak menggunakan status.
  8. Data Warehousing tidak pernah dapat menangani data yang sangat besar (data yang benar-benar tidak terstruktur). Big data ( Apache Hadoop ) adalah satu-satunya opsi untuk menangani data yang sangat besar.
  9. Waktu pengambilan meningkat secara bersamaan di data warehouse berdasarkan volume data. Berarti, ini akan memakan waktu kecil untuk data volume rendah dan waktu besar untuk volume besar data seperti DBMS. Tetapi dalam kasus big data, akan membutuhkan waktu yang sangat singkat untuk mengambil big data (karena dirancang khusus untuk menangani big data), tetapi mengambil waktu besar jika kita mencoba memuat atau mengambil data kecil di HDFS dengan menggunakan peta mengurangi .

Tabel 1: Tabel Perbandingan Big data vs Data warehouse

BASIS FOR COMPARISON DATA WAREHOUSE BIG DATA
 

 

 

 

 

Meaning

Data warehouse terutama merupakan arsitektur, bukan teknologi. Ini mengekstraksi data dari berbagai sumber data berbasis SQL (terutama database relasional) dan bantuan untuk menghasilkan laporan analitik. Dalam hal definisi, penyimpanan data, yang menggunakan laporan analitik, telah dihasilkan dari satu proses, yang tidak lain adalah data warehouse. Big data terutama teknologi, yang berdiri di atas volume, velocity, and variety data. Volume menentukan jumlah data yang berasal dari sumber yang berbeda, velocity mengacu pada kecepatan pemrosesan data, dan variety mengacu pada jumlah jenis data (terutama mendukung semua jenis format data).
 

 

 

 

Preferences

Jika organisasi ingin mengetahui beberapa keputusan yang terinformasi (seperti apa yang terjadi di perusahaan mereka, perencanaan tahun depan berdasarkan data kinerja tahun berjalan, dll.), Mereka lebih memilih untuk memilih data pergudangan, karena untuk laporan semacam ini mereka memerlukan data yang dapat diandalkan atau dipercaya dari sumber. Jika organisasi perlu membandingkan dengan banyak big data, yang mengandung informasi berharga dan membantu mereka untuk mengambil keputusan yang lebih baik (seperti bagaimana mengarahkan lebih banyak pendapatan, lebih banyak keuntungan, lebih banyak pelanggan dll), mereka jelas lebih menyukai pendekatan Big data.
 

 

 

Accepted Data Source

Diterima satu atau lebih homogen (semua situs menggunakan produk DBMS yang sama) atau sumber data heterogen (situs dapat menjalankan produk DBMS yang berbeda). Menerima segala jenis sumber, termasuk transaksi bisnis, media sosial, dan informasi dari sensor atau data spesifik alat berat. Itu bisa berasal dari produk DBMS atau tidak.
 

 

Accepted type of formats

Menangani terutama data struktural (khususnya data relasional). Diterima semua jenis format. Data struktur, data relasional, dan data tidak terstruktur termasuk dokumen teks, email, video, audio, data stock ticker dan transaksi keuangan.
 

 

 

 

 

 

Subject-Oriented

Gudang data berorientasi pada subjek karena benar-benar memberikan informasi tentang subjek tertentu (seperti produk, pelanggan, pemasok, penjualan, pendapatan dll) bukan pada operasi organisasi yang sedang berlangsung. Itu tidak fokus pada operasi yang sedang berlangsung, terutama berfokus pada analisis atau menampilkan data yang membantu dalam pengambilan keputusan. Big data juga berorientasi pada subjek, perbedaan utama adalah sumber data, karena data besar dapat menerima dan memproses data dari semua sumber termasuk media sosial, sensor atau data spesifik alat berat. Ini juga penting dalam memberikan analisis yang tepat pada data khusus pada subjek yang berorientasi.
 

 

 

 

 

 

Time-Variant

Data yang dikumpulkan di gudang data sebenarnya diidentifikasi oleh periode waktu tertentu. Karena sebagian besar data historis untuk laporan analitis. Big data memiliki banyak pendekatan untuk mengidentifikasi data yang sudah dimuat, periode waktu adalah salah satu pendekatan di atasnya. Karena data Big terutama memproses file datar, maka pengarsipan dengan tanggal dan waktu akan menjadi pendekatan terbaik untuk mengidentifikasi data yang dimuat. Tetapi memiliki pilihan untuk bekerja dengan data streaming, sehingga tidak selalu menyimpan data historis.
 

 

 

 

Non-volatile

Data sebelumnya tidak pernah dihapus ketika data baru ditambahkan ke dalamnya. Ini adalah salah satu fitur utama dari sebuah gudang data. Karena ini benar-benar berbeda dari database operasional, maka perubahan apa pun pada basis data operasional tidak akan berdampak langsung ke gudang data. Big data, sekali lagi data sebelumnya tidak pernah dihapus ketika data baru ditambahkan ke dalamnya. Ini disimpan sebagai file yang mewakili tabel. Tapi di sini kadang-kadang dalam kasus streaming langsung menggunakan Hive atau Spark sebagai lingkungan operasi.
 

 

 

Distributed File System

Pengolahan data besar dalam Data Warehousing sangat memakan waktu dan terkadang butuh satu hari penuh untuk menyelesaikan prosesnya. Salah satu kegunaan Big data. HDFS (Hadoop Distributed File System) terutama didefinisikan untuk memuat data besar dalam sistem terdistribusi dengan menggunakan program peta mengurangi.

 (Sumber : https://www.educba.com/big-data-vs-data-warehouse/)

Berdasarkan penjelasan dan pengertian di atas, maka bisa kita simpulkan bahwa:

  1. Big data dan data warehouse tidak sama, sehingga tidak dapat dipertukarkan.
  2. Suatu organisasi dapat mengikuti solusi Big data dan Data warehouse berdasarkan kebutuhan mereka, bukan karena mereka serupa.

References :

https://www.ismll.uni-hildesheim.de/lehre/bi-12s/script/bi-00-Lection3_4.pdf

https://www.educba.com/big-data-vs-data-warehouse/

Abba Suganda Girsang