DATA WAREHOUSE DI ERA BIG DATA

Dibuat Oleh:

Adrian Lewis Haris – 1801693501

Arwan – 1801693691

KelvinMandagie – 1801693672

Ludki Reza Ariana – 1801693760

Virman Ardinda–1801693722

LTA1 – 1622

 

Seiring dengan perkembangan teknologi Data Management, terminologi Big Data atau Data Lake sudah umum dikalangan IT. Selama beberapa tahun teknologi Enterprise Data Warehouse (EDW) telah menjadi data management yang digunakan sebagai sistem analis hampir disetiap organisasi. Teknologi EDW telah membantu user IT untuk memberikan akses data yang berstruktur baik untuk pengguna teknis maupun non teknis seperti pengguna bisnis.
Beberapa tahun terakhir, perkembangan teknologi Data Management sangat banyak berubah, terminologi Big Data diperkenalkan sebagai teknologi baru yang menjadi alternatif dari penggunaan teknologi Enterprise Data Warehouse tradisional yang saat ini sudah lebih baik dari segi kemampuannya untuk memenuhi kebutuhan bisnis.

Defenisi Enterprise Data Warehouse (EDW) dan Big Data
Data Warehouse (DWH) atau Enterprise Data Warehouse (EDW) adalah sebuah sistem yang digunakan untuk laporan dan data analisis, yang menjadi inti komponen dari suatu sistem business Intelligence (BI). Data Warehouse adalah pusat data yang terintegrasi dari beberapa sumber data, dimana penyimpanan data baru dan data historikal dilakukan pada satu tempat yang digunakan untuk laporan hasil analisis untuk organisasi. Data yang disimpan pada umum-nya akan membutuhkan data-cleansing untuk menjamin kualitas data yang akan digunakan sebagai laporan untuk data analisis.
Big Data adalah terminologi dari data yang sangat besar dan kompleks yang mempunyai kemampuan untuk melakukan proses data dari data yang sangat bervariasi dan dari berbagai sumber. Pada umum-nya data yang disimpan adalah data dalam bentuk data raw dan dilakukan process cleaning seperti yang dilakukan pada proses data warehouse.

Batasan Pada Traditional Enterprise Data Warehouse
Masalah fundamental pada tradisional EDW adalah tidak dapat memenuhi atau memecahkan masalah yang dibutuhkan oleh pengguna IT maupun Bisnis. Pada EDW, data konsumen harus disesuaikan sehingga dapat digunakan untuk analisis. Analisis tersebut dapat memecahkan suatu masalah dengan cara hanya mengintegrasi data dan proses bisnis kedalam program EDW. Pada sisi yang lain desain dan teknologi EDC tidak dapat memecahkan masalah seperti data analisis semi-structured, real-time streaming analytics, search dan discovery yang dimana data EDW hanya menggunakan teknologi relational database.

Berikut beberapa kendala yang kemungkinan dihadapi dalam Data Warehouse:

  • Data yang digunakan adalah Structured data
  • Proses yang dilakukan bersifat Schema-on-write
  • Storage yang digunakan pada umum-nya mahal karena dibutuhkan performa dan volume data yang besar.
  • Konfigurasi yang digunakan untuk suatu kasus atau process sudah fixed configuration.

Trend Big Data dan Data Lake

Untuk merespon kebutuhan yang sulit dipenuhi oleh Data Warehouse, ada sebuah teknologi yang memiliki tools untuk menyimpan dan memproses data secara besar. Teknologi inovasi ini muncul dari beberapa perusahaan technologi seperti Twitter dan Facebook yang secara periodik meningkatkan kesadaran organisasi lain terkait hambatan akan data mereka. Teknologi Big Data saat ini bukannya sesuatu sistem yang menyimpan banyak data, hal yang menarik adalah dengan semua data yang terkumpul dalam suatu sistem, pendekatan baru untuk menyelesaikan suatu masalah dapat diterapkan dengan berbagai cara dan aspek. Saat ini setiap organisasi mulai mendesain dan membangun suatu sistem yang secara objektif dibutuhkan oleh bisnis terhadap data-data yang sedang berjalan, bukan pada suatu sistem yang sudah terbentuk sejak awal. Terminologi Big Data tidak lepas dari suatu konsep data repositori “Data Lake”
Konsep Data lake pertama kali dikemukan oleh James Dixon (CTO Pentaho), sebuah konsep yang sangat kontras dengan terminologi “Data Mart” yang ada pada Data Warehouse. James Dixon berpendapat bawah Data Mart mempunyai beberapa masalah yang dapat terjadi, dan Data Lake menjadi suatu solusi yang dia kembangkan. Secara umum Data Lake adalah kumpulan dari berbagai macam data yang disimpan sama persis dengan data asli.

Perbedaan Enterprise Data Warehouse dan Data Lake
Berikut adalah beberapa gambaran perbebedaan pendekatan Traditional Data Warehouse dan Data Lake.

Gambar : Pendekatan Tradisional Data Warehouse

Berikut beberapa perbedaan Data Warehouse dan Data Lake

Data Warehouse (EDW) atau Big Data??
Ini merupakan pertanyaan yang sulit, jika suatu organisasi sudah mempunyai teknologi Data Warehouse, sangat tidak mungkin membuang EDW dan memulai dari awal untuk menerapkan teknologi Big Data atau Data Lake. Walaupun dengan menerapkan teknologi EDW dalam jangka panjang akan menghadapi beberapa permasalahan yang telah disebutkan diatas, namun teknologi Big Data atau Data Lake dapat diterapkan bersamaan dan saling berintegrasi antara EDW dan Data Lake. Dengan seiring berjalannya waktu, EDW dapat dipindahkan sepenuh-nya ke dalam teknologi Data Lake atau anda dapat menerapkan kedua teknologi ini secara hybrid untuk selamanya. EDW dan Data Lake tidak akan saling menggantikan karena dilihat dari kebutuhan masing masing organisasi akan sangat berbeda. Konsep EDW dan Data Lake tidak akan saling menggantikan dan tidak dapat disamakan karena mempunyai karakteristik masing masing sesuai dengan tujuan sistem yang dikembangkan.

GAmbar Integrasi Big Data (Hadoop) Dan Data Warehouse

  • Bagi Organisasi yang sudah mempunyai EDW atau Big Data, Data Lake merupakan suatu solusi untuk memodernisasi Data Warehouse yang berfungsi khusus untuk melakukan search and discovery data yang tidak disimpan oleh Data Warehouse seperti Semi-structured data, un-structured data maupun raw data.
  • Bagi Oranisasi yang belum memiliki EDW, sangat disarankan untuk melakukan pertimbangan untuk menerapkan dengan Data Lake yang mempunyai kemampuan seperti EDW dimana data yang disimpan adalah data yang valid dan dapat di percaya.

Data Management Solution Untuk Korporasi Enterprise
Berikut beberapa data produk yang dapat dijadikan sebagai referensi penerapkan teknologi Data Management and Analytics:

  • Magic Quadrant Data Management and Analytics 2017 (https://www.gartner.com/doc/reprints?id=1-3TZLPYX&ct=170221&st=sb)
  • The Forrester Wave : Big Data Warehouse Q2 2017 (https://kloudrydermcaasicmforrester.s3.amazonaws.com/mcaas/Reprints/RES136478.pdf)

Sources

  • http://www.dbta.com/BigDataQuarterly/Articles/Data-Warehousing-in-the-Era-of-Big-Data-108590.aspx
  • https://en.wikipedia.org/wiki/Data_warehouse
  • https://en.wikipedia.org/wiki/Big_data
  • https://en.wikipedia.org/wiki/Data_lake
  • https://www.linkedin.com/pulse/big-data-landscape-architecture-gaurav-kesarwani-frm-mba
  • https://www.blue-granite.com/blog/bid/402596/top-five-differences-between-data-lakes-and-data-warehouses
  • https://www.slideshare.net/Dataversity/dia-slides-data-lake-vs-data-warehouse
  • https://www.slideshare.net/jamserra/data-warehouse-architecture-16065902
Sani M Isa