7 Mitos dan Fakta Data Warehousing

Oleh:

Adrian Primanta Suciadi 1801673084
Andrew 1801677901
Dimas Ramadhana Susilo Prakoso 1801678864
Frans Andreas Wiranata 1801657811

DATA WAREHOUSING

Istilah “data warehouse” pertama kali diciptakan oleh Bill Inmon pada tahun 1990. Data warehouse merupakan sebuah kumpulan data atau database yang digunakan untuk membantu para eksekutif perusahaan dalam mengambil keputusan strategis lewat pembuatan laporan, on-line analytical processing (OLAP), data mining, dsb. Proses merancang dan membangun sebuah data warehouse disebut data warehousing, yang dimulai dari menentukan tujuan bisnis dari dibangunnya sebuah data warehouse, mengumpulkan dan menganalisa informasi dan proses bisnis, merancang  data model, mengumpulkan berbagai data source dan teknologi yang digunakan, serta perancangan dan implementasi proses extract, transform, load (ETL) yang pada umumnya terdiri dari tahapan-tahapan berikut:

  1. Data di-import dari berbagai sumber data
  2. Data dibersihkan (data cleansing) dan diorganisir secara konsisten sesuai dengan kebutuhan perusahaan
  3. Data diekstrak atau dimasukkan ke dalam data warehouse

Realitanya, data warehousing adalah proses yang kompleks dan membutuhkan resources yang cukup banyak. Oleh karena itu, sangat penting untuk mengetahui prinsip-prinsip dalam merancang dan membangun data warehouse, agar data warehouse yang dibangun dapat menjadi business solutions yang efektif bagi perusahaan. Berikut ini adalah mitos dan fakta tentang data warehouse:

Mitos #1 Data Warehousing dan BI merupakan technology solution

Data warehouse dan BI (Business Intelligence) bukanlah sebuah produk, tetapi merupakan kombinasi dari berbagai tools dan teknologi untuk menjawab kebutuhan bisnis dalam hal pengambilan keputusan yang cepat, tepat, dan efisien. Banyak orang yang masih mempercayai mitos yang mengatakan bahwa kesuksesan BI/DW adalah diukur dari banyaknya laporan yang dihasilkan, banyaknya dashboard dibuat, atau menggunakan berbagai macam ETL tools dan reporting tools. BI/DW merupakan business solution, dimana kesuksesannya diukur dari business value yang diberikan kepada suatu perusahaan, seperti meningkatkan penghasilan dan mengurangi biaya.

Mitos #2 Business user (pengguna) memiliki kebutuhan data yang sama

Setiap pengguna memerlukan data yang berbeda-beda dengan pengguna yang lainnya. Hal ini bisa berdasarkan jabatan, divisi/departemen tempat bekerja, kebutuhan, dan hal lainnya. Sebagai contohnya, pengguna yang berada di posisi manager dan direktur. Pengguna di posisi manager mungkin hanya memerlukan data yang berhubungan dengan kegiatan operasional saja seperti data laporan harian, mingguan, dan bulanan yang berguna untuk melihat laporan tentang bisnis yang sedang berjalan berdasarkan divisi/departemennya. Namun, berbeda dengan pengguna yang berada di posisi direktur. Pengguna pada posisi direktur memerlukan data yang lebih kompleks dan menyeluruh tentang perusahaan, yang mungkin saja dikumpulkan dari semua divisi yang ada di perusahaannya. Sehingga paradigma atau pandangan yang mengatakan bahwa semua pengguna memiliki data dan penggunaan yang sama adalah tidak benar. Setiap pengguna memiliki data yang berbeda-beda sesuai kebutuhannya.

Mitos #3 Data Transaksional dan Analitikal adalah sama

Data transaksional dan analitikal adalah dua hal yang berbeda. Data transaksional adalah data yang digunakan untuk kebutuhan operasional seperti insert, update, dan delete. Sedangkan, data analitikal adalah data yang digunakan untuk kebutuhan untuk menentukan strategi dan taktikal yang akan dilakukan. Dengan demikian, data transaksional adalah data yang sedang digunakan untuk kebutuhan operasional, dan data analitikal adalah data histori. Data transaksional secara berkesinambungan/rutin selalu di-update, sedangkan data analitikal ada jangka waktu atau periode untuk melakukan pemrosesan. Untuk lebih jelasnya, tabel berikut akan memberi tahu secara lebih rinici perbedaan data transaksional dan analitikal.

Data Transaksional Data Analitikal
Focus Operational Strategic and tactical
Data Strategy Collect and input data Extract and analyze data
Data Granularity Detailed only Detailed, summarized and derived
Data Type Current Historical
Data Currency Continuously updated Periodic snapshots
Integration Level Source-specific Integrated
System Focus Application-oriented Subject-oriented
Size of Result Set Small – transactions Large – snapshots
Data Model Designed for updates Designed for queries

Dengan demikian, dapat disimpulkan data transaksional dan analitikal tidaklah sama. Sangat berbahaya dan buruk jika ingin membuat suatu laporan yang cukup rumit dari data transaksional karena data transaksional tidak di desain untuk kebutuhan query.

Mitos #4 Model data relational adalah model data terbaik untuk decision support systems

Model data relational merupakan model data yang paling sempurna untuk  transactional processing systems, karena mampu menggambarkan relasi antar data pada tingkat paling detail (most granular level), sedangkan model data dimensional hadir untuk memenuhi kebutuhan user untuk melakukan analisa data yang memerlukan data aktual dan historis, sehingga model data dimensional merupakan model data yang cocok untuk decision support systems.

Relational Data Modeling Dimensional Data Modeling
Data is stored in RDBMS Data is stored in RDBMS or Multidimensional database
Tables are unit of storage Cubes are unit of storage
Data is normalized Data is denormalized
Optimized for OLTP Optimized for OLAP
Several tables and chain of relationships among them Few tables and fact tables are connected to dimensional tables
Volatile and time-variant Non-volatile and time-invariant
SQL is used to manipulate data MDX is used to manipulate data
Detailed level of transactional data Summary of bulky transactional data (aggregates and measures) used in business decisions
Normal reports User friendly, interactive multidimensional OLAP reports

Mitos #5 Disaster Recovery Plan hanya digunakan oleh bagian finansial yang mempunyai data penting

Semua bentuk organisasi atau perusahaan rentan terhadap segala bentuk bencana baik bencana alam maupun bencana akibat human error. Bencana tersebut dapat mengganggu kinerja dan stabilitas organisasi. Bahkan dalam keadaan terburuk, bencana dapat menghentikan kinerja perusahaan secara permanen. Untuk itu, faktanya adalah semua bagian/divisi memerlukan disaster recovery plan untuk tetap dapat menopang kinerja perusahaan. Disaster recovery plan adalah untuk memastikan uptime sistem informasi, integritas dan ketersediaan data, serta kesinambungan bisnis.

Mitos #6 Anda tidak bisa memperhitungkan ROI konkrit dari investasi BI.

Mengukur ROI (Return on Investment) dari sebuah investasi adalah sebuah hal yang lumrah dilakukan oleh sebuah perusahaan / perorangan yang akan melakukan sebuah investasi dan project BI/DW juga tidak luput dari hal ini. Namun, cara menghitung ROI dari sebuah project BI/DW tidak semudah menghitung ROI di project-project lainnya. Untungnya, saat ini BI/DW sudah mencapai tingkat yang stabil dan matang, dimana kita dapat menggunakan guideline sebagai dasar perhitungan ROI, bersama dengan TCO (Total Cost of Ownership) dari sebuah investasi BI. beberapa faktor kunci yang digunakan adalah:

  • Biaya pembangunan infrastruktur
  • Biaya jasa (vendor software dan vendor penyedia jasa)
  • Biaya Staffing (onshore dan offshore).

Setiap faktor ini bisa diperluas sesuai dengan kebutuhan, dan kita dapat menyimpulkan ROI dari situ. Semua perhitungan yang datang dari faktor faktor kunci diatas adalah numerik. Kita dapat melakukan pengerucutan sampai ke level terendah untuk menganalisa berbagai variable yang akan diperhitungkan seperti, berapa biaya yang harus dikeluarkan untuk satu pengguna BI, atau berapa nilai data per terabyte volume yang dihaslikan dari BI tersebut. Walau ROI dan TCO masih sangat bersifat subjektif terhadap individu perorangan dan perorangan, faktor-faktor kunci diatas dapat membantu kita untuk menggali informasi yang lebih detail yang nantinya dapat merujuk kita kepada variabel spesifik dalam sebuah perspektif yang sedang berjalan. Setiap detail yang berhubungan dengan ROI dan TCO itu adalah nyata, dan jika investasi bersifat numerik, dan biaya juga bersifat numerik maka sudah pasti bawha ROI dan TCO bersifat numerik juga.

Mitos #7 Data yang tidak ringkas dapat menyebabkan kinerja yang buruk pada sebuah data warehouse

Dalam sebuah pengembangan data warehouse, kita direkomendasikan untuk memiliki data operasional pada level terendah didalam model dimensi kita. Namun, bukan berarti memiliki data yang belum ringkas dapat membuat kinerja data warehouse kita buruk. Sebuah data yang ringkas atau data yang sudah diagregasi sebelumnya tanpa tujuan yang spesifik  atau requirement yang jelas dapat membahayakan project data warehouse. Kita harus memahami keadaan dan kebutuhan yang diperlukan untuk memiliki data yang sudah ringkas (summarized data). Walaupun sudah jelas, bahwa data yang sudah diagregasi sebelumnya bisa mempercepat kinerja dari sebuah data warehouse, namun hal itu bukanlah sebuah perancangan arsitektur model dimensi. Untuk laporan laporan standar dimana kebutuhan laporan itu sudah didefinisikan sebelumnya, menggunakan data yang sudah ringkas adalah sebuah ide yang baik. Namun, jika pengguna masih belum menentukan ingin mendapatkan laporan apa saja yang dapat dihasilkan dari data warehouse yang sedang dibangun, ada baiknya kita memiliki data sampai level detil terendah, untuk mencegah kebuntuan pada saat menciptakan laporan dari data yang kita telah kumpulkan.

Referensi

  1. https://www.melissadata.com/enews/articles/0903/1.htm
  2. https://www.melissadata.com/enews/articles/010809/1.htm
  3. http://www.tpgpractice.com/pdf/KBauer_Myths_of_DW_and_BI_TPG.pdf