Paper Review: Implementasi Big Data pada Data Transaksi Tiket Elektronik Bus Rapid Transit (BRT)

 

Penulis Review: Enrico Roy Jonathan dan Adhitya Lucky

Pembimbing/Editor: Amalia Zahra, S.Kom., Ph.D.

 

Review ini didasarkan pada paper:

Prakasa, B., & Subardono, A. (2017). Implementasi Big Data Pada Data Transaksi Tiket Elektronik Bus Rapid Transit (BRT). The 9th Conference on Information Technology and Electrical Engineering (CITEE 2017).

 

Bus Rapid Transit (BRT) merupakan salah satu bentuk angkutan massal di Indonesia yang menerapkan tiket elektronik. Data tiket elektronik dikelola untuk memperbaiki rute dan pelayanan sesuai dengan kebutuhan dari pengguna BRT. Namun, data yang dihasilkan dari transaksi tiket elektronik berukuran sangat besar mencapai ratusan gigabyte dan pertumbuhan jumlah data yang dihasilkan sangat cepat. Pengelolaan data transaksi tersebut tidak dapat dikelola hanya dengan menggunakan MySQL. Oleh karena itu, diperlukan teknologi big data yang mampu melakukan proses pengolahan, penyimpanan dan analisis data dalam beragam bentuk/format, berjumlah besar, dan dengan pertambahan jumlah data yang sangat cepat. Matriks Asal-Tujuan (AT) sering digunakan untuk menganalisa perjalanan penumpang, di mana matriks AT ini menunjukkan total perjalanan pada suatu jaringan transportasi, serta menyediakan informasi di mana perjalanan tersebut dimulai dan berakhir. Penelitian pada paper ini menggunakan API Spark Streaming sebagai data streaming process yang dikombinasikan dengan Java regular expression untuk ekstraksi log data transaksi BRT secara near-realtime. Data ekstraksi akan disimpan pada Apache Cassandra dan divisualisasikan menggunakan Tableau. Penelitian ini bertujuan membangun infrastuktur big data dengan teknologi Apache Kafka, Apache Spark dan Apache Cassandra dalam mengelola data transaksi tiket elektronik BRT untuk mendapatkan informasi mengenai asal-tujuan penumpang.

Berdasarkan tinjauan pustaka yang dilakukan oleh peneliti, didapatkan tiga teknologi utama yang cocok untuk digunakan dalam penelitian Big Data ini untuk melakukan pengelolaan data tiket elektronik BRT, di antaranya yaitu Apache Spark, Apache Kafka dan Apache Cassandra.

  • Apache Spark merupakan tools big data yang dirancang untuk melakukan komputasi dan analisis data dengan cepat. Fitur utama dari Spark adalah komputasi klaster dalam memori yang menambah kecepatan pemrosesan data. Apache Spark memiliki API untuk melakukan streaming data. Spark streaming bersifat high-throughput dan fault-tolerant yang artinya Spark mampu mengalirkan data yang cukup besar dan tetap mampu beroperasi saat terjadi kegagalan karena adanya redundansi saat spark streaming mengalirkan data.
  • Apache Kafka merupakan platform untuk mengirim dan menerima pesan yang terdistribusi. Kafka didesain untuk memiliki kecepatan, skalabilitas, terdistribusi, terpartisi, dan tereplikasi dalam melakukan layanan pengiriman pesan yang membuat Kafka sangat mudah untuk menambahkan kapasitas kemampuannya, menyediakan throughput yang tinggi, mampu menyeimbangkan penerima saat terjadi kesalahan dan tetap akan menyimpan pesan pada disk untuk analisis lebih lanjut.
  • Apache Cassandra merupakan sebuah sistem manajemen basisdata open source Cassandra didesain untuk mengatasi data yang sangat besar dan dengan jaminan tidak ada data yang hilang ataupun rusak. Cassandra adalah basisdata noSQL yang awalnya dikembangkan oleh Facebook dan digunakan untuk fitur “Inbox Search” dan API dari Cassandra dikelola oleh Datastax yaitu Perusahaan yang fokus mengembangkan Apache Cassandra.

Penelitian ini juga menggunakan Regular Expression yang digunakan untuk mencocokkan atau menemukan string atau sekumpulan string dengan menggunakan sintaks berbentuk suatu pola. Pola ini digunakan untuk mencari, mengubah atau memanipulasi teks dan data. Selain itu, penelitian ini juga menggunakan Matriks Asal-Tujuan (AT) yaitu matriks dua dimensi di mana kolom dan baris merepresentasikan sebuah zona perjalanan.

Tabel 1. Ilustrasi Matriks AT

Tij menunjukkan jumlah perjalanan antara asal i dan tujuan j. Oi adalah jumlah total perjalanan yang berasal dari zona i dan Dj adalah jumlah total perjalanan yang menuju ke zona j.

Gambar 1. Diagram Metodologi Penelitian

Metodologi penelitian dalam paper ini terangkum pada diagram yang ditampilkan pada Gambar 1. Pada tahap awal dilakukan perancangan infrastruktur big data yang sesuai dengan data transaksi BRT. Selanjutnya adalah tahap instalasi tool big data, yaitu Apache Kafka, Apache Spark, Apache Cassandra dan Tableau. Adapun sistem operasi yang dipakai, yaitu Windows 8.1 dengan RAM 16 GB, storage HDD 1TB dan CPU Xeon 3.6 GHz dengan 8 inti core. Sofware lain yang diperlukan adalah Java Development Kit (JDK) 1.8, eclipse-Scala, Scala-SBT dan python 2.7. Penelitian ini menggunakan dua macam skenario dengan menggunakan data dummy dari log data BRT. Skenario pertama menggunakan jaringan lokal menggunakan 5 PC client yang semuanya terhubung menggunakan kabel LAN ke 1 Switch Ethernet 100Mbps dalam topologi Star. Skenario kedua menggunakan jaringan wireless yang terhubung dengan UGM-Hotspot. Pada kedua skenario ini digunakan dua Kafka Broker. Selanjutnya pada tahap persiapan dilakukan pembuatan pattern Regular Expression yang sesuai dengan log data transaksi BRT dengan pengujian menggunakan Java regular expression tool, sehingga didapatkan kesesuaian antara data transaksi BRT dengan pattern. Jika sesuai pattern, data akan muncul sesuai grouping regular expression, sehingga ditampilkan data yang sesuai kebutuhan. Pengujian ditulis dalam bahasa pemrograman Scala dan diuji kembali menggunakan Apache Spark.

Selanjutnya pada tahap simulasi dan pengujian dilakukan streaming log data BRT pada transaksi selama 1 hari dan 7 hari sejumlah 500000 dan 3500000 transaksi. Apache Kafka digunakan dalam proses data Stream dari 5 PC client menuju server melalui media, baik itu kabel LAN ataupun Wireless. Lalu, API spark streaming melakukan ekstraksi data yang diperlukan untuk membuat matriks AT. Hasil dari ekstraksi akan disimpan pada Apache Cassandra dalam bentuk tabel. Selain itu, terjadi proses join data untuk mendapatkan data halte yang relevan. Waktu proses pada masing-masing tool akan tercatat pada Spark UI application. Proses selanjutnya yaitu pencarian matriks AT menggunakan algoritma yang menghasilkan matriks AT yang menjabarkan pasangan asal-tujuan dari halte sesuai tingkat kepadatan halte. Visualisasi dari matriks tersebut akan ditampilkan dalam bentuk dashboard Tableau. Tahap terakhir ialah tahap analisis, yaitu mendapatkan kesimpulan dari penelitian dari hasil simulasi dan pengujian. Hasil analisis akan ditampilkan dalam bentuk tabel yang berisi waktu pemrosesan log data BRT dari pengiriman data hingga disimpan, disertai grafik mengenai informasi asal-tujuan dalam bentuk matriks AT pada tool Tableau.

Hasil dari simulasi disajikan dalam bentuk matriks AT. Simulasi dan pengujian dilakukan menggunakan 500000 dan 3500000 transaksi dengan empat pengaturan batch yaitu 1, 3, 5 dan 10 detik untuk melihat seberapa besar pengaruh batch pada besarnya data untuk tipe jaringan LAN maupun wireless sehingga didapatkan pengujian sebanyak 16 kali.

 

Tabel 2. Tabel Pengujian Penelitian

 

Gambar 2. Rerata Streaming Data (LAN)

 

Dari rerata streaming data menggunakan kabel LAN terlihat semua pengujian memiliki rerata streaming lebih cepat dibandingkan media wireless. Pada media kabel LAN dengan jumlah transaksi 500000, formulasi terbaik untuk mendapatkan rerata streaming data yang tinggi adalah mengatur batch menjadi 10 detik. Pada media kabel LAN dengan jumlah transaksi 3500000, formulasi terbaik untuk mendapatkan rerata streaming data yang tinggi adalah mengatur batch menjadi 5 atau 10 detik karena perbedaannya yang tidak terlalu signifikan.

 

Gambar 3. Rerata Streaming Data (Wireless)

Pada media wireless dengan jumlah transaksi 500000, formulasi terbaik untuk mendapatkan rerata streaming data yang tinggi adalah mengatur batch menjadi 5 detik. Pada media wireless dengan jumlah transaksi 3500000, formulasi terbaik untuk mendapatkan rerata streaming data yang tinggi dengan rentan batch 1-10 adalah cenderung sama atau tidak ada.  Hal tersebut dikarenakan records yang dihasilkan per batch selalu dapat diselesaikan lebih cepat oleh Spark dibandingkan waktu menunggu records terkumpul dalam sebuah batch, berbeda dengan LAN yang record-nya cenderung besar per detiknya.

Gambar 4. Hasil Visualisasi Matriks AT pada Tableau

Data yang digunakan dalam pengujian ini adalah data log BRT dengan keterangan tap in dan tap out. Visualisasi matriks AT pada penelitian ini menggunakan Tableau serta tipe yang digunakan ialah tipe heatmap yang menunjukkan tinggi rendahnya jumlah AT berdasarkan perubahan 1 warna. Dari hasil analisis matriks AT ini, ditemukan anomali yaitu ada penumpang yang melakukan beberapa transaksi tetapi berasal hanya dari 1 halte yang sama. Hal ini dapat terjadi karena adanya kemungkinan penumpang kembali ke halte awal tempat penumpang berasal dan kemungkinan penumpang menggunakan 1 kartu untuk banyak penumpang.

Dari penelitian pada paper ini, terdapat beberapa kesimpulan, antara lain penggunaan regular expression, preprosessing data transaksi tiket elektronik BRT dapat dilakukan secara near-realtime; streaming data menggunakan media kabel LAN memiliki kecepatan pengiriman data lebih tinggi dibanding media wireless; optimalisasi kecepatan streaming data dapat dilakukan  dengan formulasi batch yang tepat berdasarkan jumlah data (transaksi) yang dikirim serta pemilihan media yang dialirkan; algoritma yang digunakan untuk mencari matriks AT masih memiliki beberapa anomali yang belum dapat dihilangkan karena masih bersifat asumsi, sebagai contoh ada penumpang yang melakukan beberapa transaksi, tetapi berasal hanya dari 1 halte yang sama.

Kritik dan saran yang dapat kami sampaikan sebagai future research, yaitu:

  • Penggunaan media cloud computing pada proses pengiriman data dan streaming data yang bertujuan meningkatkan kecepatan pengiriman data dalam jumlah yang besar dan menurunkan latency pada proses streaming data.
  • Proses penyusunan matriks Asal-Tujuan dapat dilakukan dengan menggunakan Automated Data Collection (ADC) yang menerapkan raw Global Positioning System (GPS), data dengan tiga sumber data, yaitu halte bus, data lokasi kendaraan otomatis, dan pengumpulan tarif otomatis data, sehingga matriks AT lebih komprehensif, tidak bersifat asumsi, dan lebih rinci yang dapat menghilangkan data anomali.
  • Dataset Asal-Tujuan yang kurang akurat karena banyak kemungkinan penumpang hanya melakukan tap in tanpa melakukan tap out dan melakukan tap in untuk lebih dari 1 penumpang. Hal tersebut dapat dioptimalkan dengan kebijakan pada halte yang lebih ketat untuk penggunaan tiket elektronik untuk tap in dan tap out
Amalaia Zahra