Image Search Engine: Teknologi Review
GABRIELLE PETRINA LEE BARNABAS, HARDIYANTI CITRAWATI, TIARA ANGELICA SANTOSO
Computer Science Department
BINUS Graduate Program – Master of Computer Science
Bina Nusantara University, Jakarta, Indonesia, 11480
gabrielle.barnabas001@binus.ac.id, hardiyanti.citrawati001@binus.ac.id, tiara.santoso@binus.ac.id, anwibowo.binus.edu
Pencarian informasi di internet pasti sudah tidak asing lagi dilakukan. Jika pencarian informasi tersebut sudah familiar, apakah sudah mengerti apa itu search engine? Search engine adalah alat yang digunakan untuk mencari informasi yang ada di internet. Alat tersebut berupa software yang berjalan otomatis setiap saat. Halaman hingga situs ditelusuri untuk mendapatkan data dari setiap sumber. Seluruh data yang ada di internet disimpan dalam bentuk indeks, sehingga jika ada pencarian informasi dapat direferensikan dari indeks – indeks tersebut.
Pada saat ini tipe data yang digunakan dalam pencarian informasi cukup beragam. Teks merupakan tipe data yang paling banyak digunakan untuk mencari informasi di software yang ada di internet. Selain teks, tipe data multimedia saat ini banyak dikembangkan seperti gambar, video, dan suara yang tersedia di internet. Media gambar merupakan tipe data yang paling banyak dikembangkan selain tipe data teks. Penggunaan tipe data media gambar selain digunakan pada pencarian informasi di internet, digunakan sebagai fitur tambahan komersial pada e-commerce. Oleh karena itu, media gambar terus dikembangkan dengan pertambahan gambar yang terus meningkat.
Penggunaan gambar sebagai keyword serta hasil pencarian dikenal dengan istilah reversed image search. Istilah tersebut merupakan sebuah tool search engine yang memungkinkan pengguna memasukkan gambar sebagai query dan mengembalikan hasil berupa gambar yang berelasi dengan gambar yang dimasukkan. Reversed image search juga berfungsi jika ingin mencari gambar asli dari gambar yang dimasukkan atau ingin mencari informasi lebih detail mengenai pemilik dari gambar tersebut.
Konsep kerja search engine dibagi menjadi 3 bagian, yaitu crawl, index, dan rank. Crawl adalah proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke seluruh konten yang ditemukan dari tautan halaman. Index adalah penyimpanan informasi dari konten yang ditemukan berupa indeks, ketika konten tersebut telah diindeks, maka halaman tersebut dapat muncul sebagai hasil dari proses pencarian. Rank adalah mengurutkan hasil proses pencarian dari tingkat relevan tertinggi. Konsep tersebut sebagai dasar dari search engine juga digunakan untuk reversed image search.
Pada konsep reversed image search, data dari konten yang disimpan perlu dilakukan ekstraksi fitur dan dikelompokkan untuk memudahkan pencarian. Fitur tersebut dapat didapatkan dari persamaan distribusi warna, segmentasi fitur penting, bentuk objek penting, lekukan, intensitas pixel, gradien, dan tekstur pada gambar. Gambar yang dimasukkan sebagai query maupun gambar yang didapatkan dari crawler perlu dilakukan proses ekstraksi. Hasil ekstraksi dari gambar crawler akan dikelompokkan berdasarkan persamaan gambar dengan cluster yang ada untuk mempersempit space pencarian. Kemudian fitur ekstraksi dari gambar yang dimasukkan dengan fitur ekstraksi yang telah dikelompokkan dicocokkan. Hasil pencocokan tersebut merupakan hasil reversed search engine. Hasil dari reversed search engine juga dapat menghasilkan gambar yang memiliki relasi dengan gambar yang dicari. Hal tersebut merupakan hasil dari pengelompokkan ekstraksi fitur yang mengaitkan relasi satu sama lain. Sehingga ketika user mencari Barack Obama (mantan presiden Amerika) akan dimunculkan juga gambar Michelle Obama. Karena 2 hal tersebut memiliki keterkaitan yang cukup dekat.
Gambar konsep arsitektur image search engine
(source:https://medium.com/@anmol19005/content-based-image-retrieval-without-metadata-560c3a37f1c)
Kemajuan image search engine saat ini sudah bisa untuk membantu pencarian media berupa gambar. Kemajuan untuk pencarian gambar ini menggunakan algoritma dari computer vision dan data mining, dimana kata kunci, metadata dan fitur sebuah foto dihitung untuk mencocokan dengan gambar yang dicari. Efektivitas dari sebuah pencarian bergantung pada kompleksitas waktu komputasi fitur dan struktur data sebuah gambar. Oleh sebab itu, semua perhitungan harus diminimalisir. Saat gambar pertama kali muncul di dalam sebuah web, semua nilai yang dibutuhkan dari fiturnya harus dihitung dan disimpan secara terstruktur bersama dengan elemen lain dari deskripsi sebuah gambar agar memaksimalkan efektivitas pencarian gambar.
Untuk optimasi dari sebuah search engine yang bisa berubah-ubah, ada 2 metode AI yang digunakan antara lain expert evaluation dan machine learning. Selain itu, ada juga beberapa metode dan fungsi yang sering digunakan dalam pencarian sebuah gambar. Seperti color content, komponen tekstur, bentuk geometric sebuah gambar, SIFT-like signature, perceptive hash, Haar features dan juga Artificial neural network.
Banyak tools yang bisa digunakan untuk image search engine. Beberapa contoh dari perangkat lunak untuk image search engine saat ini adalah TinEye, Google Image, Pinterest dan Yahoo Image. Perangkat-perangkat ini membantu kita mencari gambar melalui URL dan gambar yang diupload, bahkan ada beberapa yang menambahkan fitur filter agar mudah diakses.
Isu-Isu Image Search Engine yang Menjadi Tantangan Kita
Teknologi-teknologi search engine yang besar saat ini masih memiliki isu dan tantangan di beberapa area. Isu-isu ini kebanyakan merupakan isu algoritma indexing dan ranking yang berpotensi menimbulkan situasi-situasi monopolistik. Dalam hal ini, kita dapat mengkategorisasi aspek dari isu-isu tersebut menjadi: click fraud, spam, dan net neutrality.
Click Fraud, atau penipuan klik, merupakan kegiatan klik iklan secara kontekstual oleh oknum-oknum tertentu tanpa niat untuk membeli barang atau jasa yang diiklankan. Biasanya, pelaku dari click fraud ini memiliki tujuan untuk merugikan perusahaan-perusahaan pengiklan daring yang sudah membayar biaya pemasaran untuk mengakuisisi real customer. Namun, karena adanya click fraud, perusahaan tersebut tidak mendapatkan konsumen asli yang benar benar tertarik membeli barang atau jasa yang diiklankan, melainkan oknum-oknum yang sengaja melakukan klik palsu tersebut. Akan tetapi, di sisi lain, click fraud dapat dimanfaatkan juga oleh perusahaan pengiklan itu sendiri untuk meningkatkan pendapatan untuk sebuah iklan online dengan curang, karena seakan-akan, ada influx konsumen yang klik iklan tersebut dan meningkatkan traffic sebuah iklan. Tentu saja, karena click fraud cukup mudah untuk dilakukan, hal ini dapat sangat mengganggu industri iklan online yang berbasiskan pay-per-click.
Salah satu solusi yang bisa diterapkan search engine untuk mencegah terjadinya click fraud salah satunya adalah dengan membuat sistem dimana klik atau comment harus melalui proses otentikasi dan otorisasi sebelum bisa dianggap sebagai klik valid. Misalnya, untuk comment, setiap pesan harus dikumpulkan secara individual dan manual, dan juga dicek kesesuaiannya dengan kebutuhan pengumpulan image di sistem reverse image search. Dapat dilihat disini bahwa solusi ini membutuhkan usaha yang lebih, sehingga kurang praktis untuk diterapkan apabila industri search engine dan iklan online mau terus berkembang. Selain itu, solusi-solusi yang diusulkan saat ini juga mengarah ke tracking user yang lebih invasif sehingga menimbulkan masalah privasi. Oleh karena itu, dibutuhkan solusi-solusi di depan yang lebih efektif dan lebih aman untuk menangani click fraud ini.
Spam adalah penyalahgunaan sistem pengiriman pesan untuk mengirim pesan-pesan yang tidak diminta ke penerima dalam jumlah banyak, yang dapat dilakukan untuk tujuan iklan komersial, sampai ke tujuan yang lebih jahat seperti phising dan pengiriman virus. Spam adalah salah satu ancaman terbesar terhadap teknologi search engine. Banyak orang yang berpikir bahwa hasil search engine sudah berkurang kualitasnya, dan salah satu penyebab terbesarnya adalah jumlah spam yang beredar. Spam mempengaruhi tingkat keefektifitasan algoritma indexing yang digunakan pada search engine, sehingga membuat hasil dari algoritma tersebut tidak seefektif yang sebenarnya.
Net neutrality merupakan prinsip dimana semua Internet Service Providers (ISPs) harus memperlakukan semua komunikasi di internet dengan adil, dan tidak mendiskriminasi atau memberi harga dengan berbeda berdasarkan tipe user, content, website, platform, aplikasi, source address, atau destination address. Banyak perusahaan kabel TV, telekomunikasi, dan bermacam-macam servis provider internet lainnya berusaha melobi untuk perubahan hukum yang mengizinkan mereka untuk memblok atau menahan akses kepada user-user dan individual tertentu, atau website dan destinasi internet lainnya yang mereka tentukan secara sepihak. Bila mereka sukses, maka teknologi search engine akan menjadi pilihan pertama untuk pemblokiran ini, dan ISPs dapat memberi harga lebih kepada user untuk akses yang tidak terbatas. Selain itu, algoritma-algoritma yang tanpa sengaja bersifat diskriminatif terhadap suatu grup, ras atau kelompok tertentu, yang diakibatkan karena data yang bersifat bias, juga masih menjadi isu besar di teknologi search engine. Salah satu efek dari bias ini adalah kontroversi-kontroversi seperti image-identification algorithms yang mengklasifikasikan orang ras hitam sebagai gorila, dan pada saat teknologi image identification Nikon tidak bisa mendeteksi apakah user ras Asia yang menggunakannya sedang berkedip atau tidak. Oleh karena itu, masih banyak isu yang dapat digunakan untuk riset kedepannya. Image search engine juga semakin banyak digunakan, dan fitur yang menggunakannya juga semakin luas di berbagai kegunaan.
REFERENCES
https://designhammer.com/services/seo-guide/search-engines
https://www.technewsworld.com/story/59259.html
https://www.oberlo.com/blog/image-search-engine
https://moz.com/beginners-guide-to-seo/how-search-engines-operate#index
https://medium.com/@anmol19005/content-based-image-retrieval-without-metadata-560c3a37f1c
Smelyakov, K., Sandrkin, D., Ruban, I., Vitalii, M., & Romanenkov, Y. (2018, October). Search by image. New search engine service model. In 2018 International Scientific-Practical Conference Problems of Infocommunications. Science and Technology (PIC S&T) (pp. 181-186). IEEE.
https://www.searchenginejournal.com/best-image-search-engines/299963/#close
http://www.efc-shareinfo.ga/2015/09/pengertian-dan-cara-mencegah-click-fraud.html
Mann, C. “How Click Fraud Could Swallow the Internet” (2006). Wired.com. https://www.wired.com/2006/01/fraud/
“Developer Policy Center – Intellectual Property, Deception, and Spam”. play.google.com. Retrieved 2016-05-01.
Rose, Adam (22 January 2010). “Are Face-Detection Cameras Racist?”. Time. Retrieved 18 November 2017.
Guynn, Jessica (1 July 2015). “Google Photos labeled black people ‘gorillas'”. USA TODAY. USA Today. USA Today. Retrieved 18 November 2017