Penerapan Algoritma BERT dalam Search Engine Google

Abdurrahman Ahmad Alaydrus – 2140032944

Muhammad – 2140032950

Bila kita berbicara tentang search engine, pertama kali yang kita pikirkan adalah situs laman Google karena dengan kualitas pencarian yang sangat canggih, tentunya sangat membantu untuk mempermudah banyak urusan di semua skala masyarakat, baik dari pendidikan anak hingga perusahaan besar. Namun dibalik kesuksesan mesin pencarian ini tidaklah mudah, karena perkembangannya yang sangat cepat melibatkan banyak peneliti di bidang Natural Language Processing atau dikenal dengan singkatan NLP. Setelah menelusuri mesin pencarian Google, ternyata perusahaan tersebut telah menerapkan algoritma Bidirectional Encoder Representations from Transformers atau dikenal dengan istilah BERT. Untuk mengetahui NLP, BERT dan dampaknya terhadap mesin pencarian Google, artikel ini akan menjelaskan mengenai dua hal tersebut serta dampaknya dua istilah tersebut serta manfaat yang diperoleh dengan penerapan algoritmanya yang terkini.

Natural Language Processing

NLP adalah komponen Artificial Intelligence atau dikenal dengan AI dalam program komputer yang memiliki kemampuan untuk memahami Bahasa manusia saat diucapkan Pengembangan aplikasi NLP menantang karena komputer secara tradisional mengharuskan manusia untuk “berbicara” dengan mereka dalam bahasa pemrograman yang tepat, tidak ambigu dan sangat terstruktur, atau melalui sejumlah perintah suara yang diucapkan dengan jelas. Namun, ucapan manusia tidak selalu tepat – sering kali ambigu dan struktur linguistiknya dapat bergantung pada banyak variabel kompleks, termasuk bahasa gaul, dialek daerah, dan konteks sosial.

Cara Kerja NLP serta Teknik dan Tools yang digunakan

Analisis sintaksis dan semantik adalah dua teknik utama yang digunakan dengan pemrosesan bahasa alami. Sintaks adalah susunan kata-kata dalam kalimat agar gramatikal masuk akal. NLP menggunakan sintaks untuk menilai makna dari suatu bahasa berdasarkan aturan tata bahasa. Teknik sintaksis yang digunakan antara lain parsing (analisis gramatikal untuk sebuah kalimat), segmentasi kata (yang membagi sebagian besar teks menjadi beberapa unit), segmentasi kalimat (yang menempatkan batas kalimat dalam teks besar), segmentasi morfologis (yang membagi kata menjadi kelompok) dan stemming (yang membagi kata dengan infleksi di dalamnya menjadi bentuk dasar).

Semantik melibatkan penggunaan dan makna di balik kata-kata. NLP menerapkan algoritma untuk memahami makna dan struktur kalimat. Teknik yang digunakan NLP dengan semantik termasuk disambiguasi arti kata (yang memperoleh makna kata berdasarkan konteks), named entity recognition (yang menentukan kata-kata yang dapat dikategorikan ke dalam kelompok), dan natural language generation (yang akan menggunakan database untuk menentukan semantik di balik kata-kata).

Pendekatan sebelumnya ke NLP melibatkan pendekatan yang lebih berbasis aturan, di mana algoritme machine learning yang lebih sederhana diberi tahu kata dan frasa apa yang harus dicari dalam teks dan diberi respons spesifik saat frasa tersebut muncul. Tetapi deep learning adalah pendekatan yang lebih fleksibel dan intuitif di mana algoritma belajar untuk mengidentifikasi maksud pembicara dari banyak contoh, hampir seperti bagaimana seorang anak belajar bahasa manusia.

Tiga alat yang biasa digunakan untuk NLP termasuk NLTK, Gensim, dan Arsitek Intel NLP. NTLK, Natural Language Toolkit, adalah modul python open source dengan kumpulan data dan tutorial. Gensim adalah pustaka Python untuk pemodelan topik dan pengindeksan dokumen. Arsitek Intel NLP juga merupakan pustaka Python lain untuk topologi dan teknik deep learning.

BERT

BERT, yang merupakan singkatan dari Bidirectional Encoder Representations dari Transformers, adalah teknik berbasis jaringan saraf untuk pre-training Natural Language. Dalam bahasa Inggris sederhana, ini dapat digunakan untuk membantu Google lebih memahami konteks kata dalam permintaan pencarian.

Misalnya, dalam frasa \”sembilan hingga lima\” dan \”seperempat hingga lima\”, kata \”kepada\” memiliki dua arti yang berbeda, yang mungkin terlihat jelas bagi manusia tetapi tidak begitu bagi mesin pencarian. BERT dirancang untuk membedakan antar nuansa tersebut untuk memfasilitasi hasil yang lebih relevan.

BERT sudah bersifat open-source dari Google pada November 2018. Artinya, siapa pun dapat menggunakan BERT untuk melatih sistem pemrosesan bahasa mereka sendiri untuk menjawab pertanyaan atau tugas lain.

Cara kerja BERT

Terobosan dari BERT adalah kemampuannya untuk melatih model bahasa berdasarkan seluruh rangkaian kata dalam kalimat atau kueri (pelatihan dua arah) daripada cara pelatihan tradisional pada urutan kata yang diurutkan (kiri-ke-kanan atau gabungan kiri). -ke-kanan dan kanan-ke-kiri). BERT memungkinkan model bahasa untuk mempelajari konteks kata berdasarkan kata-kata di sekitarnya, bukan hanya kata yang mendahului atau mengikutinya.

Google menyebut BERT \”sangat dua arah (Deeply bidirectional)\” karena representasi kontekstual kata-kata dimulai \”dari bagian paling bawah jaringan saraf yang dalam\”.

“Misalnya, kata ‘bank’ akan memiliki representasi bebas konteks yang sama di ‘rekening bank’ dan ‘tepi sungai’. Model kontekstual malah menghasilkan representasi dari setiap kata yang didasarkan pada kata lain dalam kalimat. Misalnya, dalam kalimat ‘Saya mengakses rekening bank’, model kontekstual searah akan mewakili ‘bank’ berdasarkan ‘Saya mengakses’ tetapi bukan ‘rekening.’ Namun, BERT mewakili ‘bank’ menggunakan konteks sebelumnya dan selanjutnya – ‘Saya mengakses… akun.’ ”

Google telah menunjukkan beberapa contoh bagaimana penerapan BERT di Penelusuran dapat memengaruhi hasil. Dalam satu contoh, kueri \”buku latihan matematika untuk orang dewasa\” sebelumnya memunculkan daftar buku untuk Kelas 6 – 8 di bagian atas hasil organik. Dengan menerapkan BERT, Google menampilkan daftar buku berjudul \”Matematika untuk Orang Dewasa\” di bagian atas hasil.

Image Source: Google

Anda dapat melihat di hasil saat ini untuk kueri ini bahwa buku untuk Kelas 6 – 8 masih diberi peringkat, tetapi ada dua buku yang secara khusus ditujukan untuk orang dewasa yang kini berperingkat di atasnya, termasuk di cuplikan unggulan.

Perubahan hasil pencarian seperti di atas mencerminkan pemahaman baru tentang kueri menggunakan BERT. Konten Dewasa Muda tidak sedang dihukum, namun daftar khusus dewasa dianggap lebih selaras dengan maksud penelusur.

Seperti yang kita lihat pada contoh di atas, BERT dapat memengaruhi hasil yang muncul di cuplikan pilihan saat diterapkan.

Pada contoh lain di bawah, Google membandingkan cuplikan unggulan untuk kueri \”parkir di atas bukit tanpa tepi jalan\”, yang menjelaskan, \”Dulu, kueri seperti ini akan membingungkan sistem kami – kami terlalu mementingkan kata ‘tepi jalan’ dan mengabaikan kata ‘tidak’, tidak memahami betapa pentingnya kata itu untuk menanggapi pertanyaan ini dengan tepat. Jadi kami akan mengembalikan hasil untuk parkir di atas bukit dengan trotoar. \”

Image Source: Google

References

Nguyen, G. (n.d.). FAQ: All about the BERT algorithm in Google search. Retrieved from Search Engine Land: https://searchengineland.com/faq-all-about-the-bert-algorithm-in-google-search-324193

Rouse, M. (n.d.). Natural Language Processing (NLP). Retrieved from SearchBusinessAnalytics: https://searchbusinessanalytics.techtarget.com/definition/natural-language-processing-NLP