ALGORITMA BERT TELAH DIADOPSI OLEH GOOGLE PENELUSURAN UNTUK LEBIH DARI 70 BAHASA DAN TINGKATKAN KUALITAS PENCARIAN
BERT bahasa Inggris asli memiliki dua model:
- BERTBASE: 12 Encoder dengan 12 kepala self-attention dua arah, dan;
- BERTLARGE: 24 Encoder dengan 16 kepala self-attention dua arah. Kedua model telah dilatih sebelumnya dari data tak berlabel yang diambil dari BooksCorpus dengan 800 juta kata dan Wikipedia bahasa Inggris dengan 2.500 juta kata.
Pertunjukan BERT
Ketika BERT diterbitkan, BERT mencapai kinerja mutakhir pada sejumlah tugas pemahaman bahasa alami:
- Kumpulan tugas GLUE (General Language Understanding Evaluation) (terdiri dari 9 tugas)
- SQuAD (Stanford Question Answering Dataset) v1.1 dan v2.0
- SWAG (Situasi Dengan Generasi Bermusuhan)
Analisis BERT
Alasan kinerja mutakhir BERT pada tugas pemahaman bahasa alami ini belum dipahami dengan baik. Penelitian saat ini telah difokuskan pada penyelidikan hubungan di balik output BERT sebagai hasil dari urutan input yang dipilih dengan cermat, analisis representasi vektor internal melalui pengklasifikasi probing, dan hubungan yang diwakili oleh bobot perhatian.
Sejarah BERT
BERT berasal dari representasi kontekstual pra-pelatihan termasuk Pembelajaran Urutan Semi-diawasi, Pra-Pelatihan Generatif, ELMo, dan ULMFit. Tidak seperti model sebelumnya, BERT adalah representasi bahasa yang sangat dua arah, tanpa pengawasan, yang telah dilatih sebelumnya hanya menggunakan korpus teks biasa. Model bebas konteks seperti word2vec atau GloVe menghasilkan representasi penyematan kata tunggal untuk setiap kata dalam kosakata, di mana BERT memperhitungkan konteks untuk setiap kemunculan kata tertentu. Misalnya, sedangkan vektor untuk "berlari" akan memiliki representasi vektor word2vec yang sama untuk kedua kemunculannya dalam kalimat "Dia sedang menjalankan perusahaan" dan "Dia sedang berlari maraton", BERT akan memberikan penyematan kontekstual yang akan berbeda menurut kalimatnya.
Pada 25 Oktober 2019, Google Penelusuran mengumumkan bahwa mereka telah mulai menerapkan model BERT untuk kueri penelusuran bahasa Inggris di AS. Pada 9 Desember 2019, dilaporkan bahwa BERT telah diadopsi oleh Google Penelusuran untuk lebih dari 70 bahasa. Pada Oktober 2020, hampir setiap kueri berbasis bahasa Inggris diproses oleh BERT.
Bila kita berbicara tentang search engine, pertama kali yang kita pikirkan adalah situs laman Google karena dengan kualitas pencarian yang sangat canggih, tentunya sangat membantu untuk mempermudah banyak urusan di semua skala masyarakat, baik dari pendidikan anak hingga perusahaan besar. Namun dibalik kesuksesan mesin pencarian ini tidaklah mudah, karena perkembangannya yang sangat cepat melibatkan banyak peneliti di bidang Natural Language Processing atau dikenal dengan singkatan NLP. Setelah menelusuri mesin pencarian Google, ternyata perusahaan tersebut telah menerapkan algoritma Bidirectional Encoder Representations from Transformers atau dikenal dengan istilah BERT. Untuk mengetahui NLP, BERT dan dampaknya terhadap mesin pencarian Google, artikel ini akan menjelaskan mengenai dua hal tersebut serta dampaknya dua istilah tersebut serta manfaat yang diperoleh dengan penerapan algoritmanya yang terkini.
Natural Language Processing
NLP adalah komponen Artificial Intelligence atau dikenal dengan AI dalam program komputer yang memiliki kemampuan untuk memahami Bahasa manusia saat diucapkan Pengembangan aplikasi NLP menantang karena komputer secara tradisional mengharuskan manusia untuk “berbicara” dengan mereka dalam bahasa pemrograman yang tepat, tidak ambigu dan sangat terstruktur, atau melalui sejumlah perintah suara yang diucapkan dengan jelas. Namun, ucapan manusia tidak selalu tepat – sering kali ambigu dan struktur linguistiknya dapat bergantung pada banyak variabel kompleks, termasuk bahasa gaul, dialek daerah, dan konteks sosial.
Cara Kerja NLP serta Teknik dan Tools yang digunakan
Analisis sintaksis dan semantik adalah dua teknik utama yang digunakan dengan pemrosesan bahasa alami. Sintaks adalah susunan kata-kata dalam kalimat agar gramatikal masuk akal. NLP menggunakan sintaks untuk menilai makna dari suatu bahasa berdasarkan aturan tata bahasa. Teknik sintaksis yang digunakan antara lain parsing (analisis gramatikal untuk sebuah kalimat), segmentasi kata (yang membagi sebagian besar teks menjadi beberapa unit), segmentasi kalimat (yang menempatkan batas kalimat dalam teks besar), segmentasi morfologis (yang membagi kata menjadi kelompok) dan stemming (yang membagi kata dengan infleksi di dalamnya menjadi bentuk dasar).
Semantik melibatkan penggunaan dan makna di balik kata-kata. NLP menerapkan algoritma untuk memahami makna dan struktur kalimat. Teknik yang digunakan NLP dengan semantik termasuk disambiguasi arti kata (yang memperoleh makna kata berdasarkan konteks), named entity recognition (yang menentukan kata-kata yang dapat dikategorikan ke dalam kelompok), dan natural language generation (yang akan menggunakan database untuk menentukan semantik di balik kata-kata).
Pendekatan sebelumnya ke NLP melibatkan pendekatan yang lebih berbasis aturan, di mana algoritme machine learning yang lebih sederhana diberi tahu kata dan frasa apa yang harus dicari dalam teks dan diberi respons spesifik saat frasa tersebut muncul. Tetapi deep learning adalah pendekatan yang lebih fleksibel dan intuitif di mana algoritma belajar untuk mengidentifikasi maksud pembicara dari banyak contoh, hampir seperti bagaimana seorang anak belajar bahasa manusia.
Tiga alat yang biasa digunakan untuk NLP termasuk NLTK, Gensim, dan Arsitek Intel NLP. NTLK, Natural Language Toolkit, adalah modul python open source dengan kumpulan data dan tutorial. Gensim adalah pustaka Python untuk pemodelan topik dan pengindeksan dokumen. Arsitek Intel NLP juga merupakan pustaka Python lain untuk topologi dan teknik deep learning.
BERT
BERT, yang merupakan singkatan dari Bidirectional Encoder Representations dari Transformers, adalah teknik berbasis jaringan saraf untuk pre-training Natural Language. Dalam bahasa Inggris sederhana, ini dapat digunakan untuk membantu Google lebih memahami konteks kata dalam permintaan pencarian.
Misalnya, dalam frasa \”sembilan hingga lima\” dan \”seperempat hingga lima\”, kata \”kepada\” memiliki dua arti yang berbeda, yang mungkin terlihat jelas bagi manusia tetapi tidak begitu bagi mesin pencarian. BERT dirancang untuk membedakan antar nuansa tersebut untuk memfasilitasi hasil yang lebih relevan.
BERT sudah bersifat open-source dari Google pada November 2018. Artinya, siapa pun dapat menggunakan BERT untuk melatih sistem pemrosesan bahasa mereka sendiri untuk menjawab pertanyaan atau tugas lain.
Cara kerja BERT
Terobosan dari BERT adalah kemampuannya untuk melatih model bahasa berdasarkan seluruh rangkaian kata dalam kalimat atau kueri (pelatihan dua arah) daripada cara pelatihan tradisional pada urutan kata yang diurutkan (kiri-ke-kanan atau gabungan kiri). -ke-kanan dan kanan-ke-kiri). BERT memungkinkan model bahasa untuk mempelajari konteks kata berdasarkan kata-kata di sekitarnya, bukan hanya kata yang mendahului atau mengikutinya.
Google menyebut BERT \”sangat dua arah (Deeply bidirectional)\” karena representasi kontekstual kata-kata dimulai \”dari bagian paling bawah jaringan saraf yang dalam\”.
“Misalnya, kata ‘bank’ akan memiliki representasi bebas konteks yang sama di ‘rekening bank’ dan ‘tepi sungai’. Model kontekstual malah menghasilkan representasi dari setiap kata yang didasarkan pada kata lain dalam kalimat. Misalnya, dalam kalimat ‘Saya mengakses rekening bank’, model kontekstual searah akan mewakili ‘bank’ berdasarkan ‘Saya mengakses’ tetapi bukan ‘rekening.’ Namun, BERT mewakili ‘bank’ menggunakan konteks sebelumnya dan selanjutnya – ‘Saya mengakses… akun.’ ”
Google telah menunjukkan beberapa contoh bagaimana penerapan BERT di Penelusuran dapat memengaruhi hasil. Dalam satu contoh, kueri \”buku latihan matematika untuk orang dewasa\” sebelumnya memunculkan daftar buku untuk Kelas 6 – 8 di bagian atas hasil organik. Dengan menerapkan BERT, Google menampilkan daftar buku berjudul \”Matematika untuk Orang Dewasa\” di bagian atas hasil.
Google resmi memperkenalkan sebuah teknik machine learning berbasis jaringan neural untuk pelatihan awal natural language processing (NLP) yang disebut sebagai Bidirectional Encoder Representations from Transformers (BERT).
Teknologi ini memungkinkan sistem mereka untuk memahami lebih dalam konteks pencarian yang dimaksud oleh pengguna dengan cara menelaah korelasi dari setiap kata kunci (keyword). Baca Juga : Pengguna-internet-dilarang-pakai-dns
Danny Sullivan selaku Public Liason for Search Google menyatakan, inovasi ini merupakan salah satu lompatan terbesar di dunia search engine, dan sangat membantu untuk memberikan hasil pencarian yang lebih relevan dan akurat.
Fakta penting lainnya
Salah satu keunggulan lain dari BERT adalah kemampuannya untuk mempelajari suatu bahasa dan menerapkannya ke bahasa yang lain. Sehingga nantinya Google bisa mengambil model penyempurnaan dari bahasa Inggris dan menerapkannya ke bahasa lain.
Meskipun begitu, Danny menyatakan BERT baru sepenuhnya terimplementasikan untuk konten web dalam bahasa Inggris. Namun ia yakin inovasi ini bisa segera hadir penuh untuk bahasa lain, seperti Jepang, Korea Selatan, dan juga Indonesia.
Comments
Post a Comment
✅SILAHKAN KOMENTAR ANDA DALAM RANGKA MEMBERIKAN MASUKAN KELEBIHAN DAN KEKURANGAN ARTIKEL ATAU KONTEN INI ‼️