Muhammad Abdullah Kurtar/Anadolu melalui Getty Images

Meta minggu lalu diluncurkan model bahasa besarnya yang terbesar hingga saat ini, Llama 3.1 405B, yang diklaim perusahaan sebagai “model perintis” pertama dalam perangkat lunak sumber terbuka, artinya, model yang dapat bersaing dengan yang terbaik yang ditawarkan sumber tertutup, seperti GPT-4 milik OpenAI dan Gemini 1.5 milik Google.

Ternyata Llama 3.1 juga dapat dibobol dengan mudah, atau bahkan lebih mudah daripada model-model tersebut. Mirip dengan cara saya membobol Gemini 1.5 dengan pertanyaan yang berkaitan dengan penerjemahan bahasa ketika pertama kali tersedia, saya dapat membuat Llama 3.1 menggunakan kata-kata yang tidak jelas dengan pertanyaan pertama saya.

Juga: Waspadai ‘runtuhnya model’ AI: Bagaimana pelatihan pada data sintetis mencemari generasi berikutnya

Kegagalan Google Gemini merupakan contoh pertanyaan sederhana yang sangat bagus, sehingga kini pertanyaan tersebut menjadi pertanyaan pertama yang saya gunakan untuk menguji model bahasa yang besar. Benar saja, saya dapat menggunakannya untuk memecahkan Llama 3.1 405B Meta pada percobaan pertama.

Ini adalah kasus sudut, bisa dibilang, pertanyaan tentang kata kerja bahasa Georgia “ყოგნა,” yang berarti, “menjadi.” Kecuali bahwa, terletak di wilayah Kaukasus, antara Laut Hitam dan Laut Kaspia, negara Bahasa Indonesia: Georgia merupakan rumah bagi hampir empat juta penutur bahasa Georgia.

Mengacaukan konjugasi kata kerja yang paling penting untuk suatu bahasa yang digunakan oleh empat juta orang tampaknya lebih dari sekadar kasus khusus.

Bagaimanapun, saya sampaikan pertanyaan saya ke Llama 3.1 405B dalam formulir berikut:

Apa konjugasi kata kerja Georgia ყოფნა?

Juga: Saya menyebabkan Google Gemini 1.5 Pro gagal dengan perintah pertama saya

Saya mengirimkan pertanyaan tersebut di Meta Situs meta AIdi mana Anda dapat menggunakan Llama 3.1 405B secara gratis, dan juga di HuggingFace PelukanObrolantempat Anda dapat membuat chatbot dari model AI sumber terbuka apa pun dengan repositori kode publik.

Saya juga mencoba pertanyaan tersebut pada chatbot pihak ketiga yang dihosting secara komersial, GrokDalam semua kasus, tanggapannya hanyalah omong kosong.

Pertama, berikut jawaban yang benar, dari GPT-4o mini OpenAI:

(Sebagian besar LLM dan chatbot lain, termasuk Gemini milik Google, sekarang menjawab pertanyaan ini dengan benar.)

chatgpt-4o-berhasil-di

OpenAI

Awalnya, situs Meta AI memprotes, dengan memberikan pesan bahwa ყოფნა terlalu rumit. Setelah saya bersikeras, muncullah serangkaian kata-kata yang dibuat-buat dan konyol. Berikut jawaban Llama 3.1 405B:

meta-llama-3-1-405b-menolak-untuk-menjawab-lalu-gagal

Meta AI

Seperti yang Anda lihat, jika dibandingkan dengan jawaban yang benar di atas, jawaban Llama 3.1 sama sekali tidak mendekati.

Versi HuggingFace dan Groq bahkan tidak memprotes; mereka langsung memberikan jawaban konyol yang sama. Dalam tanggapan HuggingFace, mereka memberikan serangkaian kata-kata tidak masuk akal yang berbeda dari yang diberikan oleh situs Meta AI:

Respons HuggingChat

PelukanObrolan

Kegagalan total Llama 3.1 pada pertanyaan bahasa asing sangat menjengkelkan mengingat para peneliti Meta berbicara panjang lebar dalam makalah teknis mereka tentang bagaimana Llama 3.1 lebih maju dari versi sebelumnya dalam hal apa yang mereka sebut “multilingualitas,” artinya, dukungan untuk banyak bahasa lain di luar bahasa Inggris.

Penulis meminta banyak masukan tambahan dari manusia mengenai jawaban bahasa. “Kami mengumpulkan data berkualitas tinggi yang diberi anotasi secara manual dari ahli bahasa dan penutur asli,” tulis mereka. “Anotasi ini sebagian besar terdiri dari perintah terbuka yang mewakili kasus penggunaan di dunia nyata.”

Juga: 3 cara Meta Llama 3.1 merupakan kemajuan bagi Gen AI

Ada beberapa aspek menarik yang dapat dilihat yang mengisyaratkan apa yang terjadi dengan Llama 3.1 405B dalam kasus kegagalan tersebut. Ejaan jawaban orang pertama palsu, “ვაყოფ,” tentu saja terdengar, bahkan di telinga saya yang bukan penutur asli, seperti kata Georgia yang sah. Awalan “ვ-” adalah awalan umum untuk konjugasi orang pertama, dan akhiran “-ოფ” adalah akhiran bahasa Georgia yang sah.

Jadi, mungkin saja model tersebut melakukan generalisasi berlebihan, mencari cara cepat untuk menjawab pertanyaan dengan memunculkan jawaban sintetis, jika Anda mau, jawaban yang berfungsi untuk banyak bagian bahasa tertentu sebagai pola, tetapi gagal jika diterapkan secara berlebihan tanpa memperhatikan pengecualian.

Menariknya, jawaban Llama 3.1 405B dapat bervariasi setelah beberapa kali percobaan. Misalnya, ketika pertanyaan dicoba lagi, model akan menampilkan tabel konjugasi yang valid untuk present tense:

meta-llama-3-1-405b-mendapatkan-waktu-sekarang-dari

Meta AI

Namun, ketika diminta untuk menggunakan bentuk kata kerja masa depan, model tersebut hampir menjawabnya dengan benar, tetapi tidak sepenuhnya. Jika gagal menambahkan awalan orang pertama ვ- pada konjugasi pertama dalam tabel:

meta-llama-3-1-405b-gagal-pada-masa-depan-dari

Meta AI

Yang juga menarik adalah fakta bahwa sepupu Llama 3.1 405B yang lebih kecil, 70B, benar-benar mendapatkan jawaban yang tepat untuk present tense pada percobaan pertama. Itu menunjukkan bahwa semua pelatihan dan daya komputasi ekstra yang telah digunakan dalam versi 405B yang lebih besar memiliki kecenderungan, mungkin dalam kasus kecil, benar-benar menurunkan hasil.

Saya kira para insinyur Meta perlu mencermati kasus-kasus khusus dan contoh-contoh kegagalan serta memeriksa apakah perangkat lunak mereka terlalu menggeneralisasi.

Perlu dicatat bahwa para peneliti menggunakan data sintetis secara ekstensif untuk “menyempurnakan” model dan melengkapi umpan balik manusia yang mereka kumpulkan. Masih menjadi pertanyaan terbuka apakah data sintetis yang digunakan dalam skala besar berkontribusi pada regularisasi berlebihan, seperti yang disarankan oleh sebuah artikel minggu lalu di majalah Nature.



Fuente