Google

Teknik kecerdasan buatan generatif yang semakin populer yang dikenal sebagai generasi tambahan pengambilan — atau disingkat RAG — telah menjadi proyek kesayangan banyak perusahaan, tetapi sekarang teknik ini hadir di panggung utama AI.

Google minggu lalu terungkap DataGemma, yang merupakan gabungan dari model bahasa besar (LLM) sumber terbuka Gemma milik Google dan proyek Data Commons untuk data yang tersedia untuk umum. DataGemma menggunakan pendekatan RAG untuk mengambil data sebelum memberikan jawaban atas permintaan kueri.

Premisnya adalah untuk mendasari AI generatif, guna mencegah “halusinasi,” kata Google, “dengan memanfaatkan pengetahuan Data Commons untuk meningkatkan faktualitas dan penalaran LLM.”

Juga: Apa itu o1 dan o1-mini? Model AI misterius OpenAI akhirnya hadir

Sementara RAG menjadi pendekatan populer untuk memungkinkan perusahaan mendasarkan LLM pada data perusahaan milik mereka, penggunaan Data Commons merupakan implementasi pertama RAG hingga saat ini pada skala Gen AI berbasis cloud.

Data Umum adalah kerangka kerja pengembangan sumber terbuka yang memungkinkan seseorang membangun basis data yang tersedia untuk umum. Kerangka kerja ini juga mengumpulkan data aktual dari lembaga-lembaga seperti Perserikatan Bangsa-Bangsa yang telah menyediakan data mereka untuk umum.

Dalam menghubungkan keduanya, Google mencatat, mereka mengambil “dua pendekatan berbeda.”

Pendekatan pertama adalah menggunakan data statistik yang tersedia untuk umum dari Data Commons untuk memeriksa fakta pertanyaan-pertanyaan tertentu yang dimasukkan ke dalam prompt, seperti, “Apakah penggunaan energi terbarukan meningkat di dunia?” Gemma dari Google akan menanggapi prompt tersebut dengan pernyataan yang mengutip statistik tertentu. Google menyebutnya sebagai “retrieval-interleaved generation,” atau RIG.

Dalam pendekatan kedua, RAG digunakan secara penuh untuk mengutip sumber data, “dan memungkinkan keluaran yang lebih komprehensif dan informatif,” kata Google. Model Gemma AI memanfaatkan “jendela konteks panjang” dari model sumber tertutup Google, Gemini 1,5 tahunJendela konteks menunjukkan jumlah masukan dalam bentuk token — biasanya kata-kata — yang dapat disimpan oleh model AI dalam memori sementara untuk ditindaklanjuti.

Juga: Memahami RAG: Cara mengintegrasikan LLM AI generatif dengan pengetahuan bisnis Anda

Gemini mengiklankan Gemini 1.5 pada jendela konteks 128.000 token, meskipun versi-versinya dapat menangani hingga satu juta token dari input. Memiliki jendela konteks yang lebih besar berarti lebih banyak data yang diambil dari Data Commons dapat disimpan dalam memori dan diteliti oleh model saat menyiapkan respons terhadap perintah kueri.

“DataGemma mengambil informasi kontekstual yang relevan dari Data Commons sebelum model memulai pembuatan respons,” kata Google, “sehingga meminimalkan risiko halusinasi dan meningkatkan keakuratan respons.”

contoh-google-datagemma-rag

Google

Penelitian ini masih dalam tahap pengembangan; Anda dapat menggali lebih dalam di makalah penelitian formal oleh peneliti Google Prashanth Radhakrishnan dan rekannya.

Google mengatakan masih ada lebih banyak pengujian dan pengembangan yang harus dilakukan sebelum DataGemma tersedia untuk publik di Gemma dan model sumber tertutup Google, Gemini.

Google mengklaim bahwa RIG dan RAG telah menghasilkan peningkatan kualitas output sehingga “pengguna akan mengalami lebih sedikit halusinasi saat menggunakan berbagai kasus penelitian, pengambilan keputusan, atau sekadar memuaskan rasa ingin tahu.”

Juga: Pertama Gemini, sekarang Gemma: Model AI baru dan terbuka Google menargetkan pengembang

DataGemma adalah contoh terkini tentang bagaimana Google dan perusahaan AI dominan lainnya membangun penawaran mereka dengan hal-hal yang melampaui LLM.

Minggu lalu OpenAI meluncurkan proyeknya yang diberi nama kode internal “Strawberry” sebagai dua model yang menggunakan teknik pembelajaran mesin yang disebut “rantai pemikiran,” di mana model AI diarahkan untuk menguraikan dalam pernyataan faktor-faktor yang masuk ke dalam prediksi tertentu yang dibuatnya.



Fuente