Home Teknologi Apple membangun model AI yang lebih ramping menggunakan inovasi Stanford dan Google

Teknologi

Apple membangun model AI yang lebih ramping menggunakan inovasi Stanford dan Google

April 29, 2024

Jeenah Moon/Bloomberg melalui Getty Images

Dunia sedang menyaksikan apa yang akan dilakukan Apple untuk melawan dominasi Microsoft dan Google dalam AI generatif. Sebagian besar berasumsi bahwa inovasi raksasa teknologi itu akan berupa jaringan saraf pada iPhone dan perangkat iOS lainnya. Petunjuk kecil bermunculan di sana-sini.

Juga: Bagaimana kemajuan AI Apple dapat membuat atau menghancurkan iPhone 16

Apple baru saja memperkenalkan model bahasa besar (LLM) “tertanam” miliknya sendiri untuk dijalankan pada perangkat seluler, OpenELM, yang pada dasarnya menggabungkan terobosan dari beberapa lembaga penelitian, termasuk pakar pembelajaran mendalam Google dan akademisi di Stanford dan di tempat lain.

Semua kode untuk program OpenELM diposting di GitHubbeserta berbagai dokumentasi untuk pendekatan pelatihan.

Pekerjaan Apple, dirinci dalam makalah oleh Sachin Mehta dan tim, “OpenELM: Keluarga Model Bahasa yang Efisien dengan Pelatihan Sumber Terbuka dan Kerangka Inferensi”, diposting di server pra-cetak arXivdifokuskan pada perangkat seluler karena ukuran jaringan saraf yang mereka gunakan hanya memiliki 1,3 miliar bobot saraf, atau, parameter.

Angka tersebut jauh di bawah ratusan miliar parameter yang digunakan oleh model seperti GPT-4 OpenAI atau Gemini Google. Lebih banyak parameter secara langsung meningkatkan kebutuhan memori komputer, sehingga jaringan saraf yang lebih kecil kemungkinan besar dapat dimasukkan ke dalam perangkat seluler dengan lebih mudah.

Perpaduan Mehta dan tim akan menjadi biasa-biasa saja tanpa kontribusi utama: efisiensi. Para peneliti menyesuaikan lapisan jaringan saraf dalam sehingga model AI lebih efisien dibandingkan model sebelumnya dalam hal jumlah data yang perlu dihitung saat melatih jaringan saraf.

Juga: Tahun 2024 mungkin merupakan tahun dimana AI belajar dalam genggaman Anda

Secara khusus, mereka dapat memenuhi atau mengalahkan hasil dari serangkaian jaringan saraf untuk komputasi seluler “sementara membutuhkan token pra-pelatihan 2× lebih sedikit”, dengan token adalah karakter, kata, atau fragmen kalimat individual dalam data pelatihan.

Apple memulai dari pendekatan yang sama seperti kebanyakan LLM: transformator. Transformator adalah jaringan saraf khas dalam pemahaman bahasa, yang diperkenalkan oleh ilmuwan Google pada tahun 2017. Sejak itu, setiap model bahasa utama, termasuk model BERT Google dan rangkaian model GPT OpenAI, telah mengadopsi transformator.

Apple mencapai efisiensi tinggi dengan menggabungkan transformator dengan teknik yang diperkenalkan pada tahun 2021 oleh para peneliti di Universitas Washington, Facebook AI Research, dan Allen Institute for AI, yang disebut Sukacita. Pekerjaan tersebut memisahkan diri dari pendekatan konvensional di mana semua bobot saraf adalah sama untuk setiap “lapisan” jaringan, perhitungan matematis berturut-turut yang dilalui data.

Sebaliknya, para peneliti secara selektif menyesuaikan setiap lapisan agar memiliki jumlah parameter yang berbeda. Karena beberapa lapisan memiliki parameter yang relatif sedikit, mereka menyebut pendekatannya sebagai “transformator yang dalam dan ringan”, oleh karena itu dinamakan DeLighT.

Juga: Snowflake mengatakan LLM barunya mengungguli Llama 3 Meta dalam separuh pelatihan

Para peneliti mengatakan bahwa: “DeLighT menyamai atau meningkatkan kinerja Transformer dasar dengan rata-rata parameter 2 hingga 3 kali lebih sedikit.”

Apple, menggunakan DeLighT, membuat OpenELM, di mana setiap lapisan jaringan saraf memiliki jumlah parameter saraf yang berbeda, pendekatan parameter yang tidak seragam.

“LLM yang ada menggunakan konfigurasi yang sama untuk setiap lapisan transformator dalam model, sehingga menghasilkan alokasi parameter yang seragam di seluruh lapisan,” tulis Mehta dan tim. “Tidak seperti model-model ini, setiap lapisan transformator di OpenELM memiliki konfigurasi yang berbeda (misalnya, jumlah head dan dimensi jaringan umpan maju), sehingga menghasilkan jumlah parameter yang bervariasi di setiap lapisan model.”

Pendekatan yang tidak seragam, tulis mereka, “memungkinkan OpenELM memanfaatkan anggaran parameter yang tersedia dengan lebih baik untuk mencapai akurasi yang lebih tinggi.”

Juga: Astaga! Microsoft Copilot gagal dalam semua tes pengkodean saya

Persaingan yang dihadapi Apple menggunakan jaringan saraf kecil yang serupa. Pesaing ini termasuk MobiLlama dari Mohamed bin Zayed University of AI dan lembaga-lembaga yang berkolaborasi, serta OLMo, yang diperkenalkan tahun ini oleh para peneliti di Allen Institute for Artificial Intelligence dan para sarjana dari University of Washington, Yale University, New York University, dan Carnegie Mellon University.

Eksperimen yang dilakukan Apple tidak dilakukan pada perangkat seluler. Sebagai gantinya, perusahaan menggunakan workstation berbasis Intel dengan satu GPU Nvidia dan Ubuntu Linux.

Pada berbagai tes benchmark, program OpenELM mencapai skor yang lebih baik, meskipun lebih kecil dan/atau menggunakan lebih sedikit token. Misalnya, pada enam dari tujuh pengujian, OpenELM mengalahkan OLMo meskipun memiliki parameter yang lebih sedikit — 1,08 miliar berbanding 1,18 miliar — dan hanya 1,5 triliun token pelatihan dibandingkan 3 triliun untuk OLMo.

Juga: Bagaimana menghindari sakit kepala dalam pengembangan keterampilan AI

Meskipun OpenELM bisa lebih akurat dibandingkan model-model tersebut dan lebih efisien, penulis mencatat area penelitian lebih lanjut di mana OpenELM lebih lambat dalam beberapa kasus dalam menghasilkan prediksinya.

Pertanyaan terbuka mengenai pekerjaan AI iOS Apple adalah apakah raksasa teknologi itu akan melisensikan teknologi dari Google atau pihak lain yang memimpin pengembangan AI. Investasi Apple pada perangkat lunak sumber terbuka memberikan kemungkinan menarik bahwa Apple mungkin mencoba memperkuat ekosistem terbuka yang dapat dimanfaatkan oleh perangkatnya sendiri.

Fuente

Apple membangun model AI yang lebih ramping menggunakan inovasi Stanford dan Google

Respons Bobby Nasution soal Pamannya Ambil Formulir Bakal Calon Wali Kota...

Selfie Baru Missy Elliott Membuat Penggemar Mengatakan Dia ‘Penuaan Terbelakang’

Apakah semua kernel vendor Linux tidak aman? Sebuah studi baru...

Thread Meta mendapatkan tiruan Tweetdeck-nya sendiri

Inilah Sosok Obi-Wan Kenobi Paling Keren dan Unik Yang Pernah Ada