Home Teknologi Saya mencoba OpenAI o1-preview melalui 4 pengujian kode AI saya. Itu mengejutkan...

Teknologi

Saya mencoba OpenAI o1-preview melalui 4 pengujian kode AI saya. Itu mengejutkan saya (dengan cara yang baik)

September 16, 2024

Gambar: Sankai/Getty Images

Biasanya, ketika perusahaan perangkat lunak meluncurkan rilis baru yang besar pada bulan Mei, mereka tidak mencoba untuk melampauinya dengan rilis baru besar lainnya empat bulan kemudian. Namun, tidak ada yang biasa tentang laju inovasi dalam bisnis AI.

Juga: 6 cara untuk menulis prompt ChatGPT yang lebih baik – dan mendapatkan hasil yang Anda inginkan lebih cepat

Meskipun OpenAI merilis model GPT-4o yang sangat canggih pada pertengahan Mei, perusahaan tersebut tetap sibuk. Sejak November lalu, Reuters menerbitkan rumor bahwa OpenAI sedang mengerjakan model bahasa generasi berikutnya, yang kemudian dikenal sebagai Q*. Mereka menggandakan laporan tersebut pada bulan Meiyang menyatakan bahwa Q* sedang dikerjakan dengan nama kode Strawberry.

Strawberry, ternyata, sebenarnya adalah model yang disebut o1-preview, yang kini tersedia sebagai opsi bagi pelanggan ChatGPT Plus. Anda dapat memilih model dari menu tarik-turun pilihan:

menu — Tangkapan layar oleh David Gewirtz/ZDNET

Seperti yang Anda bayangkan, jika ada model ChatGPT baru yang tersedia, saya akan mengujinya. Dan itulah yang saya lakukan di sini.

Juga: Bagaimana ChatGPT memindai 170 ribu baris kode dalam hitungan detik dan menghemat waktu kerja saya berjam-jam

Model Strawberry yang baru berfokus pada penalaran, memecah perintah dan masalah menjadi beberapa langkah. OpenAI menampilkan pendekatan ini melalui ringkasan penalaran yang dapat ditampilkan sebelum setiap jawaban.

Saat o1-preview ditanyai sebuah pertanyaan, ia akan berpikir sejenak lalu menampilkan berapa lama waktu yang dibutuhkan untuk berpikir. Jika Anda mengaktifkan dropdown, Anda akan melihat beberapa alasan. Berikut ini contoh dari salah satu pengujian kode saya:

pemikiran — Tangkapan layar oleh David Gewirtz/ZDNET

Bagus juga kalau AI sudah cukup tahu untuk menambahkan penanganan kesalahan, tapi menurut saya menarik juga kalau o1-preview mengkategorikan langkah itu dalam “Kepatuhan terhadap regulasi”.

Saya juga menemukan model o1-preview menyediakan lebih banyak eksposisi setelah kode. Dalam pengujian pertama saya, yang membuat plugin WordPress, model tersebut menyediakan penjelasan tentang header, struktur kelas, menu admin, halaman admin, logika, langkah-langkah keamanan, kompatibilitas, petunjuk instalasi, petunjuk pengoperasian, dan bahkan data pengujian. Itu jauh lebih banyak informasi daripada yang disediakan oleh model sebelumnya.

Juga: AI terbaik untuk coding pada tahun 2024 (dan apa yang tidak boleh digunakan)

Namun, buktinya sudah ada di lapangan. Mari kita uji model baru ini melalui uji standar dan lihat seberapa baik kinerjanya.

1. Menulis plugin WordPress

Uji kode yang mudah ini memerlukan pengetahuan tentang bahasa pemrograman PHP dan kerangka kerja WordPress. Tantangan ini meminta AI untuk menulis kode antarmuka dan logika fungsional, dengan perubahannya adalah bahwa alih-alih menghapus entri duplikat, AI harus memisahkan entri duplikat tersebut, sehingga entri-entri tersebut tidak saling berdekatan.

Model o1-preview unggul. Model ini menampilkan UI terlebih dahulu hanya sebagai kolom entri:

bidang masuk — Tangkapan layar oleh David Gewirtz/ZDNET

Setelah data dimasukkan, dan Randomize Lines diklik, AI menghasilkan bidang keluaran dengan data keluaran yang diacak dengan benar. Anda dapat melihat bagaimana Abigail Williams diduplikasi, dan sesuai dengan petunjuk pengujian, kedua entri tidak dicantumkan berdampingan:

Dalam pengujian LLM lain, hanya empat dari 10 model yang lulus uji ini. Model o1-preview menyelesaikan pengujian ini dengan sempurna.

2. Menulis ulang fungsi string

Pengujian kedua kami memperbaiki ekspresi reguler string yang merupakan bug yang dilaporkan oleh pengguna. Kode asli dirancang untuk menguji apakah angka yang dimasukkan valid untuk dolar dan sen. Sayangnya, kode tersebut hanya mengizinkan bilangan bulat (jadi 5 diizinkan, tetapi tidak 5,25).

Juga: Bahasa pemrograman paling populer di tahun 2024

LLM o1-preview berhasil menulis ulang kode tersebut. Model tersebut bergabung dengan empat pengujian LLM saya sebelumnya dalam lingkaran pemenang.

3. Menemukan bug yang mengganggu

Tes ini dibuat berdasarkan bug di dunia nyata yang sulit saya atasi. Untuk mengidentifikasi akar permasalahannya, diperlukan pengetahuan tentang bahasa pemrograman (dalam hal ini PHP) dan nuansa API WordPress.

Pesan kesalahan yang diberikan tidak akurat secara teknis. Pesan kesalahan merujuk pada awal dan akhir rangkaian panggilan yang saya jalankan, tetapi bug tersebut terkait dengan bagian tengah kode.

Juga: 10 fitur yang dibutuhkan Apple Intelligence untuk benar-benar bersaing dengan OpenAI dan Google

Saya tidak sendirian dalam berjuang untuk memecahkan masalah tersebut. Tiga LLM lain yang saya uji tidak dapat mengidentifikasi akar penyebab masalah dan merekomendasikan solusi yang lebih jelas (tetapi salah) yaitu mengubah awal dan akhir urutan panggilan.

Model o1-preview memberikan solusi yang tepat. Dalam penjelasannya, model tersebut juga merujuk ke dokumentasi API WordPress untuk fungsi yang saya gunakan secara tidak benar, yang memberikan sumber daya tambahan untuk mempelajari alasan mengapa model tersebut memberikan rekomendasinya. Sangat membantu.

4. Menulis naskah

Tantangan ini mengharuskan AI untuk mengintegrasikan pengetahuan tentang tiga bidang pengkodean terpisah, bahasa AppleScript, Chrome DOM (bagaimana halaman web disusun secara internal), dan Keyboard Maestro (alat pemrograman khusus dari seorang programmer).

Menjawab pertanyaan ini memerlukan pemahaman tentang ketiga teknologi, serta bagaimana mereka harus bekerja bersama.

Sekali lagi, o1-preview berhasil, bergabung dengan hanya tiga dari 10 LLM lain yang telah memecahkan masalah ini.

Chatbot yang sangat cerewet

Pendekatan penalaran baru untuk o1-preview tentu saja tidak mengurangi kemampuan ChatGPT untuk menguasai pengujian pemrograman kami. Output dari pengujian plugin WordPress awal saya, khususnya, tampaknya berfungsi sebagai perangkat lunak yang lebih canggih daripada versi sebelumnya.

Juga: Saya telah menguji lusinan chatbot AI sejak ChatGPT pertama kali diluncurkan. Berikut pilihan utama saya

Hebat sekali bahwa ChatGPT menyediakan langkah-langkah penalaran di awal pekerjaannya dan beberapa data penjelasan di akhir. Namun, penjelasannya bisa jadi basa-basi. Saya meminta o1-preview untuk menulis “Hello world” dalam C#, baris pengujian kanonik dalam pemrograman. Beginilah tanggapan GPT-4o:

csharp-gpt4o — Tangkapan layar oleh David Gewirtz/ZDNET

Dan beginilah cara o1-preview menanggapi pengujian yang sama:

tajam — Tangkapan layar oleh David Gewirtz/ZDNET

Maksud saya, wow, benar? Itu banyak sekali obrolan dari ChatGPT. Anda juga dapat membalik menu tarik-turun penalaran dan mendapatkan informasi lebih banyak lagi:

csharp-berpikir — Tangkapan layar oleh David Gewirtz/ZDNET

Semua informasi ini bagus, tetapi terlalu banyak teks yang harus disaring. Saya lebih suka penjelasan yang ringkas, dengan opsi informasi tambahan dalam dropdown yang dihapus dari jawaban utama.

Namun, model pratinjau o1 ChatGPT bekerja dengan sangat baik. Saya menantikan seberapa baik kinerjanya saat diintegrasikan lebih lengkap dengan fitur-fitur GPT-4o, seperti analisis berkas dan akses web.

Sudahkah Anda mencoba coding dengan o1-preview? Apa pengalaman Anda? Beri tahu kami di kolom komentar di bawah ini.

Anda dapat mengikuti pembaruan proyek harian saya di media sosial. Pastikan untuk berlangganan buletin pembaruan mingguan sayadan ikuti saya di Twitter/X di @DavidGewirtzdi Facebook pada Facebook.com/DavidGewirtzdi Instagram pada Instagram.com/DavidGewirtzdan di YouTube di Sumber: YouTube.com/DavidGewirtzTV.

Fuente

Saya mencoba OpenAI o1-preview melalui 4 pengujian kode AI saya. Itu mengejutkan saya (dengan cara yang baik)

1. Menulis plugin WordPress

2. Menulis ulang fungsi string

3. Menemukan bug yang mengganggu

4. Menulis naskah

Chatbot yang sangat cerewet

Dokter Hewan Nirlaba Cassidy Dimon Akan Memimpin FWD-Doc: Pembuat Film Penyandang...

Peretas Iran mencuri informasi Trump dan mengirimkannya ke kampanye Biden

Manajer Umum Bruins dengan marah menyebut laporan kontrak Jeremy Swayman ‘tidak...

What's going to explode next? The fridge? My phone? The scenes...

Konsep Seni Alien: Romulus Mengungkapkan Tahapan Tak Terlihat dari Siklus Hidup...