Saya sudah cukup lama berkecimpung di dunia teknologi sehingga sangat sedikit hal yang membuat saya bersemangat, dan bahkan lebih sedikit lagi yang mengejutkan saya. Namun, tak lama setelah ChatGPT milik Open AI dirilis, saya meminta Open AI untuk menulis plugin WordPress untuk situs e-commerce istri saya. Ketika plugin tersebut berhasil, dan berfungsi, saya benar-benar terkejut.

Itulah awal eksplorasi mendalam saya terhadap chatbot dan pemrograman yang dibantu AI. Sejak saat itu, saya telah melakukan empat pengujian dunia nyata terhadap 10 model mesin besar (LLM).

Cara menggunakan ChatGPT untuk menulis: Resume | Rumus Excel | Esai | Surat lamaran

Sayangnya, tidak semua chatbot dapat membuat kode dengan cara yang sama. Sudah 18 bulan sejak pengujian pertama itu, dan bahkan sekarang, lima dari 10 LLM yang saya uji tidak dapat membuat plugin yang berfungsi. Jika saya memilih salah satunya alih-alih ChatGPT, saya mungkin berasumsi bahwa AI tidak dapat membuat kode dan mungkin kehilangan minat pada pembantu pemrograman yang mendukung AI.

Dalam artikel ini, saya akan menunjukkan kepada Anda bagaimana kinerja masing-masing LLM berdasarkan pengujian saya. Ada dua chatbot yang saya rekomendasikan untuk Anda gunakan, tetapi biayanya $20/bulan. Versi gratis dari chatbot yang sama cukup baik sehingga Anda mungkin bisa bertahan tanpa membayar. Namun, versi lainnya, baik gratis maupun berbayar, tidak begitu bagus. Saya tidak akan mempertaruhkan proyek pemrograman saya dengan chatbot tersebut atau menyarankan Anda untuk melakukannya hingga kinerjanya membaik.

Juga: Bagaimana saya menguji kemampuan pengkodean chatbot AI – dan Anda juga bisa melakukannya

Saya telah banyak menulis tentang penggunaan AI untuk membantu pemrograman. Kecuali jika itu adalah proyek kecil dan sederhana, seperti plugin milik istri saya, AI tidak dapat menulis aplikasi atau program secara keseluruhan. Namun, AI unggul dalam menulis beberapa baris kode dan tidak buruk dalam memperbaiki kode.

Daripada mengulang semua yang telah saya tulis, lanjutkan saja dan baca artikel ini: Cara menggunakan ChatGPT untuk menulis kode: Apa yang dapat dan tidak dapat dilakukan untuk Anda.

Jika Anda ingin memahami pengujian pengkodean saya, mengapa saya memilihnya, dan mengapa pengujian tersebut relevan dengan tinjauan 10 LLM ini, baca artikel ini: Bagaimana saya menguji kemampuan pengkodean chatbot AI – dan Anda juga bisa melakukannya.

Setelah Anda membaca kedua artikel tersebut dan memahaminya sepenuhnya, kita dapat menyelami AI itu sendiri. Mari kita mulai dengan melihat perbandingan kinerja chatbot:

David Gewirtz/ZDNET

Selanjutnya, mari kita bahas masing-masing chatbot secara terpisah. Saya akan membahas sembilan chatbot, meskipun diagram di atas menunjukkan 10 LLM. Hasil untuk GPT-4 dan GPT-4o disertakan dalam ChatGPT Plus. Siap? Ayo.

Kelebihan

  • Lulus semua tes
  • Hasil pengkodean yang solid
  • Aplikasi Mac
Kontra

  • Halusinasi
  • Belum ada aplikasi Windows
  • Terkadang tidak kooperatif
  • Harga: $20/bln
  • LLM: GPT-4o, GPT-4, GPT-3.5
  • Antarmuka browser desktop: Ya
  • Aplikasi khusus Mac: Ya
  • Aplikasi Windows khusus: Tidak
  • Otentikasi multifaktor: Ya
  • Tes yang lulus: 4 dari 4

ChatGPT Plus dengan GPT-4 dan GPT-4o lulus semua pengujian saya. Salah satu fitur favorit saya adalah tersedianya aplikasi khusus. Saat menguji pemrograman web, saya menyetel peramban pada satu hal, membuka IDE, dan menjalankan aplikasi ChatGPT Mac pada layar terpisah.

Juga: Saya memasukkan GPT-4o ke dalam pengujian kode saya dan hasilnya sangat baik – kecuali untuk satu hasil yang aneh

Selain itu, Prompt Builder milik Logitech, yang muncul menggunakan tombol mouse, dapat diatur untuk menggunakan GPT-4o yang telah ditingkatkan dan terhubung ke akun OpenAI Anda, sehingga cukup dengan mengetukkan ibu jari untuk menjalankan prompt, yang sangat praktis.

Satu-satunya hal yang tidak saya sukai adalah salah satu pengujian GPT-4o saya menghasilkan jawaban pilihan ganda, dan salah satu jawaban tersebut salah. Saya lebih suka jika pengujian tersebut hanya memberikan jawaban yang benar. Meski begitu, pengujian cepat mengonfirmasi jawaban mana yang akan berhasil. Namun, itu agak mengganggu. Saya tidak mengalami masalah itu di GPT-4, jadi untuk saat ini, itulah pengaturan LLM yang saya gunakan dengan ChatGPT saat membuat kode.

Kelebihan

  • Beberapa LLM
  • Kriteria pencarian ditampilkan
  • Sumber yang bagus
Kontra

  • Login hanya melalui email
  • Tidak ada aplikasi desktop
  • Harga: $20/bln
  • LLM: GPT-4o, Claude 3.5 Soneta, Sonar Besar, Claude 3 Opus, Llama 3.1 405B
  • Antarmuka browser desktop: Ya
  • Aplikasi Mac khusus: Tidak
  • Aplikasi Windows khusus: Tidak
  • Otentikasi multifaktor: Tidak
  • Tes yang lulus: 4 dari 4

Saya benar-benar mempertimbangkan untuk mencantumkan Perplexity Pro sebagai chatbot AI terbaik secara keseluruhan untuk pengodean, tetapi satu kekurangan membuatnya tidak masuk dalam daftar teratas: cara Anda masuk. Perplexity tidak menggunakan nama pengguna/kata sandi atau kunci sandi, dan tidak memiliki autentikasi multifaktor. Yang dilakukannya hanyalah mengirimi Anda PIN masuk melalui email. AI tersebut juga tidak memiliki aplikasi desktop terpisah, seperti yang dimiliki ChatGPT untuk Mac.

Yang membedakan Perplexity dari alat lain adalah kemampuannya menjalankan beberapa LLM. Meskipun Anda tidak dapat mengatur LLM untuk sesi tertentu, Anda dapat dengan mudah masuk ke pengaturan dan memilih model yang aktif.

Juga: Bisakah Perplexity Pro membantu Anda membuat kode? Ia berhasil dalam pengujian pemrograman saya – terima kasih kepada GPT-4

Untuk pemrograman, Anda mungkin ingin tetap menggunakan GPT-4o, karena GPT-4o unggul dalam semua pengujian kami. Namun, mungkin menarik untuk memeriksa kode lintas LLM yang berbeda. Misalnya, jika Anda meminta GPT-4o menulis beberapa kode ekspresi reguler, Anda dapat mempertimbangkan untuk beralih ke LLM lain untuk melihat apa yang dipikirkan LLM tersebut tentang kode yang dihasilkan.

Seperti yang akan kita lihat di bawah, sebagian besar LLM tidak dapat diandalkan, jadi jangan menganggap hasil tersebut sebagai kebenaran mutlak. Namun, Anda dapat menggunakan hasil tersebut untuk memberikan lebih banyak hal untuk memeriksa kode asli Anda. Ini seperti peninjauan kode yang digerakkan oleh AI.

Jangan lupa untuk beralih kembali ke GPT-4o.

Kontra

  • Pembatasan segera
  • Bisa memotong Anda di tengah-tengah apa pun yang sedang Anda kerjakan
  • Harga: Gratis
  • LLM: GPT-4o, GPT-3.5
  • Antarmuka browser desktop: Ya
  • Aplikasi khusus Mac: Ya
  • Aplikasi Windows khusus: Tidak
  • Otentikasi multifaktor: Ya
  • Tes yang lulus: 3 dari 4 dalam mode GPT-3.5

ChatGPT tersedia gratis untuk siapa saja. Meskipun versi Plus dan gratis mendukung GPT-4o, yang lulus semua uji pemrograman saya, ada batasan saat menggunakan aplikasi gratis.

OpenAI memperlakukan pengguna ChatGPT gratis seolah-olah mereka berada di tempat yang murah. Jika lalu lintas tinggi atau server sedang sibuk, ChatGPT gratis hanya akan menyediakan GPT-3.5 untuk pengguna gratis. Alat ini hanya akan mengizinkan Anda melakukan sejumlah kueri sebelum menurunkan versi atau mematikannya.

Juga: Cara menggunakan ChatGPT: Apa yang perlu Anda ketahui sekarang

Saya beberapa kali mengalami saat versi gratis ChatGPT memberi tahu saya bahwa saya mengajukan terlalu banyak pertanyaan.

ChatGPT adalah alat yang hebat, asalkan Anda tidak keberatan jika sewaktu-waktu dimatikan. Bahkan GPT-3.5 berhasil lebih baik dalam pengujian dibandingkan semua chatbot lainnya, dan pengujian yang gagal dilakukan adalah untuk alat pemrograman yang cukup tidak dikenal yang diproduksi oleh seorang programmer tunggal di Australia.

Jadi, jika anggaran penting bagi Anda dan Anda dapat menunggu saat anggaran habis, gunakan ChatGPT gratis.

Kelebihan

  • Bebas
  • Lulus sebagian besar tes
  • Berbagai alat penelitian
Kontra

  • Terbatas pada GPT-3.5
  • Throttle mendorong hasil
  • Harga: Gratis
  • LLM: GPT-3.5
  • Antarmuka browser desktop: Ya
  • Aplikasi Mac khusus: Tidak
  • Aplikasi Windows khusus: Tidak
  • Otentikasi multifaktor: Tidak
  • Tes yang lulus: 3 dari 4

Saya memasukkan benang ke dalam jarum yang cukup halus di sini, tetapi karena Kebingungan AI’Versi gratisnya didasarkan pada GPT-3.5, hasil pengujiannya terukur lebih baik daripada chatbot AI lainnya.

Juga: 5 alasan mengapa saya lebih memilih Perplexity daripada chatbot AI lainnya

Dari sudut pandang pemrograman, itulah inti ceritanya. Namun dari sudut pandang penelitian dan organisasi, kolega saya di ZDNET Steven Vaughan-Nichols lebih menyukai Perplexity daripada AI lainnya.

Dia menyukai bagaimana Perplexity menyediakan sumber yang lebih lengkap untuk pertanyaan penelitian, bagaimana ia mengutip sumbernya, bagaimana ia mengatur balasannya, dan bagaimana ia menyediakan pertanyaan untuk pencarian lebih lanjut.

Jadi jika Anda seorang programmer, tetapi juga melakukan penelitian lainnya, pertimbangkan versi gratis Perplexity.

Chatbot yang harus dihindari untuk bantuan pemrograman

Saya menguji sembilan chatbot, dan empat di antaranya lulus sebagian besar pengujian saya. Chatbot lainnya, termasuk beberapa yang disebut-sebut hebat dalam pemrograman, masing-masing hanya lulus satu pengujian saya — dan Copilot Microsoft tidak lulus satu pun.

Saya menyebutkannya di sini karena orang-orang akan bertanya, dan saya telah mengujinya secara menyeluruh. Beberapa di antaranya berfungsi dengan baik untuk pekerjaan lain, jadi saya akan mengarahkan Anda ke ulasan yang lebih umum jika Anda hanya ingin tahu tentang cara kerjanya.

Meta AI

perbandingan-ai-006

David Gewirtz/ZDNET

Meta AI adalah AI serbaguna milik Facebook. Seperti yang Anda lihat di atas, AI ini gagal dalam tiga dari empat pengujian kami.

Juga: Cara memulai Meta AI di Facebook, Instagram, dan lainnya

AI memang menghasilkan antarmuka pengguna yang bagus tetapi tanpa fungsionalitas apa pun. Dan ia menemukan bug yang mengganggu, yang merupakan tantangan yang cukup serius. Mengingat pengetahuan khusus yang dibutuhkan untuk menemukan bug, saya terkejut ia tersendat pada tantangan ekspresi reguler yang sederhana. Namun, ia berhasil.

Panggilan Kode Meta

perbandingan-ai-007

David Gewirtz/ZDNET

Meta Code Llama adalah AI Facebook yang dirancang khusus untuk membantu dalam pengodean. Anda dapat mengunduh dan memasangnya di server Anda. Saya mengujinya dengan menjalankan instance AI Hugging Face.

Juga: Bisakah Meta AI membuat kode? Saya mengujinya terhadap Llama, Gemini, dan ChatGPT – hasilnya bahkan tidak mendekati

Anehnya, meskipun Meta AI dan Meta Code Llama gagal dalam tiga dari empat pengujian saya, keduanya gagal pada masalah yang berbeda. AI tidak dapat diandalkan untuk memberikan jawaban yang sama dua kali, tetapi hasil ini mengejutkan. Kita lihat saja apakah hasilnya akan berubah seiring waktu.

Claude 3.5 Soneta

perbandingan-ai-008

David Gewirtz/ZDNET

Anthropic mengklaim versi 3.5 Sonnet dari chatbot AI Claude-nya ideal untuk pemrograman. Setelah gagal dalam semua kecuali satu pengujian, saya tidak begitu yakin.

Jika Anda tidak menggunakannya untuk pemrograman, Claude mungkin merupakan pilihan yang lebih baik daripada versi gratis ChatGPT.

Juga: 4 hal yang dapat dilakukan Claude AI yang tidak dapat dilakukan ChatGPT

Rekan saya di ZDNET, Maria Diaz, melaporkan bahwa Claude dapat menangani berkas yang diunggah, memproses lebih banyak kata daripada versi gratis ChatGPT, menyediakan informasi yang kira-kira satu tahun lebih terkini daripada GPT-3.5, dan mengakses situs web.

Gemini Lanjutan

perbandingan-ai-009

David Gewirtz/ZDNET

Gemini Advanced adalah versi pro seharga $20 dari chatbot Gemini (sebelumnya Bard) milik Google. Saya berharap alat ini akan bekerja lebih baik dari satu dari empat. Menariknya, alat ini lulus satu tes yang tidak berhasil dilakukan oleh AI lain selain GPT-4/4o — pengetahuan tentang bahasa pemrograman yang cukup tidak dikenal yang diproduksi oleh seorang programmer di Australia.

Juga: 3 cara Gemini Advanced mengalahkan asisten AI lainnya, menurut Google

Jadi, jika ia menguasai bahasa tersebut, mengapa ia tidak dapat menangani ekspresi reguler dasar atau permasalahan lain yang dihadapi mahasiswa pemrograman tahun pertama?

Kopilot Microsoft

perbandingan-ai-010

David Gewirtz/ZDNET

Anda mungkin berpikir perusahaan dengan mantra “Pengembang! Pengembang! Pengembang!” dalam DNA-nya akan memiliki AI yang lebih baik dalam pengujian pemrograman. Microsoft menghasilkan beberapa alat pengkodean terbaik di dunia. Namun, Copilot tidak berhasil.

Juga: Apa saja Copilot Microsoft yang berbeda? Berikut perbedaannya dan cara menggunakannya

Satu hal positifnya adalah Microsoft selalu belajar dari kesalahannya. Jadi, saya akan memeriksa lagi nanti dan melihat apakah hasilnya membaik.

Ini hanya masalah waktu

Hasil pengujian saya cukup mengejutkan, terutama mengingat investasi besar Microsoft dan Google. Namun, bidang inovasi ini berkembang dengan sangat cepat, jadi kami akan kembali dengan pengujian dan hasil terbaru dari waktu ke waktu. Nantikan terus.

Pernahkah Anda menggunakan chatbot AI ini untuk pemrograman? Bagaimana pengalaman Anda? Beri tahu kami di kolom komentar di bawah ini.


Anda dapat mengikuti pembaruan proyek harian saya di media sosial. Pastikan untuk berlangganan buletin pembaruan mingguan sayadan ikuti saya di Twitter/X di @DavidGewirtzdi Facebook pada Facebook.com/DavidGewirtzdi Instagram pada Instagram.com/DavidGewirtzdan di YouTube di Sumber: YouTube.com/DavidGewirtzTV.



Fuente