Cloudflare telah merilis alat gratis baru yang mencegah bot perusahaan AI mengambil konten dari situs web kliennya untuk melatih model bahasa yang besar. Penyedia layanan cloud tersebut menyediakan alat ini untuk seluruh basis pelanggannya, termasuk mereka yang menggunakan paket gratis. “Fitur ini akan diperbarui secara otomatis dari waktu ke waktu saat kami melihat jejak baru bot yang melanggar yang kami identifikasi sebagai bot yang banyak mengambil konten dari web untuk pelatihan model,” kata perusahaan tersebut.

Di dalam Saat mengumumkan pembaruan ini, tim Cloudflare juga membagikan beberapa data tentang bagaimana kliennya menanggapi maraknya bot yang mengambil konten untuk melatih model AI generatif. Menurut data internal perusahaan, 85,2 persen pelanggan telah memilih untuk memblokir bahkan bot AI yang mengidentifikasi diri mereka dengan benar agar tidak mengakses situs mereka.

Cloudflare juga mengidentifikasi bot yang paling aktif dari tahun lalu. Bot Bytespider milik Bytedance berupaya mengakses 40 persen situs web di bawah pengawasan Cloudflare, dan mencoba 35 persen. Mereka adalah setengah dari empat perayap bot AI teratas berdasarkan jumlah permintaan di jaringan Cloudflare, bersama dengan Amazonbot dan ClaudeBot.

Terbukti sangat sulit untuk memblokir bot AI secara penuh dan konsisten agar tidak mengakses konten. Perlombaan untuk membangun model lebih cepat telah menyebabkan banyak perusahaan menghindari atau langsung melanggar aturan yang ada seputar pemblokiran scraper, pengikisan situs web tanpa izin yang diperlukan. Namun, memiliki perusahaan backend berskala Cloudflare yang serius dalam mencoba menghentikan perilaku ini dapat menghasilkan beberapa hasil.

“Kami khawatir beberapa perusahaan AI yang bermaksud menghindari aturan untuk mengakses konten akan terus beradaptasi untuk menghindari deteksi bot,” kata perusahaan tersebut. “Kami akan terus mengawasi dan menambahkan lebih banyak blok bot ke aturan Scraper dan Crawler AI kami dan mengembangkan model pembelajaran mesin kami untuk membantu menjaga Internet sebagai tempat bagi kreator konten untuk berkembang dan memegang kendali penuh atas model mana yang digunakan untuk melatih atau menjalankan inferensi konten mereka.”

Fuente