Laboratorium kecerdasan buatan DeepMind Google sedang mengerjakan teknologi baru yang dapat menghasilkan soundtrack, bahkan dialog, untuk disertakan dengan video. Laboratorium punya berbagi kemajuannya pada proyek teknologi video-to-audio (V2A), yang dapat dipasangkan dengan Google Veo dan alat pembuatan video lainnya seperti Sora OpenAI. Dalam postingan blognya, tim DeepMind menjelaskan bahwa sistem dapat memahami piksel mentah dan menggabungkan informasi tersebut dengan perintah teks untuk menciptakan efek suara untuk apa yang terjadi di layar. Untuk diketahui, alat tersebut juga dapat digunakan untuk membuat soundtrack untuk cuplikan tradisional, seperti film bisu dan video lain tanpa suara.

Para peneliti DeepMind melatih teknologi tersebut pada video, audio, dan anotasi yang dihasilkan AI yang berisi deskripsi rinci tentang suara dan transkrip dialog. Mereka mengatakan bahwa dengan melakukan hal tersebut, teknologi belajar mengasosiasikan suara tertentu dengan pemandangan visual. Sebagai TechCrunch.dll Catatan, tim DeepMind bukanlah yang pertama merilis alat AI yang dapat menghasilkan efek suara — SebelasLabs juga merilis satu baru-baru ini — dan ini bukan yang terakhir. “Penelitian kami menonjol dibandingkan solusi video-ke-audio yang ada karena dapat memahami piksel mentah dan menambahkan perintah teks bersifat opsional,” tulis tim tersebut.

Meskipun perintah teks bersifat opsional, namun dapat digunakan untuk membentuk dan menyempurnakan produk akhir agar seakurat dan serealistis mungkin. Anda dapat memasukkan perintah positif untuk mengarahkan keluaran agar menghasilkan suara yang Anda inginkan, misalnya, atau perintah negatif untuk menjauhkannya dari suara yang tidak Anda inginkan. Pada contoh di bawah, tim menggunakan prompt: “Sinematik, thriller, film horor, musik, ketegangan, suasana, langkah kaki di atas beton.

Para peneliti mengakui bahwa mereka masih berusaha mengatasi keterbatasan yang ada pada teknologi V2A, seperti penurunan kualitas audio keluaran yang dapat terjadi jika ada distorsi pada video sumber. Mereka juga masih berupaya meningkatkan sinkronisasi bibir untuk menghasilkan dialog. Selain itu, mereka berjanji untuk menerapkan teknologi tersebut melalui “penilaian dan pengujian keamanan yang ketat” sebelum meluncurkannya ke dunia.

Artikel ini berisi link afiliasi; jika Anda mengeklik tautan tersebut dan melakukan pembelian, kami dapat memperoleh komisi.

Fuente