Para peneliti di Microsoft merilis makalah minggu ini tentang VASA-1, alat AI baru yang dapat menghasilkan video meyakinkan tentang seseorang yang sedang berbicara, hanya dengan menggunakan gambar diam. Microsoft tidak memiliki rencana segera untuk merilis alat baru ini ke publik, tapi ini cukup mengesankan. Nah, sungguh mengesankan jika Anda tidak melihat terlalu dekat pada giginya. Lihat saja chompers itu.

Model VASA-1 bekerja dengan mengambil foto wajah manusia—atau, dalam contoh diterbitkan oleh Microsoftwajah seseorang yang sebenarnya tidak ada yang dihasilkan oleh AI—dan setelah diberi file audio, dapat menghasilkan video tersinkronisasi yang mencakup nuansa wajah dan gerakan yang tampak alami.

Sekali lagi, semuanya cukup mengesankan, seperti yang Anda lihat di salah satu video yang disediakan Microsoft di bawah ini. Namun satu hal yang tampaknya menjadi tantangan bagi VASA-1 adalah pembuatan gigi. Jika Anda fokus pada gigi, mereka akan mendapatkan kualitas kartun, tampak sedikit animasi dengan cara yang tidak sesuai dengan kualitas hiper-realistis dari yang lainnya.

Video VASA-1 Dari Microsoft

Gigi aneh dalam video menjadi lebih jelas ketika Anda memperlambat semuanya, seperti yang dilakukan Gizmodo pada GIF di bawah. (Ini hampir membuat Anda merasa tidak enak memilah-milah penampilan seseorang sampai Anda mengingat orang di bawah ini benar-benar tidak ada.)

Contoh video lain yang disediakan oleh Microsoft, yang muncul di bawah, menunjukkan kualitas mirip kartun—walaupun fitur lainnya tampak sangat realistis, terutama jika Anda mengingat satu-satunya materi sumber adalah gambar statis dan file audio.

Apa pun alasannya, gigi dalam video yang memperlihatkan laki-laki sedikit kurang terlihat, mungkin karena model tersebut tidak menunjukkan laki-laki membuka mulut lebar-lebar saat berbicara. Tapi siapa pun yang melihat lebih dekat masih bisa merasakan ada sesuatu yang tidak beres di sini.

Demonstrasi VASA-1 (Pria)

Salah satu hal menarik yang dicatat oleh para peneliti adalah modelnya dapat menghasilkan video berkualitas tinggi dengan sangat cepat, sesuatu yang disukai oleh generator AI lainnya. Sora dari OpenAI dilaporkan telah berjuang dengan. Faktanya, makalah ini mencatat latensi hanya 0,17 detik pada PC desktop dengan satu NVIDIA GPU RTX4090.

Dan kecepatan tersebut adalah sesuatu yang dapat menghadirkan video instan untuk berbagai aplikasi, seperti layanan terjemahan waktu nyata.

“Metode kami tidak hanya memberikan kualitas video tinggi dengan dinamika wajah dan kepala yang realistis, tetapi juga mendukung pembuatan video online 512×512 hingga 40 FPS dengan latensi awal yang dapat diabaikan. Hal ini membuka jalan bagi interaksi real-time dengan avatar manusia hidup yang meniru perilaku percakapan manusia,” tulis makalah baru tersebut.

Video efisiensi VASA-1 secara real-time

Para peneliti jelas menyadari bahaya dari teknologi semacam ini, yang mungkin menjelaskan mengapa Microsoft belum mengumumkan rencana untuk meluncurkannya ke publik. Namun, para peneliti juga telah mengidentifikasi kasus penggunaan yang mereka yakini akan bermanfaat bagi umat manusia.

“Manfaatnya—seperti meningkatkan kesetaraan pendidikan, meningkatkan aksesibilitas bagi individu dengan tantangan komunikasi, menawarkan pendampingan atau dukungan terapeutik kepada mereka yang membutuhkan, dan banyak lagi lainnya—menggarisbawahi pentingnya penelitian kami dan eksplorasi terkait lainnya. Kami berdedikasi untuk mengembangkan AI secara bertanggung jawab, dengan tujuan memajukan kesejahteraan manusia,” tulis makalah tersebut.

“Mengingat konteks seperti itu, kami tidak berencana merilis demo online, API, produk, detail implementasi tambahan, atau penawaran terkait apa pun hingga kami yakin bahwa teknologi tersebut akan digunakan secara bertanggung jawab dan sesuai dengan peraturan yang tepat.”

Itu mungkin ide yang bagus, mengingat sejumlah penipuan yang mungkin dilakukan dengan teknologi semacam ini. Sebab, pemilihan presiden Amerika tahun 2024 tinggal tujuh bulan lagi. Dan itu ancaman fasisme secara global tidak akan hilang dalam waktu dekat. Saat ini, umat manusia benar-benar merasa tidak berdaya melawan pemalsuan yang dihasilkan oleh AI. Dan perusahaan besar seperti Microsoft mungkin harus melakukan segala daya mereka untuk membatasi potensi bahaya sebelum segala sesuatu di internet menjadi palsu.

Fuente