CEO DeepMind Demis Hassabis Mengatakan Google Akhirnya Akan Menggabungkan Model AI Gemini dan Veo-nya

Dalam penampilan terbaru di Possible, sebuah podcast yang dibawakan bersama oleh LinkedIn co-founder Reid Hoffman, CEO Google DeepMind Demis Hassabis mengatakan raksasa pencarian itu berencana untuk akhirnya menggabungkan model AI Gemini dengan model pembuat video Veo-nya untuk meningkatkan pemahaman terhadap dunia fisik.

“Kami selalu membangun Gemini, model dasar kami, untuk menjadi multimodal dari awal,” kata Hassabis, “Dan alasan kami melakukannya [adalah karena] kami memiliki visi untuk ide asisten digital universal ini, asisten yang sebenarnya membantu Anda dalam dunia nyata.”

Industri AI sedang beralih secara bertahap menuju model "omni," jika boleh saya katakan - model-model yang dapat memahami dan mensintesis banyak bentuk media. Model Gemini terbaru dari Google dapat menghasilkan audio serta gambar dan teks, sementara model default OpenAI dalam ChatGPT sekarang dapat menciptakan gambar - termasuk seni gaya Studio Ghibli. Amazon juga telah mengumumkan rencana untuk meluncurkan model "semua ke semua" lebih awal tahun ini.

Model omni ini membutuhkan banyak data latihan - gambar, video, audio, teks, dan sebagainya. Hassabis menyiratkan bahwa data video untuk Veo sebagian besar berasal dari YouTube, sebuah platform yang dimiliki Google.

“Pada dasarnya, dengan menonton video YouTube - banyak video YouTube - [Veo 2] bisa menemukan, Anda tahu, fisika dunia,” kata Hassabis.

Google sebelumnya telah memberi tahu TechCrunch bahwa modelnya “mungkin” dilatih pada “beberapa” konten YouTube sesuai dengan perjanjian dengan para pengguna kreator YouTube. Kabarnya, perusahaan memperluas syarat layanannya tahun lalu dalam upaya untuk memanfaatkan lebih banyak data untuk melatih model AI-nya.