Gemini Live bisa menggunakan beberapa latihan lebih

Apa gunanya mengobrol dengan bot yang mirip manusia jika dia merupakan narator yang tidak dapat diandalkan dan memiliki kepribadian yang datar?

Itulah pertanyaan yang selalu ada dalam pikiran saya sejak saya mulai menguji Gemini Live, versi Google dari mode Suara Lanjutan OpenAI, pekan lalu. Gemini Live adalah upaya untuk menyajikan pengalaman obrolan yang lebih menarik - dengan suara realistis dan kebebasan untuk mengganggu bot kapan saja.

Gemini Live 'diatur kustom untuk menjadi intuitif dan memiliki percakapan yang nyata,' kata Sissie Hsiao, GM untuk pengalaman Gemini di Google, kepada TechCrunch pada bulan Mei. '[Ini] dapat memberikan informasi secara lebih padat dan menjawab secara lebih conversational daripada, misalnya, jika Anda berinteraksi hanya dengan teks. Kami pikir asisten AI harus dapat memecahkan masalah yang kompleks ... dan juga terasa sangat alami dan lancar ketika Anda berinteraksi dengannya."

Setelah menghabiskan waktu yang cukup lama dengan Gemini Live, saya bisa mengkonfirmasi bahwa ini lebih lancar dan terasa lebih alami daripada upaya Google sebelumnya dalam interaksi suara yang didukung AI (lihat: Google Assistant). Namun, ini tidak menyelesaikan masalah-masalah dari teknologi yang ada, seperti halusinasi dan inkonsistensi - dan menghadirkan beberapa masalah baru.

Guangan tak berbunyi

Gemini Live pada dasarnya adalah mesin teks ke suara yang mewah yang dipasang di atas model AI generatif terbaru Google, Gemini 1.5 Pro dan 1.5 Flash. Model-model ini menghasilkan teks yang diucapkan oleh mesin; transkrip yang berjalan dari percakapan tersedia dalam Gemini app di Android (dan segera dalam aplikasi Google di iOS).

Untuk suara Gemini Live di Pixel 8a saya, saya memilih Ursa, yang Google gambarkan sebagai 'range menengah' dan 'terlibat.' (Suaranya terdengar seperti wanita muda bagi saya.) Perusahaan ini mengatakan bahwa mereka bekerja dengan aktor profesional untuk merancang sepuluh suara Gemini Live - dan terlihat. Ursa memang langkah lebih maju dalam hal ekspresinya dari banyak suara sintetis Google yang lebih tua, terutama suara asisten Google default.

Tetapi Ursa dan suara-suara Gemini Live lainnya juga menjaga nada yang tidak beremosi yang jauh dari wilayah lembah ketakutan. Saya tidak yakin apakah itu disengaja; pengguna juga tidak bisa menyesuaikan nada, timbre, atau tenor dari salah satu suaranya, atau bahkan kecepatan suara berbicara, sehingga membuatnya dalam posisi yang sangat merugikan dibandingkan dengan Mode Suara Lanjutan.