
ElevenLabs, sebuah startup kecerdasan buatan yang baru saja berhasil mengumpulkan dana mega sebesar $180 juta, lebih dikenal karena keahlian dalam pembuatan audio. Perusahaan ini melangkah ke arah teknologi lain dengan meluncurkan model penguasaan ucapan stand-alone pertamanya yang bernama Scribe.
Startup ini, yang memiliki nilai sebesar $3,3 miliar, telah membantu banyak perusahaan lain dalam menyediakan layanan penguasaan ucapan melalui perpustakaan suara yang luas. Namun, perusahaan ini kini berencana masuk ke bidang deteksi ucapan dan bersaing dengan Gladia, Speechmatics, AssemblyAI, Deepgram, dan model Whisper dari OpenAI.
Model Scribe dari ElevenLabs mendukung lebih dari 99 bahasa saat diluncurkan. Perusahaan mengkategorikan lebih dari 25 bahasa dalam kategori akurasi terbaik untuk model ini, di mana tingkat kesalahan kata kurang dari 5%. Daftar ini mencakup Bahasa Inggris (akurasi diklaim sebesar 97%), Prancis, Jerman, Hindi, Indonesia, Jepang, Kannada, Malayalam, Polandia, Portugis, Spanyol, dan Vietnam. Bahasa lain dikelompokkan dalam kategori yang berbeda dengan tingkat kesalahan kata tinggi (5% hingga 10%), baik (10% hingga 20%), dan sedang (25% hingga 50%).
Perusahaan mengatakan bahwa model ini melebihi Google Gemini 2.0 Flash dan Whisper Large V3 dalam tes benchmark FLEURS & Common Voice di beberapa bahasa.

ElevenLabs telah mengembangkan komponen penguasaan ucapan untuk platform agen percakapan kecerdasan buatan mereka, yang dirilis tahun lalu. Namun, ini adalah pertama kalinya perusahaan ini merilis model deteksi ucapan yang berdiri sendiri. Dalam percakapan dengan TechCrunch bulan lalu, CEO Mati Staniszewski berbicara tentang meningkatkan model deteksi ucapan.
'Kami ingin memahami dengan lebih baik apa yang Anda katakan dalam percakapan. Kami sedang bekerja untuk berpindah dari hanya menghasilkan konten dan memahami serta mentranskripsi ucapan,' kata Staniszewski saat itu. 'Banyak orang mengatakan bahwa penguasaan ucapan telah menjadi masalah yang terpecahkan. Namun, untuk banyak bahasa, penguasaan ucapan masih cukup buruk. Kami percaya kami dapat membangun model deteksi ucapan yang lebih baik karena kami memiliki tim internal untuk memberi kami umpan balik yang cepat.'
Model ini juga memiliki diarization pembicara pintar untuk memberitahu siapa yang sedang berbicara, penanda waktu pada tingkat kata untuk teks terjemahan yang akurat, dan penanda otomatis untuk peristiwa suara seperti tawa penonton. Startup ini menyediakan cara bagi pelanggan untuk langsung mentranskripsi konten video untuk menambahkan teks terjemahan atau keterangan di studio mereka.
Saat ini, Scribe hanya bekerja dengan format audio yang direkam sebelumnya. Perusahaan mengatakan akan segera merilis versi model real-time berlatensi rendah. Ini berarti belum efektif untuk transkripsi rapat atau pencatatan catatan suara.
ElevenLabs membanderol Scribe seharga $0,40 untuk satu jam audio yang ditranskripsikan. Meskipun tarifnya bersaing, beberapa pesaingnya menawarkan harga yang lebih rendah untuk transkripsi audio saat ini dengan beberapa diferensiasi fitur.