
Pada hari Selasa, Google mengungkap Gemini 2.5, sebuah keluarga model AI penalaran baru yang berhenti untuk 'memikirkan' sebelum menjawab pertanyaan.
Untuk memulai keluarga model baru ini, Google meluncurkan Gemini 2.5 Pro Experimental, sebuah model AI penalaran multimodal yang menurut perusahaan adalah model tercerdas mereka hingga saat ini. Model ini akan tersedia pada hari Selasa di platform pengembang perusahaan, Google AI Studio, serta dalam aplikasi Gemini untuk pelanggan langganan paket AI perusahaan seharga $20 per bulan, Gemini Advanced.
Maju ke depan, Google mengatakan semua model AI baru mereka akan memiliki kemampuan penalaran terpadu.
Sejak OpenAI meluncurkan model AI penalaran pertama pada September 2024, o1, industri teknologi telah berlomba-lomba untuk menyamai atau melampaui kemampuan model tersebut dengan model mereka sendiri. Hari ini, Anthropic, DeepSeek, Google, dan xAI semua memiliki model AI penalaran, yang menggunakan kekuatan komputasi dan waktu ekstra untuk memeriksa fakta dan menalar melalui masalah sebelum memberikan jawaban.
Teknik penalaran telah membantu model AI mencapai ketinggian baru dalam tugas matematika dan pemrograman. Banyak di dunia teknologi percaya model penalaran ini akan menjadi komponen kunci dari agen AI, sistem otonom yang dapat menjalankan tugas tanpa campur tangan manusia. Namun, model-model ini juga lebih mahal.
Google telah bereksperimen dengan model AI penalaran sebelumnya, sebelumnya merilis versi 'berpikir' dari Gemini pada bulan Desember. Tetapi Gemini 2.5 mewakili upaya serius perusahaan ini yang terbaik untuk mengalahkan seri model 'o' dari OpenAI.
Google mengklaim bahwa Gemini 2.5 Pro melebihi model AI perbatasan mereka sebelumnya, dan beberapa model AI terkemuka pesaing, dalam beberapa pengukuran. Secara khusus, Google mengatakan mereka merancang Gemini 2.5 untuk sangat baik dalam menciptakan aplikasi web yang menarik secara visual dan aplikasi pemrograman agensial.
Pada evaluasi yang mengukur pengeditan kode, yang disebut Aider Polyglot, Google mengatakan Gemini 2.5 Pro mencetak 68,6%, melebihi model AI teratas dari OpenAI, Anthropic, dan laboratorium AI Tiongkok DeepSeek.
Namun, pada tes lain yang mengukur kemampuan pengembangan perangkat lunak, SWE-bench Verified, Gemini 2.5 Pro mencetak 63,8%, melebihi o3-mini dari OpenAI dan R1 dari DeepSeek, namun di bawah Claude 3,7 Sonnet dari Anthropic, yang mencetak 70,3%.
Pada Ujian Terakhir Kemanusiaan, sebuah tes multimodal yang terdiri dari ribuan pertanyaan yang dikumpulkan oleh kerumunan yang berkaitan dengan matematika, humaniora, dan ilmu alam, Google mengatakan Gemini 2.5 Pro mencetak 18,8%, lebih baik dari sebagian besar model unggulan pesaing.
Untuk memulai, Google mengatakan Gemini 2.5 Pro dilengkapi dengan jendela konteks 1 juta token, yang berarti model AI dapat mengambil sekitar 750.000 kata sekaligus. Itu lebih panjang dari seluruh seri buku 'Lord of The Rings'. Dan segera, Gemini 2.5 Pro akan mendukung panjang input dua kali lipat (2 juta token).
Google tidak mempublikasikan harga API untuk Gemini 2.5 Pro. Perusahaan mengatakan mereka akan membagikan lebih banyak informasi dalam beberapa minggu mendatang.