Deep Cogito muncul dari ketersembunyian dengan model AI 'penalaran' hibrida

Sebuah perusahaan baru, Deep Cogito, muncul dari ketersembunyian dengan keluarga model AI yang tersedia secara terbuka yang dapat beralih antara mode 'penalaran' dan non-penalaran.

Model-model penalaran seperti OpenAI's o1 telah menunjukkan potensi besar dalam domain matematika dan fisika, berkat kemampuannya untuk efektif memeriksa fakta dengan bekerja melalui masalah kompleks langkah demi langkah. Namun, penalaran ini datang dengan biaya: komputasi yang lebih tinggi dan laten. Itu sebabnya laboratorium seperti Anthropic mengejar arsitektur model "hibrida" yang menggabungkan komponen penalaran dengan elemen-elemen standar, non-penalaran. Model hibrida dapat dengan cepat menjawab pertanyaan sederhana sambil menghabiskan waktu tambahan untuk mempertimbangkan pertanyaan yang lebih menantang.

Semua model Deep Cogito, yang disebut Cogito 1, adalah model hibrida. Cogito mengklaim bahwa mereka melampaui model terbuka terbaik dengan ukuran yang sama, termasuk model dari Meta dan perusahaan rintisan AI Cina DeepSeek.

"Setiap model dapat menjawab langsung […] atau mengevaluasi diri sebelum menjawab (seperti model penalaran)," menjelaskan perusahaan tersebut dalam sebuah pos blog. "[Semua] dikembangkan oleh tim kecil dalam waktu sekitar 75 hari."

Model Cogito 1 bervariasi dari 3 miliar parameter hingga 70 miliar parameter, dan Cogito mengatakan bahwa model-model dengan rentang hingga 671 miliar parameter akan bergabung dengan mereka dalam beberapa minggu dan bulan mendatang. Parameter berkorelasi dengan keterampilan pemecahan masalah model, dengan lebih banyak parameter umumnya lebih baik.

Cogito 1 tidak dikembangkan dari awal, untuk jelasnya. Deep Cogito membangun di atas model Llama terbuka Meta dan model Qwen dari Alibaba untuk menciptakan miliknya sendiri. Perusahaan tersebut mengatakan bahwa mereka mengaplikasikan pendekatan pelatihan baru untuk meningkatkan kinerja model dasar dan mengaktifkan penalaran yang dapat diubah.

Menurut hasil benchmarking internal Cogito, model Cogito 1 terbesar, Cogito 70B, dengan penalaran mengungguli model penalaran R1 DeepSeek dalam beberapa evaluasi matematika dan bahasa. Cogito 70B dengan penalaran dinonaktifkan juga melampaui model Llama 4 Scout baru-baru ini dari Meta pada LiveBench, sebuah uji AI serbaguna.

Setiap model Cogito 1 tersedia untuk diunduh atau digunakan melalui API pada penyedia cloud Fireworks AI dan Together AI.

Kinerja Cogito 1 dibandingkan dengan model AI terbuka populer lainnyaKredit Gambar: Deep Cogito

"Saat ini, kami masih berada dalam tahap awal dari kurva penskalaan [kami], hanya menggunakan sebagian kecil komputasi yang biasanya dipesan untuk pelatihan pasca/pelanjutan model bahasa besar tradisional," tulis Cogito dalam pos blognya. "Ke depan, kami sedang menyelidiki pendekatan pelatihan pasca tambahan untuk peningkatan diri sendiri."

Menurut pengajuan dengan Negara Bagian California, Deep Cogito yang berbasis di San Francisco didirikan pada Juni 2024. Halaman LinkedIn perusahaan tersebut mencantumkan dua pendiri, Drishan Arora dan Dhruv Malhotra. Malhotra sebelumnya adalah manajer produk di laboratorium AI Google DeepMind, di mana ia bekerja pada teknologi pencarian generatif. Arora adalah insinyur perangkat lunak senior di Google.

Deep Cogito, yang pendukungnya termasuk South Park Commons, menurut PitchBook, bertujuan dengan ambisius untuk membangun "kecerdasan super umum." Para pendiri perusahaan memahami frasa tersebut sebagai AI yang dapat menjalankan tugas lebih baik daripada kebanyakan manusia dan "mengungkapkan kemampuan baru yang belum kita bayangkan."