Inception muncul dari stealth dengan jenis model AI baru

Inception, sebuah perusahaan baru berbasis Palo Alto yang didirikan oleh profesor ilmu komputer Stanford Stefano Ermon, mengklaim telah mengembangkan model AI baru berdasarkan teknologi “diffusion”. Inception menyebutnya sebagai model bahasa besar berbasis difusi, atau “DLM” singkatnya.

Model AI generatif yang paling mendapat perhatian sekarang dapat secara umum dibagi menjadi dua jenis: model bahasa besar (LLMs) dan model difusi. LLMs, dibangun di atas arsitektur transformer, digunakan untuk generasi teks. Sementara itu, model difusi, yang menggerakkan sistem AI seperti Midjourney dan Sora OpenAI, biasanya digunakan untuk membuat gambar, video, dan audio.

Model Inception menawarkan kemampuan LLM tradisional, termasuk generasi kode dan menjawab pertanyaan, namun dengan performa yang lebih cepat dan biaya komputasi yang lebih rendah, menurut perusahaan.

Ermon mengatakan kepada TechCrunch bahwa dia telah mempelajari bagaimana menerapkan model difusi ke teks dalam lab Stanford-nya. Penelitiannya didasarkan pada gagasan bahwa LLM tradisional relatif lambat dibandingkan dengan teknologi difusi.

Dengan LLMs, “Anda tidak dapat menghasilkan kata kedua sampai Anda menghasilkan kata pertama, dan Anda tidak dapat menghasilkan kata ketiga sampai Anda menghasilkan dua kata pertama,” kata Ermon.

Ermon sedang mencari cara untuk menerapkan pendekatan difusi ke teks karena, berbeda dengan LLMs, yang bekerja secara berurutan, model difusi memulai dengan perkiraan kasar data yang dihasilkan (misalnya, gambar), dan kemudian membawa data menjadi fokus sekaligus.

Ermon berasumsi bahwa menghasilkan dan memodifikasi blok teks besar secara paralel mungkin dilakukan dengan model difusi. Setelah bertahun-tahun mencoba, Ermon dan seorang mahasiswanya mencapai terobosan besar, yang mereka rincikan dalam sebuah makalah penelitian yang diterbitkan tahun lalu.

Mengakui potensi kemajuan ini, Ermon mendirikan Inception musim panas lalu, memanfaatkan dua mantan mahasiswa, profesor UCLA Aditya Grover dan profesor Cornell Volodymyr Kuleshov, untuk memimpin perusahaan bersama.

Meskipun Ermon menolak untuk membahas pendanaan Inception, TechCrunch memahami bahwa Mayfield Fund telah berinvestasi.

Inception telah mengamankan beberapa pelanggan, termasuk perusahaan Fortune 100 yang tidak disebutkan namanya, dengan memenuhi kebutuhan kritis mereka untuk mengurangi latensi AI dan meningkatkan kecepatan, kata Emron.

“Apa yang kami temukan adalah bahwa model kami dapat memanfaatkan GPU dengan jauh lebih efisien,” kata Ermon, merujuk pada chip komputer yang biasa digunakan untuk menjalankan model secara produktif. “Saya pikir ini adalah hal besar. Ini akan mengubah cara orang membangun model bahasa.”

Inception menawarkan API serta opsi implementasi on-premises dan perangkat edge, dukungan untuk penyempurnaan model, dan seperangkat DLM siap pakai untuk berbagai kasus penggunaan. Perusahaan mengklaim DLMnya dapat berjalan hingga 10x lebih cepat dari LLM tradisional sambil mengurangi biaya 10x.

“Model pemrograman ‘kecil’ kami sebagus model mini GPT-4o mini [OpenAI] sambil lebih dari 10 kali lebih cepat,” kata juru bicara perusahaan kepada TechCrunch. “Model ‘mini’ kami melampaui model open-source kecil seperti (Meta) Llama 3.1 8B dan mencapai lebih dari 1.000 token per detik.”

“Token” adalah bahasa industri untuk potongan data mentah. Seribu token per detik adalah kecepatan yang mengesankan memang, asalkan klaim Inception terbukti benar.