Model-model TTT mungkin akan menjadi wilayah baru dalam AI generatif

Setelah bertahun-tahun dominasi oleh bentuk AI yang dikenal sebagai transformer, kini sedang dilakukan pencarian untuk arsitektur baru.

Transformer mendasari model pembangkit video Sora dari OpenAI, dan mereka menjadi inti dari model generasi teks seperti Claude dari Anthropic, Gemini dari Google, dan GPT-4o. Tetapi mereka mulai menghadapi rintangan teknis - terutama rintangan terkait komputasi.

Transformer tidak terlalu efisien dalam memproses dan menganalisis jumlah data yang besar, setidaknya berjalan pada perangkat keras biasa. Dan hal ini menyebabkan peningkatan kebutuhan daya yang curam dan mungkin tidak bisa berkelanjutan seiring perusahaan membangun dan memperluas infrastruktur untuk menyesuaikan kebutuhan transformer.

Arsitektur yang menjanjikan yang diusulkan bulan ini adalah pelatihan waktu tes (TTT), yang dikembangkan selama satu setengah tahun oleh para peneliti di Stanford, UC San Diego, UC Berkeley, dan Meta. Tim peneliti mengklaim bahwa model TTT tidak hanya dapat memproses jauh lebih banyak data daripada transformer, tetapi juga dapat melakukannya tanpa mengonsumsi daya komputasi yang hampir sama banyaknya.

Status tersembunyi dalam transformer

Komponen dasar dari transformer adalah "status tersembunyi," yang pada dasarnya adalah daftar panjang data. Saat transformer memproses sesuatu, ia menambahkan entri ke status tersembunyi untuk "mengingat" apa yang baru saja diproses. Misalnya, jika model sedang bekerja melalui sebuah buku, nilai-status tersembunyi akan menjadi representasi kata-kata (atau bagian kata).

"Jika Anda menganggap transformer sebagai entitas yang cerdas, maka tabel pencarian - status tersembunyi-nya adalah otak transformer," kata Yu Sun, seorang pasca-doktoral di Stanford dan kontributor bersama dalam penelitian TTT, kepada TechCrunch. "Otak khusus ini memungkinkan kemampuan yang sudah dikenal dari transformer seperti pembelajaran dalam konteks."

Status tersembunyi adalah bagian dari apa yang membuat transformer begitu kuat. Tetapi juga menghambat mereka. Untuk "mengatakan" bahkan satu kata tentang buku yang baru saja dibaca oleh transformer, model itu harus memindai seluruh tabel pencarian-nya - tugas yang sama sekali tidak efisien secara komputasi seperti membaca ulang seluruh buku.

Jadi Sun dan tim memiliki ide untuk mengganti status tersembunyi dengan model pembelajaran mesin - seperti boneka AI yang bersarang, jika boleh saya katakan, model di dalam model.

Meski agak teknis, intinya adalah model TTT menggunakan model pembelajaran mesin internal, tidak seperti tabel pencarian transformer yang tidak berhenti bertambah ketika memproses data tambahan. Sebaliknya, itu mengkodekan data yang diproses ke dalam variabel representatif yang disebut bobot, itulah yang membuat model TTT sangat performa. Tidak peduli seberapa banyak data yang diproses model TTT, ukuran model internalnya tidak akan berubah.

Sun meyakini bahwa model TTT di masa depan bisa memproses miliaran data, dari kata-kata hingga gambar hingga rekaman audio hingga video. Ini jauh melampaui kapabilitas model saat ini.

"Sistem kami dapat mengatakan X kata tentang sebuah buku tanpa kompleksitas komputasional membaca ulang buku X kali," kata Sun. "Model video besar berdasarkan transformer, seperti Sora, hanya bisa memproses 10 detik video, karena mereka hanya memiliki 'otak' tabel pencarian. Tujuan akhir kami adalah mengembangkan sistem yang bisa memproses video panjang menyerupai pengalaman visual kehidupan manusia."

Skeptisisme seputar model-model TTT

Jadi apakah model TTT pada akhirnya akan menggantikan transformer? Mereka bisa. Tapi masih terlalu dini untuk mengatakan dengan pasti.

Model TTT bukanlah pengganti transformer yang siap pakai. Dan para peneliti hanya mengembangkan dua model kecil untuk studi, sehingga TTT sebagai metode sulit untuk dibandingkan saat ini dengan beberapa implementasi transformer yang lebih besar di luar sana.

'Saya pikir ini adalah inovasi yang sangat menarik, dan jika data mendukung klaim bahwa itu memberikan keuntungan efisiensi maka itu adalah kabar baik, tetapi saya tidak bisa memberi tahu Anda apakah itu lebih baik dari arsitektur yang ada atau tidak,' kata Mike Cook, seorang dosen senior di departemen informatika King's College London yang tidak terlibat dalam penelitian TTT. 'Dosen tua saya sering bercanda saat saya masih mahasiswa: Bagaimana cara memecahkan masalah apa pun dalam ilmu komputer? Tambahkan lapisan abstraksi lain. Menambahkan jaringan saraf di dalam jaringan saraf benar-benar membuat saya teringat akan itu.'

Terlepas dari itu, percepatan penelitian terhadap alternatif transformer menunjukkan pengakuan yang semakin besar atas kebutuhan akan terobosan.

Minggu ini, startup AI Mistral merilis model, Codestral Mamba, yang didasarkan pada alternatif lain untuk transformer yang disebut model ruang keadaan (SSMs). SSMs, seperti model TTT, tampaknya lebih efisien secara komputasi daripada transformer dan bisa ditingkatkan hingga jumlah data yang lebih besar.

AI21 Labs juga sedang menjelajahi SSMs. Begitu juga Cartesia, yang menjadi perintis beberapa SSMs pertama dan pendamping-pendamping Codestral Mamba, Mamba dan Mamba-2.

Jika upaya-upaya ini berhasil, dapat membuat AI generatif bahkan lebih mudah diakses dan tersebar luas daripada sekarang ini — untuk lebih baik atau lebih buruk.