Minggu ini dalam AI: Mungkin kita seharusnya mengabaikan benchmark AI untuk saat ini

Selamat datang di newsletter AI reguler TechCrunch! Kami akan mengambil jeda sejenak, tetapi Anda dapat menemukan semua liputan AI kami, termasuk kolom saya, analisis harian kami, dan berita mendadak, di TechCrunch. Jika Anda ingin cerita-cerita itu dan banyak lagi di kotak masuk Anda setiap hari, daftarlah untuk newsletter harian kami di sini.

Pekan ini, perusahaan teknologi AI miliarder Elon Musk, xAI, merilis model AI andal terbarunya, Grok 3, yang menggerakkan aplikasi chatbot Grok perusahaannya. Dilatih di sekitar 200.000 GPU, model ini mengalahkan sejumlah model terkemuka lainnya, termasuk dari OpenAI, pada benchmark untuk matematika, pemrograman, dan lainnya.

Tetapi apa sebenarnya yang diberi tahukan oleh benchmark ini?

Di sini di TC, kita sering melaporkan angka benchmark dengan enggan karena benchmark ini merupakan salah satu cara yang (relatif) terstandarisasi dalam industri AI untuk mengukur peningkatan model. Benchmark AI populer cenderung menguji pengetahuan esoteris, dan memberikan skor agregat yang berkorelasi buruk dengan kemahiran pada tugas-tugas yang paling penting bagi kebanyakan orang.

Sebagaimana yang dikemukakan oleh profesor Wharton Ethan Mollick dalam serangkaian posting di X setelah perkenalan Grok 3 pada hari Senin, ada “kebutuhan mendesak untuk tes baterai yang lebih baik dan otoritas pengujian independen.” Perusahaan AI cenderung melaporkan sendiri hasil benchmark lebih sering daripada tidak, seperti yang diisyaratkan oleh Mollick, membuat hasil-hasil tersebut semakin sulit untuk diterima begitu saja.

“Benchmark publik itu seolah-olah ‘biasa’ dan jenuh, menyisakan banyak pengujian AI yang seperti ulasan makanan, berdasarkan rasa,” tulis Mollick. “Jika AI kritis untuk bekerja, kami memerlukan lebih banyak.”

Tidak kekurangan tes independen dan organisasi yang mengusulkan benchmark baru untuk AI, tetapi nilai relatif mereka jauh dari hal pasti dalam industri. Beberapa komentator dan pakar AI mengusulkan untuk menyelaraskan benchmark dengan dampak ekonomi untuk memastikan kegunaannya, sementara yang lain berargumen bahwa adopsi dan kegunaan merupakan benchmark utama.

Debat ini mungkin akan terus berlanjut hingga akhir waktu. Mungkin seharusnya kita, seperti yang diusulkan oleh pengguna X Roon, hanya sedikit memperhatikan model-model dan benchmark baru kecuali terdapat terobosan teknis AI utama. Untuk kesehatan bersama, itu mungkin bukan ide terburuk, meskipun itu menyebabkan tingkat FOMO AI.

Seperti yang disebutkan di atas, This Week in AI akan mengambil jeda. Terima kasih sudah bertahan bersama kami, pembaca, melalui perjalanan roller coaster ini. Sampai jumpa lain waktu.

Berita

Kredit Gambar: Nathan Laine/Bloomberg / Getty Images

OpenAI mencoba "membuka sensor" ChatGPT: Max menulis tentang bagaimana OpenAI mengubah pendekatan pengembangan AI-nya untuk dengan jelas memeluk "kebebasan intelektual," tidak peduli seberapa menantang atau kontroversial suatu topik mungkin.

Startup baru Mira: Mantan CTO OpenAI Mira Murati memulai startup terbarunya, Thinking Machines Lab, bermaksud untuk membangun alat untuk "membuat AI bekerja untuk kebutuhan dan tujuan unik [orang]."

Grok 3 datang: Perusahaan teknologi AI Elon Musk, xAI, telah merilis model AI andal terbarunya, Grok 3, dan mengungkapkan kemampuan baru untuk aplikasi Grok untuk iOS dan web.

Sebuah konferensi Llama yang sangat menarik: Meta akan menjadi tuan rumah konferensi pengembang pertamanya yang didedikasikan untuk AI generatif musim semi ini. Diberi nama LlamaCon setelah keluarga model AI generatif Llama Meta, konferensi tersebut dijadwalkan pada 29 April.

AI dan kedaulatan digital Eropa: Paul memprofile OpenEuroLLM, kerjasama antara sekitar 20 organisasi untuk membangun "serangkaian model dasar untuk AI transparan di Eropa" yang menjaga "keragaman linguistik dan budaya" dari semua bahasa UE.

Makalah Penelitian Pekan Ini

Kredit Gambar: Jakub Porzycki/NurPhoto / Getty Images

Peneliti OpenAI telah membuat benchmark AI baru, SWE-Lancer, yang bertujuan untuk mengevaluasi kecakapan pemrograman sistem AI yang kuat. Benchmark ini terdiri dari lebih dari 1.400 tugas teknik perangkat lunak lepas yang meliputi perbaikan bug dan implementasi fitur hingga proposal implementasi teknis "tingkat manajerial".

Menurut OpenAI, model AI terbaik, Anthropic's Claude 3.5 Sonnet, mencetak 40,3% pada benchmark SWE-Lancer penuh - menunjukkan bahwa AI masih memiliki jalan yang panjang. Perlu dicatat bahwa peneliti tidak menguji model-model baru seperti o3-mini dari OpenAI atau R1 dari perusahaan AI China, DeepSeek.

Model Pekan Ini

Perusahaan AI China bernama Stepfun telah merilis model AI "terbuka", Step-Audio, yang dapat memahami dan menghasilkan ucapan dalam beberapa bahasa. Step-Audio mendukung bahasa China, Inggris, dan Jepang dan memungkinkan pengguna untuk menyesuaikan emosi dan bahkan dialek dari audio sintetis yang diciptakannya, termasuk menyanyi.

Stepfun adalah salah satu dari beberapa startup AI China yang didanai dengan baik yang merilis model di bawah lisensi yang bersahabat. Didirikan pada tahun 2023, Stepfun dilaporkan baru-baru ini menutup putaran pendanaan senilai ratusan juta dolar dari sejumlah investor yang termasuk perusahaan ekuitas swasta milik negara China.

Grab Bag

Kredit Gambar: Nous Research

Researcher AI, Nous Research, telah merilis apa yang diklaimnya sebagai salah satu model AI pertama yang menyatukan pemikiran dan kemampuan "model bahasa intuitif."

Model, DeepHermes-3 Preview, dapat mengaktifkan dan menonaktifkan rangkaian pemikiran yang panjang untuk akurasi yang ditingkatkan dengan biaya beban komputasi yang lebih banyak. Dalam mode "pemikiran", DeepHermes-3 Preview, mirip dengan model AI lain yang memikirkan, "berpikir" lebih lama untuk masalah-masalah yang lebih sulit dan menunjukkan proses berpikirnya untuk mencapai jawaban.

Anthropic dilaporkan berencana untuk merilis model dengan arsitektur yang serupa dalam waktu dekat, dan OpenAI telah mengatakan bahwa model semacam itu ada dalam rencananya yang segera.