Setelah Keberhasilan AgentGPT, Reworkd Berubah Haluan Menjadi Agensi AI Penjelajah Web

Pendiri Reworkd menjadi viral di GitHub tahun lalu dengan AgentGPT, sebuah alat gratis untuk membangun agen AI yang mendapatkan lebih dari 100.000 pengguna harian dalam seminggu. Hal ini membuat mereka mendapatkan tempat di kohor Y Combinator musim panas 2023, tetapi para pendiri dengan cepat menyadari bahwa membangun agen AI umum terlalu luas. Jadi sekarang Reworkd adalah sebuah perusahaan penjelajah web, khususnya membangun agen AI untuk mengekstrak data terstruktur dari web publik.

AgentGPT menyediakan antarmuka sederhana di browser di mana pengguna dapat membuat agen AI otonom. Tak lama, semua orang bersorak tentang bagaimana agen adalah masa depan komputasi.

Ketika alat tersebut mulai populer, Asim Shrestha, Adam Watkins, dan Srijan Subedi masih tinggal di Kanada dan Reworkd belum ada. Lonjakan pengguna yang masif membuat mereka kewalahan; Subedi, sekarang COO Reworkd, mengatakan bahwa alat tersebut menghabiskan biaya $2.000 per hari dalam panggilan API. Karena itu, mereka harus membuat Reworkd dan mendapatkan pendanaan dengan cepat. Salah satu kasus penggunaan paling populer untuk AgentGPT adalah membuat penjelajah web, yang merupakan tugas yang relatif sederhana tetapi dalam volume tinggi, sehingga Reworkd membuat ini menjadi fokus tunggal mereka.

Penjelajah web telah menjadi sangat berharga di era AI. Alasan utama organisasi menggunakan data web publik pada tahun 2024 adalah untuk membangun model AI, menurut laporan terbaru Bright Data. Masalahnya adalah penjelajah web tradisional dibangun oleh manusia dan harus disesuaikan untuk halaman web tertentu, membuat mereka mahal. Namun agen AI Reworkd dapat menjelajah lebih banyak web dengan jumlah manusia yang lebih sedikit dalam prosesnya.

Pelanggan dapat memberikan Reworkd daftar ratusan, atau bahkan ribuan, situs web untuk dijelajahi dan kemudian menentukan jenis data yang mereka minati. Kemudian agen AI Reworkd menggunakan pembangkitan kode multimodal untuk mengubahnya menjadi data terstruktur. Agen menghasilkan kode unik untuk menjelajah setiap situs web dan mengekstrak data tersebut untuk digunakan pelanggan sesuai kebutuhan mereka.

Sebagai contoh, katakanlah Anda ingin statistik tentang setiap pemain NFL, tetapi setiap situs web tim memiliki tata letak yang berbeda. Alih-alih membuat penjelajah untuk setiap situs web, agen Reworkd melakukannya untuk Anda hanya dengan memberikan tautan dan deskripsi data yang ingin Anda ekstrak. Dengan 32 tim, itu bisa menghemat waktu Anda — tetapi jika ada 1.000 tim, itu bisa menghemat minggu Anda.

Reworkd mengumpulkan dana segar sebesar $2,75 juta dalam pendanaan awal dari Paul Graham, AI Grant (akselerator startup Nat Friedman dan Daniel Gross), SV Angel, General Catalyst dan Panache Ventures, di antara lain, perusahaan startup eksklusif telah memberitahu TechCrunch. Dengan tambahan investasi pra-pendanaan sebesar $1,25 juta tahun lalu dari Panache Ventures dan Y Combinator, ini membawa total pendanaan Reworkd hingga saat ini menjadi $4 juta.

AI yang dapat menggunakan internet

Tak lama setelah pembentukan Reworkd dan pindah ke San Francisco, tim mempekerjakan Rohan Pandey sebagai insinyur penelitian pendiri. Saat ini ia tinggal di AGI House SF, salah satu hacker house paling populer di Bay Area untuk era AI. Salah satu investor menggambarkan Pandey sebagai "laboratorium penelitian satu orang di dalam Reworkd."

"Kami melihat diri kita sebagai hasil akhir dari mimpi 30 tahun tentang Web Semantik," kata Pandey dalam wawancara dengan TechCrunch, merujuk pada visi penemu World Wide Web Tim Berners-Lee di mana komputer dapat membaca seluruh internet. "Meskipun beberapa situs web tidak memiliki markup, LLM dapat memahami situs web dengan cara yang sama dengan manusia, sehingga kami dapat mengekspos praktis setiap situs web sebagai API. jadi dalam beberapa hal, Reworkd adalah lapisan API universal untuk internet."

Reworkd mengatakan bahwa mereka mampu menangkap ekor panjang kebutuhan data pelanggan, yang berarti agen AI mereka terutama bagus untuk menjelajahi ribuan situs web publik kecil yang sering dilewatkan oleh pesaing besar. Lain, seperti Bright Data, memiliki penjelajah untuk situs web besar seperti LinkedIn atau Amazon yang telah dibangun, namun mungkin tidak layak bagi manusia untuk membuat penjelajah untuk setiap situs web kecil. Reworkd menyikapi kekhawatiran ini, tetapi mungkin menimbulkan kekhawatiran lain.

Apa sebenarnya yang dimaksud dengan data web 'publik'?

Meskipun penjelajah web sudah ada selama beberapa dekade, mereka telah menarik kontroversi di era AI. Penjelajah data dalam jumlah besar telah membawa masalah hukum bagi OpenAI dan Perplexity: organisasi berita dan media menuduh perusahaan AI mengekstrak kekayaan intelektual dari balik pagar berbayar, mendistribusikannya secara luas tanpa pembayaran. Reworkd mengambil langkah-langkah pencegahan untuk menghindari masalah ini.

"Kami melihatnya sebagai pembaruan keterjangkauan informasi publik," kata Shrestha, salah satu pendiri dan CEO Reworkd, dalam wawancara dengan TechCrunch. "Kami hanya membolehkan informasi yang tersedia secara publik; kami tidak melewati tembok tanda masuk atau apa pun seperti itu."

Untuk pergi satu langkah lebih jauh, Reworkd mengatakan bahwa mereka menghindari pengambilan berita sama sekali, dan pemilih dalam memilih dengan siapa mereka bekerja. Watkins, CTO perusahaan, mengatakan ada alat yang lebih baik untuk menggabungkan konten berita di tempat lain, dan itu bukan fokus mereka.

Sebagai contoh tentang apa yang dilakukan, Reworkd mendeskripsikan kerja mereka dengan Axis, sebuah perusahaan yang membantu tim kebijakan mematuhi peraturan pemerintah. Axis menggunakan AI Reworkd untuk mengekstrak data dari ribuan dokumen peraturan pemerintah untuk banyak negara di seluruh Uni Eropa. Axis kemudian melatih dan menyetel model AI berdasarkan data ini dan menawarkannya kepada klien sebagai produk.

Mulai sebuah perusahaan penjelajah web saat ini bisa dianggap sebagai masuk ke wilayah berbahaya, menurut Aaron Fiske, partner di firma hukum berbasis di Silicon Valley, Gunderson Dettmer. Lanskap ini agak fleksibel saat ini, dan masih belum ada keputusan tentang seberapa "publik" data web sebenarnya untuk model AI. Namun, Fiske mengatakan pendekatan Reworkd, di mana pelanggan memutuskan situs web apa yang akan dijelajahi, mungkin melindungi mereka dari tanggung jawab hukum.

"Ini seperti mereka menciptakan mesin fotokopi, dan ada satu kasus penggunaan untuk membuat salinan yang ternyata sangat berharga ekonomis, tetapi juga secara hukum, sangat meragukan," kata Fiske dalam wawancara dengan TechCrunch. "Bukan berarti penjelajah web yang melayani perusahaan AI adalah suatu risiko, tetapi bekerja dengan perusahaan AI yang benar-benar tertarik untuk mengumpulkan konten yang dilindungi hak cipta mungkin merupakan isu."

Itulah sebabnya Reworkd berhati-hati dalam bekerja dengan siapa saja. Penjelajah web telah mengaburkan sebagian besar kesalahan dalam kasus dugaan pelanggaran hak cipta terkait AI sampai saat ini. Dalam kasus OpenAI, Fiske menunjukkan bahwa The New York Times tidak menggugat penjelajah web yang mengumpulkan artikel-artikelnya, melainkan perusahaan yang diduga mengulangi pekerjaannya. Namun, bahkan di sana, belum diputuskan apakah apa yang dilakukan OpenAI yang sebenarnya adalah pelanggaran hak cipta.

Ada bukti lebih lanjut bahwa penjelajah web berada dalam kondisi hukum yang jelas selama booming AI. Baru-baru ini, pengadilan memutuskan untuk mendukung Bright Data setelah ia menjelajahi profil Facebook dan Instagram melalui web. Salah satu contoh dalam kasus pengadilan adalah kumpulan data 615 juta catatan data pengguna Instagram yang dijual Bright Data seharga $860.000. Meta menggugat perusahaan itu, menuduh ini melanggar ketentuan layanannya. Namun, sebuah pengadilan memutuskan bahwa data ini bersifat publik dan karena itu tersedia untuk dijelajahi.

Investor Berpikir Reworkd Melangkah Bersama dengan Pesaing Besar

Reworkd telah menarik nama-nama besar sebagai investor awal, mulai dari Y Combinator dan Paul Graham hingga Daniel Gross dan Nat Friedman. Beberapa investor mengatakan bahwa ini karena teknologi Reworkd berpotensi untuk berubah dan menjadi lebih murah seiring dengan model-model baru. Startup ini mengatakan OpenAI’s GPT-4o saat ini adalah yang terbaik untuk generasi kode multimodal mereka dan bahwa sebagian besar teknologi Reworkd tidak mungkin sampai hanya beberapa bulan yang lalu.

"Jika Anda mencoba untuk bersaing dengan tingkat kemajuan teknologi — bukan membangun di atasnya — maka menurut saya Anda akan kesulitan sebagai pendiri," kata Viet Le dari General Catalyst kepada TechCrunch. "Reworkd memiliki pola pikir berdasarkan solusinya pada tingkat kemajuan."

Reworkd membuat agen AI yang menangani kesenjangan tertentu di pasar; perusahaan membutuhkan lebih banyak data karena AI berkembang dengan cepat. Seiring dengan lebih banyak perusahaan membangun model AI kustom yang spesifik untuk bisnis mereka, Reworkd dapat memperoleh lebih banyak pelanggan. Menyetel model membutuhkan data berkualitas, terstruktur, dan banyak dari data.

Reworkd mengatakan bahwa pendekatan mereka "self-healing," yang berarti penjelajah web mereka tidak akan rusak karena pembaruan halaman web. Startup ini mengklaim menghindari masalah halusinasi yang umumnya terkait dengan model AI karena agen Reworkd menghasilkan kode untuk menjelajah situs web. Memungkinkan adanya kesalahan di mana AI bisa mengambil data yang salah dari sebuah situs web, tetapi tim Reworkd menciptakan Banana-lyzer, kerangka evaluasi open source, untuk secara teratur menilai akurasinya.

Reworkd tidak memiliki gaji besar — tim hanya terdiri dari empat orang — namun harus menghadapi biaya inferensi yang considerable untuk menjalankan agen AI-nya. Startup ini berharap harga mereka akan semakin kompetitif seiring dengan menurunnya biaya-biaya ini. OpenAI baru saja merilis GPT-4o mini, versi lebih kecil dari model unggulan industri mereka dengan parameter kompetitif. Inovasi seperti ini dapat membuat Reworkd lebih kompetitif.

Paul Graham dan AI Grant tidak merespons permintaan komentar TechCrunch.