YouTuber mengajukan gugatan class action terhadap OpenAI atas pengambilan transkrip kreator tanpa izin

Seorang pencipta YouTube berusaha untuk membawa gugatan class action terhadap OpenAI, dengan tuduhan bahwa perusahaan melatih model AI generatifnya pada jutaan transkrip dari video YouTube tanpa memberitahukan — atau memberi kompensasi — pemilik video tersebut.

Dalam keluhan yang diajukan pada Jumat lalu di Pengadilan Distrik AS untuk Distrik Utara California, para pengacara untuk David Millette, pengguna YouTube yang berbasis di Massachusetts, menuduh bahwa OpenAI secara diam-diam mentranskripsi video Millette dan kreator lain untuk melatih model yang menggerakkan platform chatbot berbasis AI perusahaan, ChatGPT, dan alat dan produk AI generatif lainnya. Dengan mengumpulkan data ini, OpenAI "mendapat keuntungan signifikan" dari karya para kreator, tuduhan keluhan, sambil melanggar hukum hak cipta dan syarat layanan YouTube yang melarang penggunaan video untuk aplikasi independen dari layanannya.

"Ketika produk AI [OpenAI] menjadi lebih canggih melalui penggunaan set data latihan, mereka menjadi lebih berharga bagi pengguna potensial dan saat ini, yang membeli langganan untuk mengakses produk AI [OpenAI]," kata keluhan itu. "Banyak materi dalam set data latihan OpenAI, bagaimanapun, berasal dari karya yang disalin oleh OpenAI tanpa persetujuan, tanpa kredit, dan tanpa kompensasi."

Millette, yang diwakili oleh firma hukum Bursor and Fisher, mengajukan sidang juri dan lebih dari $5 juta dalam ganti rugi bagi semua pengguna YouTube yang mungkin terjerat dalam latihan OpenAI.

Model AI generatif seperti milik OpenAI tidak memiliki kecerdasan nyata. Dengan diberikan sejumlah besar contoh (misalnya, film, rekaman suara, esai, dan sebagainya), model "belajar" seberapa mungkin data itu terjadi berdasarkan pola, termasuk konteks dari data yang mengelilinginya.

Sebagian besar model dilatih pada data yang bersumber dari situs web publik dan rangkaian data di seluruh web. Perusahaan berpendapat bahwa penggunaan yang adil melindungi upaya mereka untuk mengambil data secara sembarangan dan menggunakannya untuk melatih model-model komersial. Namun, banyak pemilik hak cipta tidak setuju — dan mereka mengajukan gugatan yang bertujuan untuk menghentikan praktik ini.

Transkripsi video telah menjadi bahan data latihan kunci ketika sumber data lain mulai kering, seakan-akan.

Lebih dari 35% dari 1.000 situs web teratas di dunia sekarang memblokir web crawler OpenAI, menurut data dari Originality.AI. Dan sekitar 25% data dari sumber-sumber "berkualitas tinggi" telah dibatasi dari set data utama yang digunakan untuk melatih model AI, sebuah studi oleh Inisiatif Asal Data MIT temukan. Jika tren pembatasan akses saat ini berlanjut, kelompok penelitian Epoch AI memprediksi bahwa para pengembang akan kehabisan data untuk melatih model AI generatif antara 2026 dan 2032.

Pada bulan April, The New York Times melaporkan bahwa OpenAI membuat model pengenalan ucapan pertamanya, Whisper, dengan tujuan mentranskripsi audio dari video untuk mengumpulkan data latihan tambahan. Tim OpenAI yang melibatkan presiden perusahaan, Greg Brockman, mentranskripsi lebih dari satu juta jam video dari YouTube menggunakan Whisper, menurut The Times, dan menggunakan transkripsi tersebut untuk melatih model teks-generatif dan-analisis GPT-4 milik OpenAI.

Beberapa staf OpenAI mendiskusikan bagaimana langkah tersebut mungkin melanggar aturan YouTube, menurut The Times.

Pada bulan Juli, Proof News melaporkan bahwa perusahaan termasuk Anthropic, Apple, Salesforce, dan Nvidia menggunakan set data yang disebut The Pile, yang berisi subjudul dari ratusan ribu video YouTube, untuk melatih model AI generatif. Banyak pencipta YouTube yang subjudulnya masuk ke The Pile tidak menyadari dan tidak memberikan izin untuk hal ini; Apple kemudian merilis pernyataan mengatakan bahwa mereka tidak bermaksud menggunakan model tersebut untuk menggerakkan fitur AI dalam produk mereka.

Google, perusahaan induk YouTube, juga berupaya menggunakan transkripsi untuk melatih modelnya.

Tahun lalu, Google memperluas syarat layanannya (ToS) untuk sebagian memungkinkan perusahaan tersebut untuk menggunakan lebih banyak data pengguna untuk melatih model AI generatif. Di bawah ToS lama, tidak jelas apakah Google bisa menggunakan data YouTube untuk membangun produk di luar platform video. Berbeda dengan syarat baru, yang melonggarkan kendali secara signifikan.

Kami telah menghubungi OpenAI dan Google untuk mengomentari gugatan class action ini dan akan memperbarui artikel ini jika mereka merespons.

Mulai bulan ini tidak berjalan mulus bagi OpenAI.

CEO Tesla dan X, Elon Musk pada hari Senin mengajukan gugatan baru terhadap OpenAI dan CEO Sam Altman dengan tuduhan bahwa perusahaan telah meninggalkan misi nirlaba aslinya dengan menyediakan beberapa teknologi paling canggihnya untuk pelanggan komersial. Musk membuat klaim yang sama dalam gugatan Februari terhadap OpenAI, tetapi gugatan baru tersebut menuduh bahwa OpenAI terlibat dalam aktivitas pemerasan juga.