Egymillió órányi YouTube-videóval taníthatta modelljét az OpenAI
Az OpenAI állítólag több mint egymillió órányi YouTube-videó leiratát használta fel – érkezett a hír pár nappal azután, hogy a YouTube vezérigazgató arról beszélt, hogy ez egyértelműen sértené a platform szabályzatát. Közben a Google-ról sem mondható el, hogy ne ködösítene a még több adat érdekében.
Az OpenAI korábban már nem kendőzte, hogy hatalmas mennyiségű, részben szerzői jogvédelem alatt álló adatot kapart össze az internetről nyilvánosan elérhető tartalmakkal saját nagy generatív modelljének betanításához, ám az adatgyűjtéssel kapcsolatban nem túl transzparens a cég. Ez egy sor jogi kérdést is magával hozott, korábban a New York Times indította el az első komoly kiadói pert azzal a váddal, hogy a cég a lap újságcikkeit jogtalanul használta fel modelljei tanításához. Az OpenAI korábban maga is elismerte, hogy szerzői jog által védett adatokat használt fel, mivel szerinte enélkül „lehetetlen” a technológia fejlesztése. Neal Mohan, a YouTube vezérigazgatója ennek kapcsán egy interjú során úgy nyilatkozott, hogy ha a Sorához a YouTube-ról származó tartalmakat valóban felhasználták, az a szolgáltatási feltételek egyértelmű megsértését jelentené.
A The New York Times hétvégén publikált, belsős forrásokra alapozott feltáró cikke tovább fokozhatja a feszültséget a két techcég közt. A lap szerint az OpenAI a Whisper nevű beszédfelismerő modellt használta fel ahhoz, hogy több mint egymillió órányi YouTube-videóról készítsen szöveges leiratot a GPT-4 nagy nyelvi modell képzéséhez - mindezt annak ellenére, hogy maga is tisztában volt azzal, hogy a módszer jogilag aggályos lehet. Greg Brockman elnök személyesen vett részt a videók kiválasztásában.
CI/CD-vel folytatódik az AWS hazai online meetup-sorozata! A sorozat december 12-i, ötödik állomásán bemutatjuk az AWS CodeCatalyst platformot, és a nyílt forráskódú Daggert is.
A források elmondása alapján a startupnál 2021-ben merült fel először az ötlet, hogy YouTube-videók, podcastok és hangoskönyvek átiratait kezdje el használni, miután egyszerűen kimerítette az interneten nyilvánosan fellelhető angol nyelvű szövegek tárházát, és még mindig jóval több adatra volt szüksége a következő generációs modell kiképzéséhez.
Nem meglepő, hogy maga a Google is élt a lehetőséggel, és gyűjtött adatokat a YouTube-ról saját modelljéhez, de bevallása szerint a "YouTube-alkotókkal kötött megállapodások keretein belül". A The Times megjegyzi, hogy a keresőóriás 2023-ban módosította a szolgáltatási feltételeit, hogy megkönnyítse saját maga számára a nyilvános Google Dokumentumok, a Google Maps éttermek értékeléseinek és más, nyilvánosan elérhető tartalmak összegyűjtését, szintén a saját modell betanításához és finomításához. Az új szabályzatot állítólag szándékosan adta ki a cég július 1-jén, hogy kihasználja a függetlenség napjára terelődő figyelmet.
Tehát a Google szolgáltatási feltételeinek módosításai lehetővé tették a vállalat számára, hogy képzési adatokat gyűjtsön be tömegesen szolgáltatásai nyilvánosan látható adatpontjairól, beleértve a nyilvános Google Dokumentumok és Táblázatok fájlokat, sőt még a Térképen hagyott véleményeket is.
Matt Bryant, a Google szóvivője szerint a a vállalat „meg nem erősített jelentéseket látott” az OpenAI tevékenységéről, hozzátéve, hogy „a robots.txt fájljok és a szolgáltatási feltételek is tiltják a YouTube-tartalmak jogosulatlan lekaparását vagy letöltését”. A Times szerint a Google előtt nyílt titok, hogy az OpenAI adatokat kapart le a YouTube-ról, de nem lépett fel a rivális ellen, mivel ez visszahathatna a saját tevékenységére is.
A Times által szerzett információk fényében újabb kérdések merülhetnek fel a szerzői jogi törvényekkel kapcsolatban az AI világában. A mesterséges intelligencia körüli szerzői jogi panaszok többségét eddig kis kiadók terjesztették elő, de a Google komoly szereplő lehet, ha úgy dönt, hogy beleáll egy ilyen küzdelembe - amivel valószínűleg annyit nyerhetne, hogy ezzel potenciálisan lassíthatná az OpenAI-t is.