Még az OpenAI fontos embere se tudja, honnan szedik az adatokat
Az OpenAI technológiai igazgatójával, Mira Muratival készített interjú aggasztó képet fest a világ egyik legfontosabb AI-fejlesztőjének nyíltságáról.
Újabb apropót kapott a nagy nyelvi modellek átláthatósága körül kialakult diskurzus, miután a Wall Street Journal újságírója, Joanna Stern interjút készített az OpenAI technológiai igazgatójával, Mira Muratival. A beszélgetés egyik fő témája a nemrég bemutatott, szöveges promptokból mozgóképet előállító Sora modell volt, ami videók elemzésével tanulja meg azonosítani a tárgyakat és cselekvéseket, és így képes újabb videók előállítására. (A Soráról korábban itt írtunk bővebben.) A modell képzésével kapcsolatban a technológiai igazgató annyit tudott mondani, hogy „nyilvánosan elérhető és licencelt” adatokat használtak fel.
Stern kérdésére, hogy ez alatt konkrétan a YouTube-ról származó videókat is lehet-e érteni, Murati azt válaszolta, hogy „nem biztos benne”, későbbi válaszaiban pedig rendre a „nyilvánosan elérhető és licencelt”, kissé homályos frázissal tért vissza. Az OpenAI korábban együttműködést jelentett be az egyik legnépszerűbb stockfotó szolgáltatással, a Shutterstockkal, később pedig Murati is megerősítette, hogy valóban dolgoznak a szolgáltatás adatbázisából - ami jó eséllyel csak apró szelete az interneten elérhető és ezáltal össszekaparható tartalmaknak.
A kritikusok benyomása szerint az interjúra láthatóan felkészületlenül érkező technológiai igazgató válaszai már pozíciójából adódóan is aggasztó kérdéseket vetnek fel: ha a világ egyik legforróbb MI-vállalatának technikai főembere nem tud pontos információkkal szolgálni a képzési adatokkal kapcsolatban, akkor mégis kicsoda? Az interjú során Murati nem osztott meg részletesebb technikai információkat és konkrétumokat sem, amikor a közösségi médiában és nyilvános videómegosztókról lekapart adatok felhasználásáról kérdezték.
CI/CD-vel folytatódik az AWS hazai online meetup-sorozata! A sorozat december 12-i, ötödik állomásán bemutatjuk az AWS CodeCatalyst platformot, és a nyílt forráskódú Daggert is.
Noha Murati ködös válaszait a cég kommunikációs és jogi tanácsadója is kérhette, egyes vélemények szerint elképzelhető, hogy a CTO valójában maga sem tudta a pontos részleteket, vagy még nyomasztóbb, hogy nem szerette volna nyilvánosság elé tárni azokat. Azzal kapcsolatban sem derültek még ki konkrétumok, hogy az előállított videók utómunkájában mennyi kontrollt kapnak majd a felhasználók, milyen mértékben lesznek alakíthatók az előállított mozgóképek, a cég képviselője egyelőre csak a szándékot tudta megerősíteni. Ami bizonyossá vált, hogy a Sorát még az idén, sőt „akár a következő hónapokban” tervezik szélesebb körben elérhetővé tenni, és a videókhoz hangot is lehet majd rendelni.
Murati nyilatkozata azonban mégis arra enged következtetni, hogy az OpenAI modelljeit a YouTube-on és a Facebook-videókon oktatják, ami azt jelenti, hogy a Sora nyilvános bevezetése akár még komolyabb jogi csatákat hozhat a vállalat nyakára, hiszen ha ténylegesen a YouTube és az Instagram szerzői joggal védett anyagain képzeték ki, ahhoz a készítőknek is lesz pár szava. Az amerikai szövetségi kereskedelmi bizottság (FTC) jelenleg is vizsgálja az OpenAI-t, különös tekintettel a cég képzési adatkészleteire. A nyílt és tiszta kommunikációtól való eltérés egyben felveti, hogyan tud majd megfelelni a cég az egyre szigorodó európai előírásoknak, előfordulhat, hogy az OpenAI-nak részletesebb információkat kell nyilvánosságra hoznia a Sora képzési adatkészleteiről, máskülönben a szabályozók szigorúbb fellépésére számíthat.
Az Európai Parlament a múlt héten tartotta a zárószavazását az EU újabb, korszakalkotó jogszabályának, az AI Act-nek, mely a nevéből adódóan a mesterséges intelligencia megoldások működését szabályozza a nemzetközösségen belül. Magas kockázatúnak számítanak a kritikus infrastruktúrák, az oktatás és a szakképzés, a foglalkoztatás, az alapvető magán- és közszolgáltatások (pl. egészségügyi és banki szolgáltatások), a bűnüldözés, a migráció és a határigazgatás területén, valamint az igazságszolgáltatásban és a demokratikus folyamatokban (pl. a választások befolyásolására) használt mesterséges intelligencia alkalmazások. A rendelet célja emellett, hogy a mesterséges intelligencia működését érthetőbbé és transzparensebbé tegyék az üzemeltetők, beleértve ebbe a manipulált tartalmak jelölésének kötelezettségét.
Ha az EU szabályozói a Sorát magas kockázatú technológiák közé sorolják, a képzési adatokkal kapcsolatos információk hiánya kockáztatja azt is, hogy a cég nem tesz majd eleget az AI Actben előírt átláthatósági kötelezettségeknek, ami súlyos jogi és reputációs következményekkel járhat.
A generatív mesterséges intelligencia eddig felismert alapproblémáira – például a hallucináció jelenségére, a modellek üzemeltetésének hatalmas energia- és erőforrás-igényére, valamint a képzési modellek forrásainak átláthatóságának biztosítására egyelőre nincsenek megoldások, és a cégek sem tudnak előállni pontos információkkal, ahogy a nemrég készült interjú is mutatja. Az iránymutató cégek, mint az OpenAI kommunikációja javarészt arra épül, hogy a jövőben mire lesz képes az MI, nem pedig a jelen időre, ami azt az érzést keltheti, hogy ezerrel dübörög a marketinggépezet, ám a hangzatos szavak nem adnak valódi válaszokat a legfontosabb kérdésekre.