2024. március 20. 09:10

Még az OpenAI fontos embere se tudja, honnan szedik az adatokat

Az OpenAI technológiai igazgatójával, Mira Muratival készített interjú aggasztó képet fest a világ egyik legfontosabb AI-fejlesztőjének nyíltságáról.

Újabb apropót kapott a nagy nyelvi modellek átláthatósága körül kialakult diskurzus, miután a Wall Street Journal újságírója, Joanna Stern interjút készített az OpenAI technológiai igazgatójával, Mira Muratival. A beszélgetés egyik fő témája a nemrég bemutatott, szöveges promptokból mozgóképet előállító Sora modell volt, ami videók elemzésével tanulja meg azonosítani a tárgyakat és cselekvéseket, és így képes újabb videók előállítására. (A Soráról korábban itt írtunk bővebben.) A modell képzésével kapcsolatban a technológiai igazgató annyit tudott mondani, hogy „nyilvánosan elérhető és licencelt” adatokat használtak fel.

Stern kérdésére, hogy ez alatt konkrétan a YouTube-ról származó videókat is lehet-e érteni, Murati azt válaszolta, hogy „nem biztos benne”, későbbi válaszaiban pedig rendre a „nyilvánosan elérhető és licencelt”, kissé homályos frázissal tért vissza. Az OpenAI korábban együttműködést jelentett be az egyik legnépszerűbb stockfotó szolgáltatással, a Shutterstockkal, később pedig Murati is megerősítette, hogy valóban dolgoznak a szolgáltatás adatbázisából - ami jó eséllyel csak apró szelete az interneten elérhető és ezáltal össszekaparható tartalmaknak.

A kritikusok benyomása szerint az interjúra láthatóan felkészületlenül érkező technológiai igazgató válaszai már pozíciójából adódóan is aggasztó kérdéseket vetnek fel: ha a világ egyik legforróbb MI-vállalatának technikai főembere nem tud pontos információkkal szolgálni a képzési adatokkal kapcsolatban, akkor mégis kicsoda? Az interjú során Murati nem osztott meg részletesebb technikai információkat és konkrétumokat sem, amikor a közösségi médiában és nyilvános videómegosztókról lekapart adatok felhasználásáról kérdezték.

openaimira

USA Tech Hub: ahonnan a passzátszél fúj

Minden, ami a technológiai szektorban történik, jellemzően az USA-ból indul.

USA Tech Hub: ahonnan a passzátszél fúj Minden, ami a technológiai szektorban történik, jellemzően az USA-ból indul.

Noha Murati ködös válaszait a cég kommunikációs és jogi tanácsadója is kérhette, egyes vélemények szerint elképzelhető, hogy a CTO valójában maga sem tudta a pontos részleteket, vagy még nyomasztóbb, hogy nem szerette volna nyilvánosság elé tárni azokat. Azzal kapcsolatban sem derültek még ki konkrétumok, hogy az előállított videók utómunkájában mennyi kontrollt kapnak majd a felhasználók, milyen mértékben lesznek alakíthatók az előállított mozgóképek, a cég képviselője egyelőre csak a szándékot tudta megerősíteni. Ami bizonyossá vált, hogy a Sorát még az idén, sőt „akár a következő hónapokban” tervezik szélesebb körben elérhetővé tenni, és a videókhoz hangot is lehet majd rendelni.

Murati nyilatkozata azonban mégis arra enged következtetni, hogy az OpenAI modelljeit a YouTube-on és a Facebook-videókon oktatják, ami azt jelenti, hogy a Sora nyilvános bevezetése akár még komolyabb jogi csatákat hozhat a vállalat nyakára, hiszen ha ténylegesen a YouTube és az Instagram szerzői joggal védett anyagain képzeték ki, ahhoz a készítőknek is lesz pár szava. Az amerikai szövetségi kereskedelmi bizottság (FTC) jelenleg is vizsgálja az OpenAI-t, különös tekintettel a cég képzési adatkészleteire. A nyílt és tiszta kommunikációtól való eltérés egyben felveti, hogyan tud majd megfelelni a cég az egyre szigorodó európai előírásoknak, előfordulhat, hogy az OpenAI-nak részletesebb információkat kell nyilvánosságra hoznia a Sora képzési adatkészleteiről, máskülönben a szabályozók szigorúbb fellépésére számíthat.

Az Európai Parlament a múlt héten tartotta a zárószavazását az EU újabb, korszakalkotó jogszabályának, az AI Act-nek, mely a nevéből adódóan a mesterséges intelligencia megoldások működését szabályozza a nemzetközösségen belül. Magas kockázatúnak számítanak a kritikus infrastruktúrák, az oktatás és a szakképzés, a foglalkoztatás, az alapvető magán- és közszolgáltatások (pl. egészségügyi és banki szolgáltatások), a bűnüldözés, a migráció és a határigazgatás területén, valamint az igazságszolgáltatásban és a demokratikus folyamatokban (pl. a választások befolyásolására) használt mesterséges intelligencia alkalmazások. A rendelet célja emellett, hogy a mesterséges intelligencia működését érthetőbbé és transzparensebbé tegyék az üzemeltetők, beleértve ebbe a manipulált tartalmak jelölésének kötelezettségét.

Ha az EU szabályozói a Sorát magas kockázatú technológiák közé sorolják, a képzési adatokkal kapcsolatos információk hiánya kockáztatja azt is, hogy a cég nem tesz majd eleget az AI Actben előírt átláthatósági kötelezettségeknek, ami súlyos jogi és reputációs következményekkel járhat.

A generatív mesterséges intelligencia eddig felismert alapproblémáira – például a hallucináció jelenségére, a modellek üzemeltetésének hatalmas energia- és erőforrás-igényére, valamint a képzési modellek forrásainak átláthatóságának biztosítására egyelőre nincsenek megoldások, és a cégek sem tudnak előállni pontos információkkal, ahogy a nemrég készült interjú is mutatja. Az iránymutató cégek, mint az OpenAI kommunikációja javarészt arra épül, hogy a jövőben mire lesz képes az MI, nem pedig a jelen időre, ami azt az érzést keltheti, hogy ezerrel dübörög a marketinggépezet, ám a hangzatos szavak nem adnak valódi válaszokat a legfontosabb kérdésekre.

Még az OpenAI fontos embere se tudja, honnan szedik az adatokat

Az OpenAI technológiai igazgatójával, Mira Muratival készített interjú aggasztó képet fest a világ egyik legfontosabb AI-fejlesztőjének nyíltságáról.

USA Tech Hub: ahonnan a passzátszél fúj

USA Tech Hub: ahonnan a passzátszél fúj

Szorul a hurok a TP-Link nyaka körül az USA-ban

Rövid távon nem sok jóra számít az Intel

Még az OpenAI fontos embere se tudja, honnan szedik az adatokat

Az OpenAI technológiai igazgatójával, Mira Muratival készített interjú aggasztó képet fest a világ egyik legfontosabb AI-fejlesztőjének nyíltságáról.

USA Tech Hub: ahonnan a passzátszél fúj

USA Tech Hub: ahonnan a passzátszél fúj

Szorul a hurok a TP-Link nyaka körül az USA-ban

Rövid távon nem sok jóra számít az Intel

Minden Amerikába szánt iPhone-t Indiában gyárthatnak

Teljes gőzzel fordul rá az Adobe a generatív AI-ra

A Perplexity is szívesen vinné a Chrome-ot

Minden Amerikába szánt iPhone-t Indiában gyárthatnak

Teljes gőzzel fordul rá az Adobe a generatív AI-ra

A Perplexity is szívesen vinné a Chrome-ot