Szövegből generál videót az OpenAI új nagy dobása
A ChatGPT-tulaj még távolabb evez a generatív szolgáltatások területén, a Sora nevű MI-modell az eddig létező technológiákat is túlszárnyalhatja az eddigi mintavideók alapján.
Miután a képgenerátorok és chatbotok már utat találtak maguknak a fogyasztói és üzleti világba, a generatív MI következő lépcsőfoka a videós tartalmak készítése, ami jelentős fejlődésen ment keresztül az elmúlt két év során. A Google 2022-ben mutatta be első képszintézis modelljét, az Imagen Videót, ami rövid, 1280 x 768-as videóklipeket generál szöveges promptokból, hullámzó minőségű eredményekkel, idén januárban pedig bemutatkozott a Lumiere. Tavaly márciusban pedig a Runway startup állt elő a Gen2 videószintézis-modellel, ami kétperces klipeket tud készíteni. A Stability AI is adott ki saját terméket, a Stable Video Diffusiont. Közös azonban az eddigi technológiákban, hogy egyelőre korlátozottak a képességeik, az előállított videó minősége, vagy hossza limitált.
Ebbe a sorba csatlakozik az OpenAI, ami a januári híreszteléseket követően hivatalosan is bejelentette saját mozgóképek előállítására képes MI-modelljét, a Sorát (japánul: égbolt). A ChatGPT-hez hasonlóan transzformer architektúrát használó diffúziós MI-modell, a Sora működése meglehetősen többrétű: nem csak egyszerű szöveges promptokból tud előállítani nagyfelbontású videoklipet, de dolgozni tud állóképekből, illetve már meglévő videók képkockáit töltheti ki. Ezek viszont egyelőre legfeljebb egyperces videók.
OpenAI Sora in Action: Tokyo Walk
Még több videóÜnnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
A modellhez eddig csak tesztelők kisebb csoportja férhetett hozzá, akik többek közt olyan szempontokat mérlegeltek a használat során, mint a dezinformáció és az elfogultság jelenléte. A cég egyelőre nem tett közzé elérhető, vagy kipróbálható szolgáltatást a honlapján közzétett 10 mintán túl, és a technológiát részletező műszaki dokumentumot is a jövő hét folyamán tervezi majd közzétenni. Hogy nyilvánosan mikor válik hozzáférhetővé, nem tudni, egyelőre a bejelentéssel együtt a külsős biztonsági tesztelők tágabb köre fogja elérni a megolfást.
Az első szakértői vélemények szerint az OpenAI-nak tényleg sikerült jelentős minőségjavulást elérnie, a mintavideók nagy felbontásúak és tele vannak részletekkel. Egy tokiói utcai jelenetet ábrázoló videón szemléletesen látható, hogy a Sora jól illeszti egymáshoz 3D-s térben az egyes tárgyakat. A már létező modellek egyik jellemző problémája, hogy nem tudják nyomon követni az objektumokat, így azok akár ki is „eshetnek” a látómezőből (például, ha egy teherautó elhalad egy utcatábla előtt, előfordulhat, hogy a tábla utána nem jelenik meg újra). Ezeket az eseteket is jobban tudja kezelni a Sora a fejlesztők szerint. A modell persze nem működik tökéletesen: a tokiói videón a bal oldali autók például kisebbnek tűnnek, mint a mellettük sétáló emberek.
A hasonló szolgáltatásokat övező aggályok itt is érvényesek: a videógenerátorok lendíthetnek a deepfake-ek elterjedtségén, a gépi tanulással foglalkozó Clarity szerint az MI segítségével előállított kamuvideók száma éves viszonylatban 900 százalékos növekedést mutat. Az OpenAI közleménye szerint a Sora fejlesztésével párhuzamosan készített egy detektort is, ami képes azonosítani a Sora által generált klipeket, a felismerést különböző metaadatok támogatják.