Videót generál szövegből a Google Lumiere MI-modell
A szöveges promptok alapján képeket előállító generatív mesterséges intelligencia utáni lépcsőfok a videós tartalmak készítése, ami jelentős fejlődésen ment keresztül az elmúlt két év során, a sorba csatlakozik a Google Lumiere nevű megoldása.
Mesterségesintelligencia-alapú videógenerátor modellt jelentett be a Google, amit a Weizmann Tudományos Intézet és Tel Aviv Egyetem kutatóival közösen hoztak létre. A Lumiere egy tér-idő diffúziós modell, ami egyedi architektúra segítségével egyszerre generálja a létrehozni kívánt videó térbeli és időbeli modelljét (a videóban szereplő objektumok mozgását és változását). Így ahelyett, hogy sok kisebb részletet vagy képkockát illesztene össze mozgóképpé, a teljes videót az elejétől a végéig egyetlen folyamatban hozza létre, így sokkal realisztikusabb a végeredmény a már létező megoldásokhoz képesz.
Az MI-vel foglalkozó cégek sokszor azért demonstrálják technológiáikat állatokkal, mert jelenleg még nehéz koherens, nem deformált alakú embereket generálni, amelyeknek a mozgása nem tűnik természetellenesnek. A text-to-video, tehát "szövegből videót" készítő technológia egyelőre öt másodperces,1024 × 1024 pixel felbontású tartalmakat állít elő. A keresőcég nem részletezte, honnan gyűjtötte a 30 millió videót takaró képzési adatcsomagot, melyek jellemzően 80 képkockából álló, 16 fps-es videók, de vélhetően olyan nyilvánosan elérhető videótárakon keresztül, mint a YouTube.
A felhasználási lehetőségek szélesek, a modellel nem csak szöveges promptokkal lehet létrehozni videót a semmiből, de már létező állóképet is mozgóképpé konvertál, vagy már meglévő klipeket alakít át másféle stílusú megjelenítésben referenciakép segítségével. De egyelőre csak elméleti síkon lehet erről beszélni, mert a Google nem beszélt arról, hogy a modellt mikor teszi elérhetővé szélesebb közönség számára, ha egyáltalán kikerül a kísérleti stádiumból - akkor is vélhetően fizetős szolgáltatásként válhat használhatóvá.
Googles New Text To Video BEATS EVERYTHING (LUMIERE)
Még több videóCI/CD-vel folytatódik az AWS hazai online meetup-sorozata! A sorozat december 12-i, ötödik állomásán bemutatjuk az AWS CodeCatalyst platformot, és a nyílt forráskódú Daggert is.
A kifejezetten videókat előállító generatív MI-modellek egyelőre primitívek, de az elmúlt két évben jelentős fejlődésen ment keresztül a terület. A Google 2022-ben mutatta be első képszintézis modelljét, az Imagen Videót, ami rövid, 1280 x 768-as videóklipeket generál szöveges promptokból, hullámzó minőségű eredményekkel. Tavaly márciusban pedig a Runway startup állt elő a Gen2 videószintézis-modellel, ami kétperces klipeket tud készíteni.
A Gen-1 már meglévő videók átalakítására volt csak képes, különféle szempontok és parancsok szerint dolgozott át egy 3D-s animációt, vagy okostelefonos felvételt. Ezzel szemben a fejlettebb Gen-2-nek már semmilyen alapanyagra nincs szüksége videók létrehozásához, a felhasználónak elég megadnia pár szöveges parancsot arra vonatkozóan, milyen animációt szeretne látni. Korlátai természetesen vannak a technológiának: egyelőre rendkívül rövid klipeket készít, amelyek nem fotorealisztikusak, a minőség is hagy kivetnivalót maga után, ahogy a framerate is alacsony. Ez jellemző egyébként a már elérhető többi videós generatív MI-modellre.