Videót generál szövegből a Google Lumiere MI-modell
A szöveges promptok alapján képeket előállító generatív mesterséges intelligencia utáni lépcsőfok a videós tartalmak készítése, ami jelentős fejlődésen ment keresztül az elmúlt két év során, a sorba csatlakozik a Google Lumiere nevű megoldása.
Mesterségesintelligencia-alapú videógenerátor modellt jelentett be a Google, amit a Weizmann Tudományos Intézet és Tel Aviv Egyetem kutatóival közösen hoztak létre. A Lumiere egy tér-idő diffúziós modell, ami egyedi architektúra segítségével egyszerre generálja a létrehozni kívánt videó térbeli és időbeli modelljét (a videóban szereplő objektumok mozgását és változását). Így ahelyett, hogy sok kisebb részletet vagy képkockát illesztene össze mozgóképpé, a teljes videót az elejétől a végéig egyetlen folyamatban hozza létre, így sokkal realisztikusabb a végeredmény a már létező megoldásokhoz képesz.
Az MI-vel foglalkozó cégek sokszor azért demonstrálják technológiáikat állatokkal, mert jelenleg még nehéz koherens, nem deformált alakú embereket generálni, amelyeknek a mozgása nem tűnik természetellenesnek. A text-to-video, tehát "szövegből videót" készítő technológia egyelőre öt másodperces,1024 × 1024 pixel felbontású tartalmakat állít elő. A keresőcég nem részletezte, honnan gyűjtötte a 30 millió videót takaró képzési adatcsomagot, melyek jellemzően 80 képkockából álló, 16 fps-es videók, de vélhetően olyan nyilvánosan elérhető videótárakon keresztül, mint a YouTube.
A felhasználási lehetőségek szélesek, a modellel nem csak szöveges promptokkal lehet létrehozni videót a semmiből, de már létező állóképet is mozgóképpé konvertál, vagy már meglévő klipeket alakít át másféle stílusú megjelenítésben referenciakép segítségével. De egyelőre csak elméleti síkon lehet erről beszélni, mert a Google nem beszélt arról, hogy a modellt mikor teszi elérhetővé szélesebb közönség számára, ha egyáltalán kikerül a kísérleti stádiumból - akkor is vélhetően fizetős szolgáltatásként válhat használhatóvá.
Googles New Text To Video BEATS EVERYTHING (LUMIERE)
Még több videóA szétszteroidozott diversity alkonya Évtizedekben mérhető folyamatokat nem lehet profitorientált cégek asszisztálásával pár év alatt lezavarni, DEI csomagolásban.
A kifejezetten videókat előállító generatív MI-modellek egyelőre primitívek, de az elmúlt két évben jelentős fejlődésen ment keresztül a terület. A Google 2022-ben mutatta be első képszintézis modelljét, az Imagen Videót, ami rövid, 1280 x 768-as videóklipeket generál szöveges promptokból, hullámzó minőségű eredményekkel. Tavaly márciusban pedig a Runway startup állt elő a Gen2 videószintézis-modellel, ami kétperces klipeket tud készíteni.
A Gen-1 már meglévő videók átalakítására volt csak képes, különféle szempontok és parancsok szerint dolgozott át egy 3D-s animációt, vagy okostelefonos felvételt. Ezzel szemben a fejlettebb Gen-2-nek már semmilyen alapanyagra nincs szüksége videók létrehozásához, a felhasználónak elég megadnia pár szöveges parancsot arra vonatkozóan, milyen animációt szeretne látni. Korlátai természetesen vannak a technológiának: egyelőre rendkívül rövid klipeket készít, amelyek nem fotorealisztikusak, a minőség is hagy kivetnivalót maga után, ahogy a framerate is alacsony. Ez jellemző egyébként a már elérhető többi videós generatív MI-modellre.