:

Szerző: Dömös Zsuzsanna

2025. január 30. 13:00

Képgeneráló modellt adott ki a DeepSeek

Hamar lépett a DeepSeek, és már be is mutatta új multimodális nagy nyelvi modelljét, a Janus-Pro-t, ami nem csak szöveget, de képet is tud generálni.

Napokkal azután, hogy a kínai DeepSeek AI chatbotja a figyelem középpontjába került, és az amerikai App Store legnépszerűbb ingyen letölthető alkalmazásává vált, a cég újabb oldalról támad. Elérhetővé vált a startup Janus-Pro nevű képgeneráló modellje, ami ezúttal olyan amerikai szolgáltatások versenytársaként indul, mint a DALL-E 3 és a Stable Diffusion. A szövegből képet generáló multimodális modell fejlesztői szerint eszközük egyenesen felülmúlja a többi hasonló szolgáltatást képminőségben és pontosságban.

Az 1 és 7 milliárd paraméteres verzióban elérhető modell architektúrája egyedi megközelítést alkalmaz, mivel külön kódolókat alkalmaz a megértési és a generációs feladatokhoz, a képeket és szövegeket egyaránt képes értelmezni és generálni. A Janus-Pro háromfázisú tréningfolyamaton ment keresztül: az első folyamatban az adaptereket és a képgeneráló modult képezték ki az ImageNet adathalmazon, hogy a modell felismerje a pixelek közti függőségeket. A folyamat második szakaszában csak szöveg-kép párokon tanították a modellt, míg a harmadik szakaszban finomhangolták az arányokat annak érdekében, hogy a multimodális, szöveges és vizuális adatok öt-egy-négy arányban legyenek kombinálva.

deepseekgenerátor

A szétszteroidozott diversity alkonya

Évtizedekben mérhető folyamatokat nem lehet profitorientált cégek asszisztálásával pár év alatt lezavarni, DEI csomagolásban.

A szétszteroidozott diversity alkonya Évtizedekben mérhető folyamatokat nem lehet profitorientált cégek asszisztálásával pár év alatt lezavarni, DEI csomagolásban.

A fejlesztők több mint 90 millió mintát dolgoztak fel, köztük képaláírások, táblázatok, diagramok és különböző dokumentumok, például a YFCC és a Docmatix adatait, ezen felül 72 millió szintetikusan előállított esztétikai adatot integráltak a modellbe, azokat egy az egyhez arányban kevertek valódi képadatokkal. A Janus-Pro a benchmark teszteken is jól szerepelt, átlagos pontszáma eléri a 64-et, ami magasnak számít, felülmúlva más olyan modelleket, mint a TokenFlow-XL, a LLaVA-v1.5–7B és az Emu3-Gen. 

A szakértők szerint a Janus-Pro több szempontból is egyedi, mivel nem csak kimagasló teljesítményt nyújt, de skálázható is, illetve az optimalizált egyedi képzési stratégiája csökkentett számítási költségeket eredményez. A Janus-Pro jelenleg a Hugging Face AI fejlesztői platformról tölthető le két nyílt forráskódú változatban ingyenesen, 7 milliárd és az 1 milliárd paraméteres verziókban.

a címlapról