2025. január 30. 13:00

Képgeneráló modellt adott ki a DeepSeek

Hamar lépett a DeepSeek, és már be is mutatta új multimodális nagy nyelvi modelljét, a Janus-Pro-t, ami nem csak szöveget, de képet is tud generálni.

Napokkal azután, hogy a kínai DeepSeek AI chatbotja a figyelem középpontjába került, és az amerikai App Store legnépszerűbb ingyen letölthető alkalmazásává vált, a cég újabb oldalról támad. Elérhetővé vált a startup Janus-Pro nevű képgeneráló modellje, ami ezúttal olyan amerikai szolgáltatások versenytársaként indul, mint a DALL-E 3 és a Stable Diffusion. A szövegből képet generáló multimodális modell fejlesztői szerint eszközük egyenesen felülmúlja a többi hasonló szolgáltatást képminőségben és pontosságban.

Az 1 és 7 milliárd paraméteres verzióban elérhető modell architektúrája egyedi megközelítést alkalmaz, mivel külön kódolókat alkalmaz a megértési és a generációs feladatokhoz, a képeket és szövegeket egyaránt képes értelmezni és generálni. A Janus-Pro háromfázisú tréningfolyamaton ment keresztül: az első folyamatban az adaptereket és a képgeneráló modult képezték ki az ImageNet adathalmazon, hogy a modell felismerje a pixelek közti függőségeket. A folyamat második szakaszában csak szöveg-kép párokon tanították a modellt, míg a harmadik szakaszban finomhangolták az arányokat annak érdekében, hogy a multimodális, szöveges és vizuális adatok öt-egy-négy arányban legyenek kombinálva.

deepseekgenerátor

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

Ezúttal egy mindenki számára kötelező, de laza jogi különkiadással jelentkezünk. Ennyi a minimum, amit munkavállalóként illik tudnod.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez Ezúttal egy mindenki számára kötelező, de laza jogi különkiadással jelentkezünk. Ennyi a minimum, amit munkavállalóként illik tudnod.

A fejlesztők több mint 90 millió mintát dolgoztak fel, köztük képaláírások, táblázatok, diagramok és különböző dokumentumok, például a YFCC és a Docmatix adatait, ezen felül 72 millió szintetikusan előállított esztétikai adatot integráltak a modellbe, azokat egy az egyhez arányban kevertek valódi képadatokkal. A Janus-Pro a benchmark teszteken is jól szerepelt, átlagos pontszáma eléri a 64-et, ami magasnak számít, felülmúlva más olyan modelleket, mint a TokenFlow-XL, a LLaVA-v1.5–7B és az Emu3-Gen.

A szakértők szerint a Janus-Pro több szempontból is egyedi, mivel nem csak kimagasló teljesítményt nyújt, de skálázható is, illetve az optimalizált egyedi képzési stratégiája csökkentett számítási költségeket eredményez. A Janus-Pro jelenleg a Hugging Face AI fejlesztői platformról tölthető le két nyílt forráskódú változatban ingyenesen, 7 milliárd és az 1 milliárd paraméteres verziókban.

Képgeneráló modellt adott ki a DeepSeek

Hamar lépett a DeepSeek, és már be is mutatta új multimodális nagy nyelvi modelljét, a Janus-Pro-t, ami nem csak szöveget, de képet is tud generálni.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

Haladékot kapott a legfontosabb kiberbiztonsági adatbázis

Az Intel exportjának is piros vonalat húzott az USA

Tőzsdére lépne a Figma az Adobe-üzlet kútba esése után

Képgeneráló modellt adott ki a DeepSeek

Hamar lépett a DeepSeek, és már be is mutatta új multimodális nagy nyelvi modelljét, a Janus-Pro-t, ami nem csak szöveget, de képet is tud generálni.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

Haladékot kapott a legfontosabb kiberbiztonsági adatbázis

Az Intel exportjának is piros vonalat húzott az USA

Tőzsdére lépne a Figma az Adobe-üzlet kútba esése után

Szintetikus adatokat hív segítségül az Apple az AI képzéséhez

Újra fognak indulni az androidos mobilok 3 nap inaktivitás után

Ötmilliárd angol fontra perlik a Google-t a keresődominancia miatt

Szintetikus adatokat hív segítségül az Apple az AI képzéséhez

Újra fognak indulni az androidos mobilok 3 nap inaktivitás után

Ötmilliárd angol fontra perlik a Google-t a keresődominancia miatt