Bemutatta az Alibaba a Qwen3 modelleket
A kínai kereskedelmi óriás Alibaba bejelentette új generációs nyílt forráskódú mesterséges intelligenciáját, a Qwen3-t családot, ami egészen pontosan nyolc különböző méretben érhető el.
A kínai Alibaba hétfőn bejelentette a Qwen3 AI-modell családot, mely állítása szerint teljesítményben túlszárnyalja a rivális Google és OpenAI jelenleg létező legjobb modelljeit is. A Qwen3 család egyes modellvariánsai a Hugging Face és a GitHub fejlesztői platformokon lesznek letölthetők nyílt licenc alatt, méretük 0,6 milliárd – 235 milliárd paraméter közt terjed. A Qwen3 variánsok hibrid modellek, egészen pontosan nyolc különböző változat készült el: 6 úgynevezett dense modell (sima nagy modellek) és 2 Mixture of Experts (MoE), azaz “szakértői" architektúrát használó változat. Az Alibaba fejlesztői a hibrid érvelési képességgel vértezték fel a technológiájukat, ami lehetővé teszi a modellek számára, hogy ellenőrizzék magukat, hasonlóan az OpenAI o3 megoldásához hasonlóan, de több késleltetéssel.
Egyes modellek a Mixture of Experts (MoE) architektúrát is használják, ami a gépi tanulásban azt jelenti, hogy az AI-modell több specializált almodellt (szakértőket) kombinál egy átfogó rendszerbe, amivel növelhető a teljesítmény és a hatékonyság. Ezzel a feladatok több kisebb részfeladatra oszthatók, és mindegyiket a különböző feladatokra specializált szakértő hálózatok dolgoznak fel. Az úgynevezett „gating”, azaz váltó mechanizmus dönti el, hogy melyik szakértőt aktiválja adott bementre. Ez jellemzi a DeepSeek-V3 modellt is, illetve a Mixtral 8x7B-t, és a most bemutatott Llama 4 modelleket.
USA Tech Hub: ahonnan a passzátszél fúj Minden, ami a technológiai szektorban történik, jellemzően az USA-ból indul.
A Qwen3 modellek 119 nyelvet és dialektust támogatnak, és több mint 36 billió tokenből álló adatkészletre képezték ki őket (1 millió token körülbelül 750 000 szónak felel meg). Az adatokat főleg webes crawl útján, PDF-dokumentumok és szintetikus tartalmak (kódolás, matek) segítségével gyűjtötték össze a fejlesztők.
A Qwen3 modellek egyike sem haladja meg a csúcskategóriás legújabb modelleket, de számos benchmarkon ver más megoldást. A Codeforces programozási benchmarkon például a legfejlettebb Qwen3 variáns, a Qwen-3-235B-A22B éppen felülmúlja az OpenAI o3-miniét és a Google Gemini 2.5 Pro-ját, valamint a DeepSeek R1-et, de ez a modell nyilvánosan egyelőre nem érhető el. Telepítés terén a felhő és a helyi futtatás is elérhető: a Qwen3 elérhető a Hugging Face, ModelScope, Kaggle, GitHub felületén, laptopon pedig az Ollama, LMStudio, MLX, llama.cpp, KTransformers platformokat lehet használni.
A Qwen-hez hasonló, kínai fejlesztésű fejlett modellek térnyerése nagyobb nyomást helyez az amerikai laboratóriumokra, egyben arra késztette a tengerentúli döntéshozókat, hogy korlátozzák a modellek betanításához szükséges chipekhez való hozzáférést. A verseny azután kapott újabb lendületet, hogy a helyi DeepSeek startup az év elején meglepetésszerűen bemutatta nyílt R1 modellt, amivel alacsonyabb költségek mellett sikerült jó teljesítményű modellt készítenie a nyugati társak megoldásainál.
A Qwen3 szintén a nyílt forrású szellemiséget követi, ami már magában képes versenyképesebbé tenni a fejlettebb, de zárt rendszerekkel szemben. Az Alibaba példája pedig egyben azt is mutatja, hogy az OpenAI és az Anthropic már elérhető szolgáltatásai mellett a vállalatok egyre hajlamosabbak saját eszközöket is építeni.