Nyílt forráskódú nyelvi modellt tett közzé az Apple
Végponti eszközökön futó LLM-et tett közzé a cupertinói óriás az Hugging Face Hubon, nyolc változatban.
A nem éppen nyitottságáról ismert Apple generatív AI-modellt jelentett be OpenELM (Open-source Efficient Language Model) néven, ami részben felülmúlja a nyilvános adathalmazokon kiképzett más kis méretű modelleket. A cupertinói cég a nyitottságot olyan értelemben komolyan veszi, hogy nem csak a modellt, de annak képzési és értékelési keretrendszerét is közzéteszi, a képzési naplókkal, ellenőrző pontokkal és előzetes tanulási konfigurációkkal együtt. Az LLM összesen nyolcféle változatban, 270 millió, 450 millió, 1,1 milliárd és 3 milliárd paraméteres, négy előre kiképzett, valamint négy utasításokkal hangolható változatban érhető el.
Az OpenELM a rétegenként skálázásnak nevezett technikát használja a paraméterek hatékonyabb kiosztására a transzformátormodellben. Tehát ahelyett, hogy minden réteget ugyanakkora paraméterkészlet jellemezne, az OpenELM transzformátorrétegei eltérő konfigurációkkal és paraméterekkel rendelkeznek, ami javítja a pontosságot. A kutatók elmondása szerint az OpenELM képzési adathalmazában megtalálhatók többek közt a GitHub RedPajama, a Wikipédia, a StackExchange, a Reddit, a Wikibooks, a Project Gutenberg platformok adatai és bejegyzései.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
A nagy nyelvi modellhez kapcsolódó szoftverkiadás nem minősül nyílt forráskódúnak, az Apple egyértelművé teszi, hogy fenntartja a jogot szabadalmi kereset benyújtására, amennyiben az OpenELM-en alapuló származékos munka jogokat sért. Az OpenELM-et érdekesebbé teheti a fejlesztők számára, hogy együttműködik a gépi tanulásos műveletek futtatására készített MLX keretrendszerrel az Apple eszközein, ideális ideális mobilalkalmazásokhoz és korlátozott számítási teljesítménnyel rendelkező IoT-eszközökhöz.
Az Apple rendszerint hangsúlyozza saját fejlesztésű chiparchitektúrájának előnyeit a gépi tanulásos fejlesztésekhez, és bár az OpenELM a pontosságot mérő benchmarkokon magasabb pontszámot ért el a többi, hasonló paraméterekkel dolgozó modellnél, teljesítményben alulmarad: lassabb például az Allen Institute által is támogatott OLMo-nál (Open Language Model), és ez igaznak bizonyult az Nvidia CUDA Linux rendszeren, valamint az Apple Silicon-alapú MLX-verziós teszteknél is.
A cupertinói cég kommunikációjában azt a küldetést hangsúlyozza, hogy a modellekkel a „nyílt kutatóközösség a legmodernebb nyelvi modellekkel gazdagodik”, és hamarabb kiderülhetnek a kockázatok, torzítások a fejlesztői közösségnek köszönhetően. Persze érdemes hozzátenni, hogy ezzel az Apple is könnyebben rátalálhat a saját elképzeléseihez és terveihez illeszkedő szakemberekre, mérnökökre és kutatókra.