Költséghatékony apró nyelvi modellel rukkolt elő a Microsoft
A GPT-3.5 szintjét megközelítő, hárommilliárd paraméteres kisméretű nyelvi modellt tesz elérhetővé a Microsoft a vállalatok számára.
A Microsoft bejelentette a kifejezetten okostelefonra és más helyi eszközökre optimalizált, alacsony költségekkel járó Phi-3 Mini AI-modelljét, amely a közeljövőben kiadásra tervezett összesen három Phi-3 modell egyik variánsa. A 3,8 milliárd paraméteres modellel a készítők célja, hogy a kisebb szervezetek számára olcsón tudjon alternatívát szolgáltatni a felhőalapú nagy nyelvi modellekkel (LLM) szemben azzal a rugalmassággal, hogy ideális az okostelefonokban és laptopokban megtalálható fogyasztói GPU-n vagy AI-gyorsító hardveren való futtatásra.
A redmondi cég állítása alapján az új modell felülmúlja az előző generációs, decemberben bemutatott Phi-2 teljesítményét, sőt azzal az állítással él, hogy a tízszer nagyobb modellekhez, például a GPT-3.5-höz hasonló szinten teljesít, csak kisebb méretben. Az adatkészlet a Phi-2 modellen alapul, de az interneten hozzáférhető, illetve szintetikus adatokat is hasznosít, amik szigorú szűrési folyamaton mentek át.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
A Microsoft új technológiája a különféle matematikai, programozási és akadémiai teszteken jobban teljesített a többi kisméretű modellnél (Mistral, Gemma, Llama-3-In). A kisebb adatkészlet egyik hátránya az általános, tényszerű ismeretek szélessége, de a kisebb, belsős adatkészletekkel való dolgozáshoz (akár egy szervezeten belül) ideális választás. A Microsoft reményei szerint így a kisebb büdzséből gazdálkodó vállalatok számára is hozzáférhető megoldást tud kínálni a nyelvi feldolgozást igénylő különböző alkalmazásokhoz.
A redmondi cég riválisainak többsége már rendelkezik kisebb AI-modelekkel, amelyek többsége egyszerű, specifikus feladatokhoz készült, például dokumentumok összegzéséhez, vagy kódolási segítséghez. A Google Gemma 2B és 7B-je főleg chatbotokhoz és nyelvi feladatokhoz ideális, az Anthropic Claude 3 Haikuja kutatásokat foglal össze, míg a Meta nemrég kiadott Llama 3 8B modellje szintén a kódolási asszisztenciát segíti.
A Phi-3 Mini már elérhető az Azure-on, a Hugging Face-en és az Ollamán. A Microsoft legközelebb a Phi-3 Small (7 milliárd paraméter) és a Phi-3 Medium (14 milliárd paraméter) kiadását tervezi, amelyek még több összetett utasítást képesek értelmezni.