Természetesen a Meta is bejelentett egy nyelvi modellt
Nem egy konkrét eszközzel, hanem a kutatóknak szánt nyelvi modellel mutatja a befektetőknek a közösségi óriás, hogy felcsatlakozna az elmúlt hónapok során felemelkedett generatív MI trendre.
A Meta sem marad ki a Microsoft és a Google által berúgott MI-versenyből: a közösségi óriás pénteken bejelentette, hogy Fundamental AI Research (FAIR) csapata egy új nagy nyelvi modellt (LLM) fejlesztett kutatási célokra, ami később akár egy MI-rendszer alapja is lehet. Az LlaMA-nak hívott fejlesztés a Large Language Model Meta AI rövidítése, ami nem kereskedelmi licenc alatt válik elérhetővé a kutatók és kormányzati partnerek, civilszervezetek és ipari laboratóriumok számára.
A LLaMA a ChatGPT-től eltérően nem egy kereskedelmi termék, hanem egy kutatási eszköz, amit a techcég elmondása szerint abban a reményben készített, hogy „demokratizálni tudja a hozzáférést" a szakemberek számára ezen a gyorsan változó területen, és segítheti őket abban, hogy megoldást találjanak a nyelvi modellek problémáira, többek közt az elmúlt hetekben nagy visszhangot kapott elfogultságra, hallucinációra vagy hamis információkat tartalmazó eredményekre.
A nagy techóriások sorra igyekeznek lenyűgözni a befektetőket, miután a Microsoft által támogatott OpenAI tavaly novemberben a világ elé tárta a ChatGPT-t, mostanra pedig már a Google és a kínai Baidu is bejelentette saját hasonló technológiáit. A Meta szerint saját modellje „sokkal kevesebb” számítási kapacitást igényel, mint a már meglévő megoldások, és 20 nyelven képezték ki, különös tekintettel a latin és cirill ábécével operáló nyelvekre, ráadásul négy különböző méretben is elérhető, egy 7 milliárd paraméterrel dolgozó változattól kezdve a 65 milliárd paraméteresig.
CI/CD-vel folytatódik az AWS hazai online meetup-sorozata! A sorozat december 12-i, ötödik állomásán bemutatjuk az AWS CodeCatalyst platformot, és a nyílt forráskódú Daggert is.
A cég azzal a bátor kijelentéssel is él, hogy a LLaMA felülmúlhatja azokat a konkurens modelleket, amelyek modellje több paraméterrel és változóval dolgozik, a LLaMA modell második legkisebb változata, a 13 milliárd paraméterrel dolgozó LLaMA-13B szerintük hatékonyabb, mint a ChatGPT alapját adó GPT-3. Közben a legméretesebb, 65 milliárd paraméteres LLaMA-65B-t a DeepMind Chinchilla70B és a Google PaLM 540B modelekkel állítják szembe. Betanítás után a LLaMA-13B egyetlen adatközponti Nvidia Tesla V100 GPU-n is futhat, ami a kisebb intézmények számára jó hír, bár az egyéni kutatók esetében nem jellemző, hogy hozzáférnek ilyen erőforráshoz.
Később azonban több Meta-termékbe is beépülhet a generatív képesség, a közösségi óriás egyértelműen jelezte a szándékát azzal kapcsolatban, hogy a jövőben fontos szerepet kap szolgáltatásaiban a generatív MI. Hozzá kell tenni, Zuckerbergék korábban már foglalkoztak a területtel: tavaly májusban a szintén kutatóknak szánt OPT-175B nagy nyelvi modellt mutatták be, amely a BlenderBot chatbot új iterációjának alapjául szolgált, később bevezették a Galactica nevű modellt, ami tudományos cikkek írására és matematikai feladatokat megoldására képes, de ennek elérhetőségét meg is szüntették, amint kiderült, hogy egyelőre sok félrevezető információt tartalmazó eredményt generál, és korántsem működik hibamentesen.