AI, de jó év volt ez!
Az idei év a generatív MI berobbanásáról szól, miközben az úttörő fejlesztéseket övező heves etikai és biztonsági viták rávilágítottak a különféle szektorokban érezhető, eddig példa nélküli hatásokra. Összeszedtük, milyen előremutató fejlesztéseket hozott az év.
A Stanford Institute for Human-Centered AI (HAI) tudósai idén áprilisban megjelent kutatásukban úgy fogalmaztak a mesterséges intelligencia jelenlegi helyzetével kapcsolatban: a korábban jellemzően akadémiai környezetben hajtott fejlődés irányítását átvette az ipar, ami várhatóan már nem fog megváltozni, egyre nő az iparági szereplők dominanciája az akadémiával és a kormányzattal szemben. 2022-ben 32 jelentősebb, iparilag fejlesztett gépi tanulási modell jelent meg a szektorban, szemben a tudományos körökben kidolgozott hárommal. Ez leginkább annak tudható be, hogy egyre nő az alkalmazások erőforrásigénye, legyen szó adatokról, szakemberekről vagy számítási teljesítményről, a növekvő erőforrásigény pedig határozottan a vállalati szereplők felé tolja el az erőviszonyokat.
Ezen az úton haladt tovább a 2023-as év is, ami a nyílt forráskódú mesterséges intelligencia fejlesztésében is hozott erőlépéseket, például a PyTorch élvonalbeli nyílt forráskódú mélytanulási keretrendszer 2.0-ás kiadását, amit a Facebook AI Research laborja fejlesztett ki adattudósok, kutatók és fejlesztők számára neurális hálózatok építéséhez és képzéséhez. Mivel dinamikus számítási gráfja gyors kísérletezést és egyszerű hibakeresést tesz lehetővé, jelentősen felgyorsítja a modellfejlesztést. Az Nvidia Modulus és a Colossal AI Pytorch-alapú keretrendszerei szintén erősítésként érkeztek az ökoszisztémába.
Az olyan technológiai óriások, mint a Microsoft és a Google folyamatosan uralták a híreket, az OpenAI-jal egyetemben. A ChatGPT idén februárban lépte át a 100 millió felhasználót, ezután vált elérhetővé fizetős verziója, amivel a cég már elkezdte monetizálni a terméket. A márciusban bejelentett GPT-4, az addig használt GPT-3.5 utódja komoly aggodalmakat váltott ki, a hónap végén jelent meg az a nyílt levél, amiben a technológiai vezetők az MI-fejlesztések szüneteltetését kérték. Szintén a hónap végén Olaszország elsőként tiltotta meg átmenetileg a szolgáltatáshoz való hozzáférést fogyasztóvédelmi indokokra hivatkozva. A nyár folyamán jelentek meg az androidos és iOS-es mobilappok, és a ChatGPT beépült a Microsoft Bingbe is társalkodóként. Augusztus végén újabb fordulópontot hozott a ChatGPT Enterprise, azaz a vállalati verzió elérhetősége, szeptemberben pedig a DALL-E 3 képgeneráló modell is beépült a szolgáltatásba, ami emellett kibővült annak képességével, hogy valós időben keressen információt a weben.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
A cég számára legizgalmasabb hónap kétségkívül a november volt: a hónap elején az OpenAI megmutatta a márciusban bejelentett GPT-4 (Generative Pre-trained Transformer 4) nagy nyelvi modell utódjaként érkező GPT-4 Turbót, ami a startup eddigi legfejlettebb multimodális modellje. Sikerült jelentősen, a sima GPT-4-hez képest négyszeresére növelni a kontextusablakot, azaz hogy meddig és milyen sok információra képes visszaemlékezni a beszélgetésekből: a Turbo esetében ez 128 ezer token, ami nagyjából egy 300 oldalas könyvnek felel meg, vagyis nagyjából ilyen hosszúságú szöveget is képes feldolgozni és summázni a modell. A korábbi verziók esetében ez még eleinte 3000 szó volt. A frissített modell a függvényhívásban is jobban teljesít és pontosabban hajtja végre a megadott utasításokat. Képes kezelni a több feladatot kérő promptokat, és nagyobb valószínűséggel adja vissza a megfelelő függvényparamétereket.
Ugyanebben a hónapban robbant ki a vezetőségben támadt konfliktus, amikor Sam Altman pár nap távollét után visszatért a cég élére egy újraszervezett igazgatótanács mellett, és a Microsoft beülhetett a szervezetbe szavazati jog nélküli megfigyelőként. A fejlesztések pedig továbbra sem állnak le: már készül a GPT-5, amiről egyelőre még nem lehet tudni a műszaki jellemzőket, így azt sem, mekkorát sikerül vele előrelépnie az OpenAI-nak. A várakozások szerint az új modellre épülő chatbottal sikerülhet csökkenteni a hallucinációk és a téves információk mennyiségét, vélhetően jobb lesz a hosszútávú memóriája és a kontextuális megértés is fejlettebben működik.
A Google sem rest
A Google májusi I/O fejlesztői konferenciáján adott választ a Microsoft Bingbe épített ChatGPT-re, bejelentette, hogy fő terméke, a Google Kereső a Search Generative Experience névre keresztelt termék formájában már a felhasználók által feltett kérdésekre is válaszok tud adni a szokásos találati lista megjelenítése mellett, ekkor egyben megszűnt a Bard chatbot várólistája is. A teljesítmény és az általános használhatóság javulását az új, 540 milliárd paraméteres PaLM 2 nagy nyelvi modell (LLM) hozta el, amivel a kódolási képességekben szintén előrelépés történt: már több mint 20 programozási nyelven lett képes hibakeresésre és kódok magyarázatára a modellre épített Codey szolgáltatáson keresztül. A keresőcég szerint nem a paraméterek számával, inkább a képességekkel mérhető, mennyire fejlett egy modell, és hangsúlyozta, hogy matematikai számításokkal, illetve tudományos szövegekkel a versenytársaknál hatékonyabban dolgozik a saját megoldása.
Noha a bejelentett fejlesztések mind jelentős mérföldkőnek számítanak a Google szempontjából, a keresőóriás lényegében a versenytársak funkcióit kezdte el másolni: a Microsoft már márciusban integrálta az OpenAI DALL-E képgenerátor képességeit a Bingbe, emellett év elején megérkezett a ChatGPT bővítmény, aminek köszönhőetően a robot már naprakész információk után is képes keresni az interneten, és adott a beszélgetéseket exportáló gomb is.
Az év vége felé haladva a Google következő generációs multimodális modellje, a Gemini került a középpontba. A modell képes egyszerre kezelni, megérteni és kombinálni a különböző típusú információkat, beleértve a szöveget, kódot, hangot, képet és videót, ráadásul 32 ezres kontextusablakot használ, tehát ennyi karakterig képes "visszaemlékezni" a beszélgetés előzményeire.
A cég szerint a Gemini Ultra az első modell, amely felülmúlja a humán szakértőket az MMLU (massive multitask language megértése) terén, amely 57 tantárgy – például matematika, fizika, történelem, jog, orvostudomány és etika – kombinációját használja a problémamegoldó képességek tesztelésére. A szervezetek és vállalatok többek közt fejlettebb ügyfélszolgálati chatbotokhoz és termékajánlásokhoz használhatják az új modellt, ami segít a tartalomkészítésben is, illetve javíthatja a produktivitási szolgáltatások által kínált élményt. A fejlesztés az egyszerű fogyasztókhoz is eljut a Bard chatbot és a Search Generative Experience szolgáltatásokba beépülve, a Bard már a napokban megkapta a Gemini Pro modellt, a jövő év későbbi részében pedig elérhetővé válik a Gemini Ultra-ra építő Bard Advanced kiadása.
Llama-Drama
A Meta a júliusban bemutatott, 70 milliárd paraméterrel dolgozó Llama 2 „nyílt forráskódúként” való jellemzése éles vitát váltott ki a fogalom valódi jelentéséről, mivel a modell méretbeli korlátai kérdőjelet raknak a nyitott jelző után. A cég júliusban tette elérhetővé a modell kereskedelmi célú változatát, így a startupok és más vállalkozások egy hatékony, ingyenes alternatívát kaptak a kezükbe az OpenAI és a Google Bard költséges megoldásaival szemben. A nyílt forráskóddal a cég eltérő hozzáállást mutat a versenytársakhoz képest, többek közt a ChatGPT-t fejlesztő OpenAI sem tette széles körben elérhetővé mások számára saját modelljét. Zuckerberg szerint a nyílt forráskód fő előnye, hogy hajtja az innovációt annak révén, hogy több fejlesztő építkezhet a technológiából.
A források szerint a közösségi óriás utána az OpenAI GPT-4 technológiájával megegyező fejlettségű nagy nyelvi modell (LLM) betanítását szeretné megkezdeni 2024 elején. Az eddigi elmondások alapján a szolgáltatással elsősorban a vállalkozásokat céloznák meg, akik szövegek és elemzések generálásához használható eszközöket építhetnének a Meta alapjára.
A nyílt forráskód előnye, hogy könnyebben adaptálható, alacsonyabb költségekkel járó eszköz a cégek számára, ezzel szemben egyre gyakrabban megfogalmazott kritika, hogy könnyebbé teszi a rosszindulatú felhasználást, legyen szó dezinformáció terjesztéséről, vagy szerzői jogokat sértő tartalmak előállításáról. A Metának erős versennyel kell szembenéznie, a fejlesztés alatt álló modell nem biztos, hogy csökkenti a jelentős lemaradást, a vállalat jelentősen kevesebbet áldoz kutatásra és befektetésekre ilyen téren.
Ezzel egy időben az Anthropic bemutatta a 2,5 billió tokenből álló Claude2 chatbot első fogyasztóknak szánt előfizetői szintjét, amit a ChatGPT ígéretes riválisaként mutatott be. Míg a ChatGPT 3000 ezer szó összegzésére képes, addig a Claude 2 esetében ez 75 ezer szó, mivel az alatta dolgozó nyelvi modell kontextus-ablaka több tokenből áll. A cég más téren is fűződik az OpenAI-hoz, lévén annak volt kutatási vezetői alapították 2021-ben, az ötlet mögé pedig beállt a többek közt befektetőként a Google, a Zoom, a Salesforce, a Sound Ventures is, eddig összesen 2,7 milliárd dollárral.
Nem meglepő, hogy a startup az Amazon figyelmét is felkeltette, az e-kereskedelmi óriás első körben 1,25 milliárd dollárért vásárolt kisebbségi részesedést a vállalkozásban, illetve stratégiai együttműködést kötött a startuppal, ami a Google Bardhoz és a Microsoft által támogatott OpenAI-hoz hasonlóan mesterséges intelligencián alapuló, szövegelemző chatbotokat fejleszt. Az ügylet részeként az Amazon közölte arra vonatkozó szándékát, hogy a későbbiekben akár összesen 4 milliárd dollárra (kb. 1,47 ezer milliárd forint) növelheti a befektetéseket. Az Amazon Anthropicba való befektetése a felhőpiacon vezető Microsoft stratégiáját tükrözi, ami 2019-ben tolt bele egymilliárd dollárt az OpenA-ba. A redmondi cég azóta 10 milliárd dollárra tornázta az összeget, és saját termékeibe, így a Bing motorba is elkezdte integrálni a technológiát.
Művész és kóder leszel, kis Balázs
A kreatív területeken is sorra jöttek az újabb eszközök. A Google Research bemutatta a MusicLM transzformátor-alapú szöveg-audió modellt, amely különféle műfajok, hangszerek és koncepciók szerinti zeneszámok előállítására képes, a Baidu kutatói pedig bejelentették az ERNIE-Music-ot. A grafikai és tervező szoftverekben élen járó Adobe márciusban jelentette be Firefly nevű MI-eszközét, amivel a felhasználók szöveges parancsok segítségével módosíthatnak egyes képrészleteket. Míg a ChatGPT és a főleg szöveget generáló szolgáltatások esetében a fő etikai probléma a hallucináció jelensége és a dezinformáció, addig a képalkotó technológiák terepén, mint a DALL-E vagy a Stable Diffusion azzal kapcsolatban a legélénkebb diskurzus, hogy a modelleket valódi művészek alkotásain képzik ki, így a fejlesztők mások szellemi tulajdonát használhatják fel újabb tartalmak generálására.
Mivel a modellt az Adobe Stock szolgáltatáson belül elérhető képeken képezték ki, így a vállalatnak nem nagyon kell aggódnia a szerzői jogok miatt ilyen szempontból, mivel a Stock szolgáltatást igénybevevő művészek már egyébként is kereskedelmi kapcsolatban állnak a céggel. Májusban a kreatív mesterséges intelligencia területén a Midjourney 5.1 hozott frissítést, miközben a Stability AI kiadta a StableStudio-t, a Dreamstudio képgeneráló eszközkészletének nyílt forráskódú változatát. Az Adobe generatív mesterséges intelligencia funkciói megjelentek a Photoshopban.
Augusztus fordulópontot hozott, amikor egy amerikai kerületi bíró, Beryl A. Howell úgy határozott, hogy a mesterséges intelligencia segítségével generált műalkotásokat nem illeti meg a szerzői jog, a szövetségi bíróság így az Egyesült Államok Szerzői Jogi Hivatala (USCO) mellé állt. Így ez lett az első olyan bírósági döntés az országban, ami határt szab a mesterséges intelligencia által generált műalkotások jogi védelmére vonatkozóan.
Közben a Google a Workspace produktivitási szolgáltatásaiba is beépítette a generatív képességeket, többek közt a Dokumentumokba és a Gmailbe, a Microsoft pedig elindította az MI-vel turbózott 365 Copilotot. A Microsoft alá tartozó GitHub piacra dobta mesterséges intelligencia-alapú kódoló asszisztensét, a Copilot X-et. November végén érkezett a kifejezetten nagyobb szervezetek számára szánt Copilot Enterprise csomag, ami a fejlesztői kollaborációs platform összes Copilot-képességét kombinálja nagyobb személyreszabhatóság mellett. Az új eszközzel a vállalatok a saját teljes kódbázisukat szolgáltathatják kontextusként a generatív MI-nek, ami pontosabb javaslatokat tud tenni a kódolás során. A Copilot Enterprise lehetővé teszi fejlesztői csapatai számára, hogy gyorsan hozzáférjenek a kódbázishoz, átkutassanak és összeállítsanak dokumentációt, javaslatokat kapjanak belső és privát kódon alapulóan.
A Samsung novemberben bejelentette a mobilalkalmazásokhoz szánt új MI-rendszerét, a Samsung Research által fejlesztett Gausst, aminek egyik része a Samsung Gauss Language generatív nyelvi modell, ami többek közt e-mailek írásában és fordítási feladatokban segíti a felhasználókat az okostelefonokon, illetve a cég tájékoztatása szerint a „felhasználói élményt javítja az intelligensebb eszközvezérléssel”. A csomag része ezen felül a fejlesztők dolgát interaktív felületen megkönnyítő Samsung Gauss Code kódolóasszisztens, valamint a Samsung Gauss Image képgeneráló lesz, utóbbi abban is segít, hogy alacsony felbontású fotóból magas felbontású képet készítsen. A frissen bejelentett eszközöket a Samsung egyelőre belsősök közt teszteli, a technológia valamikor 2024-ben érkezik meg a felhasználókhoz.
Mit hoz a jövő?
A szakértők leginkább az ember és az MI közti együttműködési kapcsolat jellegét hangsúlyozzák, miszerint a különféle generáló eszközök inkább kiegészítő eszközként segíthetik a különböző alkotói-kódolói, tartalomelőállítói munkát, nem pedig helyettesítő eszközről van szó. Az egész évet végigkísérték a különféle jogi és etikai aggályok, miközben a megoldásokat kínáló keretek még alakulóban vannak.
Szabályozás terén az Európai Unió állt élre az AI Acttel: december elején megszületett a politikai konszenzus az új mesterséges intelligencia rendeletről (AI Act, azaz AIA), melynek előkészítése már jóval azelőtt, 2021-ben elkezdőfött, hogy a ChatGPT-hez hasonló nagy nyelvi modellek és eszközök komolyabb áttörést értek volna el vagy egyáltalán megjelentek volna. Ezzel az EU elsőként szabályozhatja ezt az utóbbi egy-két évben a döntéshozókat, politikusokat, jogászokat és technológiai szakembereket egyaránt komoly kihívás elé állító területet. Az AIA a 2021-es bizottsági előterjesztéshez képest alapjaiban keveset változott, így megmaradt a mesterséges intelligencia rendszerek alapvető kategorizálása, mely különböző kockázati besorolások alapján rendszerezi az MI-alapú megoldásokat, erről korábban itt írtunk bővebben.
A jogszabály a fentieken túl pontosan megnevezi, hogy a rendvédelmi szervek mely esetekben használhatnak mesterséges intelligenciát a felderítési, nyomozati szakaszokban. A tagállamok és a Parlament konszenzusa alapján a rendőrség és a szakszolgálatok kizárólag emberrablás, embercsempészet és szexuális kizsákmányolás valamint áldozatainak felkutatására, valamint terrorcselekmények megakadályozására használhatják a biometrikus adatokat (elsősorban képmást) feldolgozó mesterséges intelligencia megoldásokat. Engedélyezett emellett a mesterséges intelligencia használata néhány, különösen nagy súlyú bűncselekmény (pl. gyilkosság, emberrablás, fegyveres rablás, bűnszervezet irányítása és abban való részvétel illetve környezeti bűnözés) gyanusíttottjainak felkutatásához is.
Közben az Egyesült Államok és Kína agresszíven fektetett be a mesterséges intelligencia kutatásába és fejlesztésébe, miközben az USA megőrizte vezető szerepét az innovatív mesterségesintelligencia-technológiák terén, Kína pedig infrastruktúrában erősített. Mindkét nemzet egyre inkább a nemzetbiztonság kulcsfontosságú elemeként tekint az MI-re, integrálva azt a védelmi stratégiákba, ezért fokozódik az aggodalom ilyen téren is a fegyverkezési versennyel kapcsolatban.