DeepSeek: Pánikra semmi ok?
Kínai fejlesztésű AI-alkalmazás rengette meg az amerikai AI-chatbotok vezető pozícióját az App Store-ban, de csak hosszútávon derülhet ki, mi is ennek a valódi jelentősége. A DeepSeek jelentős előrelépést hoz abban, hogy a meglévő AI-rendszerek olcsóbbak és hozzáférhetőbbek legyenek, de lényegében már kitalált technológiák optimalizálásáról van szó, így a vélemények megoszlanak azzal kapcsolatban, van-e oka pánikolni az amerikai fejlesztőknek.
Hétfőn a kínai DeepSeek R1 nagy nyelvi modelljére épített AI-asszisztens chatbotja megszerezte az első helyet az amerikai Apple App Store-ban az ingyen letölthető alkalmazások toplistáján, ezzel maga mögé utasítva az OpenAI ChatGPT-jét. Erre a momentumra a tőzsde is reagált: az Nvidia számára különösen szerencsétlen nap volt, mivel részvényeinek árfolyama 17 százalékot esett, amivel 600 milliárd dollár tűnt el a chipgyártó piaci értékéből. Ez egyébként az Egyesült Államok történetének legnagyobb egynapos értékvesztése egy vállalat számára. A részvényeladási hullám nyomán kialakuló felbolydulás számos kérdést hozott magával, többek közt hogy tényleg szükség van-e az iparág csillagászati finanszírozási köreire és milliárd dolláros értékelésekre, és hogy nem készül-e kipukkadni a generatív AI-lufi.
A DeepSeek körüli érdeklődés ugyan a napokban robbant, de már a hónap elején elkezdett felfutni az R1 modell bejelentésével, amely a startup állítása szerint az OpenAI o1 modelljéhez hasonlóan teljesít. A január 20-án kiadott R1 korai tesztjei azt mutatják, hogy teljesítménye bizonyos kémiai, matematikai és kódolási feladatokban valóban megegyezik az o1 teljesítményével.
Ám a többi chatbothoz hasonlóan azonban a DeepSeek chatbotjának is megvannak a korlátai: nem hajlandó a kínai elnökről beszélni, helyette másra tereli a szót, hol egyenesen cáfolja, hogy Hszi Csin-Ping egyáltalán létezik. A visszajelzések alapján még számolni kell egy hosszabb válaszadási idővel is, miközben a válaszok a hallucinációt sem nélkülözik – közel sem tökéletes chatbotról van szó, amit a fórumokon megosztott tesztekről szóló egyedi beszámolók is alátámasztanak. Ami miatt még érdemes kiemelni az R1-et a kutatók szerint, hogy az MIT licence alapján kiadott modell szabadon újrafelhasználható, azonban nem tekinthető teljesen nyílt forráskódúnak, mert a képzési adatait nem tették elérhetővé.
A szétszteroidozott diversity alkonya Évtizedekben mérhető folyamatokat nem lehet profitorientált cégek asszisztálásával pár év alatt lezavarni, DEI csomagolásban.
A legélénkebb vita arról zajlik, hogy az olcsó kínai AI-modell megjelenése valóban megváltoztatja-e az eddigi verseny dinamikáját. Casey Newton, a Platformer technológiai hírlevél szerzője szerint érdemes figyelembe venni, hogy egyelőre nem tudni, mi lesz hosszútávon a DeepSeek stratégiája. A startupot 2023-ban alapította Liang Wenfeng, a High-Flyer fedezeti alap társalapítója. A DeepSeek szerint a legújabb AI-modelleket az Nvidia gyengébb teljesítményű Nvidia H800-as (csökkentett képességű) chipjeiből építették, amelyek nincsenek tiltva Kínában – ez pedig arra utal, hogy a csúcstechnológia nem feltétlenül szükséges az AI fejlesztéshez.
A DeepSeeknek jelenleg nincs kiforrt üzleti modellje. A legtöbb nagy amerikai AI-laboratórium számára az ideális megoldásnak eddig a szolgáltatásfejlesztés és annak nyereséges értékesítése tűnik a járható útnak. A DeepSeek jelenleg meglehetősen altruista, könnyen hozzáférhető technológiával, de ez bármikor változhat: a startup idővel előfizetéseket vezethet be, vagy új korlátozásokat állíthat be a fejlesztői API-kra. Sejtések szerint nincs kizárva, hogy a vállalat később akár átveheti a felhasználói adatokat, hogy azok a fedezeti alaphoz kerüljenek. Jun Rong Yeap, az IG Asia munkatársa szerint is csak hosszabb távon fog kiderülni, hogy a DeepSeek életképes, olcsóbb alternatívának bizonyul-e, a fő aggodalom épp ezért, hogy az amerikai technológiai óriáscégek árképzési ereje nem kerül-e veszélybe.
Newton kiemeli, hogy kevesebb szó esik arról, hogy a DeepSeek modelljei végeredményben mégis amerikai innovációkra építenek, hiszen az amerikai AI-laboratóriumok által kifejlesztett nagy nyelvi modellek és az újabb érvelési modellek mögöttes architektúráját alkalmazták. Az viszont vitathatatlan, hogy a startup ügyesen optimalizálta ezt az architektúrát régi hardverre és kisebb számítási teljesítményre, és hogy a nyílt forráskódú laborok sokat fejlődtek reverse-engineering terén. A fő meglepettség apropója, hogy míg az OpenAI, az Anthropic és a Google minél nagyobb összegeket tol abba, hogy fejlessze infrastruktúráit a modellek skálázásához és az ügyfelek kiszolgálásához, addig a kínaiak alternatívája állítólag az élen járó AI-fejlesztő cégek által képzésre fordított költségek töredékéből készülhetett el.
A becslések eltérnek azzal kapcsolatban, hogy mennyi lehetett a DeepSeek technológiájának pontos fejlesztési költsége és energiafogyasztása. A becslések szerint mindössze 5,6 millió dollárba került a modell betanításához szükséges hardver bérlése, míg a Meta Llama 3.1 405B esetében ez több mint 60 millió dollár, a GPT-4 képzésére költött 100 millió dollárról nem is beszélve. Egyes kutatók szerint ez a momentum egyébként már előre sejthető volt: mármint hogy nyílt forráskóddal foglalkozó vállalatok visszafejtik a nagy laboratóriumok munkáját, és törvényszerűnek tekinthető az is, hogy az AI-modellek képzési költsége idővel drámaian csökkenni kezd. Ethan Mollick, a Pennsylvaniai Egyetem Wharton Iskola professzora szerint egy GPT-4 szintjéhez hasonlóan teljesítő AI-modell költségei töredékére csökkentek az elmúlt 18 hónapban, akár ezred annyiba kerülhet.
Fontos beszédtémaként merülhet fel, hogy a DeepSeek egy szót sem ejt a biztonságról, egyesek azt is meglepőnek találnák, ha lenne kifejezetten etikai és biztonsági kérdésekkel foglalkozó kutató a csapatban. A gyors növekedést és fejlesztést pártoló kínai cégek láttán elképzelhető, hogyaz amerikai vállalatok is sarokba dobják a biztonsági erőfeszítéseket, vagy legalábbis kevesebb erőforrást fordítanak rá a jövőben. Mindeközben az AI legfontosabb biztonsági problémái még megoldatlanok. A Biden-adminisztráció néhány enyhe korlátozást már bevezetett korábban az amerikai AI-laboratóriumok munkájára vonatkozóan egy végrehajtási rendelettel, amit Trump már az első napon hatályon kívül helyezett.
Szankciók kudarca?
A kínai alternatíva még egy fontos témát vet fel: mindezt annak ellenére sikerült ezt elérni, hogy az USA évek óta aktívan próbálja elvágni Kínát a kulcsfontosságú amerikai technológiáktól. Ezért a DeepSeek példáját látva többek állítják, ez a stratégia nem használ, sőt kontraproduktív, mivel a kínai kormányzat még aktívabban áll be a helyi fejlesztések mögé.
Ezen gondolat alátámasztásául említhető még az elmúlt évekből, hogy a Huawei sem adta fel, és piacra dobta a Mate 60 okostelefont, miközben a TikTok, a Shein és a Temu mind domináns versenyzőkké váltak a saját piacukon, szintén a kínai szolgáltatások erejét mutatva. Az elmúlt hat évben kivetett vámok, szankciók és exportkorlátozások ellenére Kína domináns szereplő tud maradni a legtöbb iparban. Ugyan az USA sikeresen őrzi saját piacát, de ettől még más országokban egyre többen vezetnek kínai elektromos autókat, használnak kínai appokat és szolgáltatásokat.
Az egyik oldal szerint tehát a Biden-adminisztráció chipexportra vonatkozó korlátozásai kudarcot vallottak, az ellenoldal szerint azonban ezt nem lehet így határozottan kijelenteni, mivel az exportellenőrzések viszonylag újak – több időre van szükség, hogy valódi hatásuk érezhető legyen. Az exportellenőrzések elsődleges hatása az lehet a későbbiekben, hogy Kínának összességében még mindig kisebb számítási teljesítménye van, mint az Egyesült Államoknak, ebből kifolyólag még egy fejlett AI-modell esetén sem biztos, hogy sikerülhet olyan széles körben bevezetni és üzemeltetni saját technológiájukat, mint ahogy szeretné.