Bemutatkozott az OpenAI o3 modellje
A hagyományos benchmarkokon kimagasló pontszámokat produkál az új modellcsalád, de még túl magabiztos lenne a kijelentés, hogy sikerült megközelíteni a mesterséges általános intelligenciát.
Lényegében bombázza a bejelentésekkel a nagyérdeműt az OpenAI, a december elején kezdődött 12 napos időszakban most beszélt a legújabb o3-modellekről is, miután még csak szeptemberben, hogy előállt az o1-el. A modellcsalád elnevezésében azért ugrott rögtön a cég a hármas számra, mert így szeretné megelőzni a lehetséges védjegykonfliktusokat az O2 brit távközlési szolgáltatóval.
Az ősszel debütált úgynevezett reasoning, azaz érvelési o1 modell és az o1 mini variánsa azért jelentett újdonságot, mert az eddigiektől teljesen eltérő tanítási módszernek köszönhetően emberszerű problémamegoldó képességgel rendelkezik, azaz lényegében képes a logikus gondolkodásra: eredendően úgy tanították, hogy több időt töltsön el egy-egy probléma vagy feladat megoldásával, az eredményhez különböző utakon és megközelítésekkel jusson el és képes legyen felismerni a hibáit – ezzel pedig az összetettebb feladatok megoldásában sokkal eredményesebbnek bizonyulhat a korábbi modellekhez képest.
Az OpenAI szerint az egyelőre bevallottan kezdetleges állapotban lévő o1 már most képest a PhD-hallgatókhoz hasonló hatékonysággal megoldani bizonyos fizikai, kémiai, biológiai illetve matematikai teszteket, feladatsorokat, függvényeket. Az új modell ugyanakkor az eltérő feladatmegoldási lánc miatt lényegesen lassabban ad eredményt egy-egy komplex kérdésre, mint a korábbiak, de még mindig sokkal gyorsabb bármilyen emberi reakciónál.
Ezt fejlesztették tovább a pénteken bejelentett o3-modell esetében Sam Altman állítása szerint olyan szintre, hogy modelljeik hamarosan „a legjobb programozókat is lekörözhetik”. A meglehetősen ambiciózus kijelentés alátámasztásául egyelőre az o1 modellel való összehasonlításokkal tudtak előállni az ismertebb benchmarkokon. A hagyományosabb benchmark méréseken az o3 összességében 40 százalékkal magasabb pontszámot kapott az o1-nél, az o3 Codeforces kódolási versenyen elért 2727-es pontszám pedig magasabb, mint az OpenAI vezető kutatójáé.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
A „létező legnehezebb matematikai tesztként” hívott EpochAI Frontier Math teszten az o3 25,2 százalékot teljesített sikeresen, ami azért számot jelentősnek, mert az eddigi legjobb modellek eddig legfeljebb mindössze 2 százalékot tudtak produkálni. 87,7 százalékot sikerült mérnia GPQA Diamondon is, amely diplomás szintű kérdéseket tesz fel biológia, fizika és kémia területén.
A Stanford Egyetem áprilisi MI Index jelentése szerint az AI-modellek általánosságban gyengén teljesítenek olyan kevésbé használt teszteken, mint a tervalkotás vagy a vizuális mintafelismerő feladványok. Itt azonban sikerült lényegi áttörést elérni: a mintafelismerő ARC-AGI teszt egyik változatán az o3 normál számítási idővel 75,7 százalékot, maximális számítási idő mellett pedig 87,5 százalékot ért el, miközben az emberi teljesítmény 85 százalékos küszöb körül alakul. A kódolás mellett a tudományos területekhez kapcsolódó kérdéseket is nagyobb pontossággal válaszolja meg elődjénél az o3. Olyannyira, hogy Mark Chen kutatási igazgató szerint hamarosan nehezebb bechmarkok kidolgozásához lesz szükség ahhoz, hogy a legfejlettebb modellek közti különbségek mérhetővé váljanak.
Az o3 és az o1 újdonsága az érvelési idő „beállításának” képessége is: a modellek beállíthatók alacsony, közepes vagy magas számítási időre (azaz gondolkodási időre). Minél több időt kap gondolkodni, értelemszerűen annál jobban teljesít az o3 egy feladatban. A vállalat egyelőre csak biztonsági tesztekre bocsátja az o3-családot, ami valamikor 2025 folyamán válik elérhetővé szélesebb körben előnézeti állapotban.
Az OpenAI az o3 képességeivel kapcsolatban úgy fogalmazott, hogy „bizonyos körülmények között közelít a mesterséges általános intelligenciához (AGI)". Kardinális kérdés, hogy kijelentheti-e ezt teljes bizonyossággal a cég. Ez azt takarná ugyanis, hogy az adott modell képes minden olyan feladatot elvégezni, amire maga az ember is képes. Amellett, hogy egy nagyon merész kinyilatkoztatás, üzleti súlya is van, és inkább ez lehet fajsúlyosabb az OpenAI számára. A cég ugyanis megállapodott a Microsofttal abban, hogy ha eléri az AGI fejlettségi szintjét, többé nem köteles hozzáférést adni a redmondi cégnek a legfejlettebb technológiáihoz,.