:

Szerző: Dömös Zsuzsanna

2025. január 24. 13:40

Operator: Bemutatkozott az OpenAI AI-ügynöke

Miután a világ három vezető AI-technológiákat fejlesztő cége is az AI-alapú ügynök felé fordult, új harcmező körvonalazódik, természetesen egyelőre még korántsem tökéletes eszközökkel, mint például az OpenAI által bejelentett Operator.

Hivatalosan is bejelentette az OpenAI az Operator névre keresztelt új szolgáltatást, ami a cég első, még kezdeti stádiumban lévő AI-ügynöke. Lényegében egy olyan asszisztensnek szánt webalkalmazás, amely böngészőn belül képes végrehajtani egyszerű feladatokat online, például kérésre koncertjegyet foglal, vagy internetes rendelést ad le több lépésen keresztül. Az Operatort egyelőre a havi 200 dollárba kerülő ChatGPT Pro amerikai előfizetői használhatják egy dedikált felületen keresztül, de a cég tervezi, hogy a jövőben szélesebb körben is kiterjeszti majd az elérhetőségét.

Jól látszik hát az irány, hogy a meghatározó szereplők nem érik be a szövegek, képek és kódok generálásával, a következő lépés a komplett cselekménysorok végrehajtására képes AI-ügynökök fejlesztése. Az OpenAI azonban maga is bevallotta, hogy az Operator még korai kísérlet fázisban jár és jó eséllyel hibázhat.

Az Operator lényegében képernyőmentéseket készít számítógép képernyőjéről, majd átvizsgálja a képpontokat, hogy a feladatokat kisebb lépésekre bontva végrehajtsa a kért műveletet. Az alkalmazás alatt a fejlett következtetési technikákkal és megerősítéses tanulással rendelkező Computer-Using Agent (CUA) nevű új modell dolgozik, amely a multimodális GPT-4o nagy nyelvi modellre lett felépítve. A fejlesztők állítása szerint az Operator felülmúlja a riválisok eszközeit, köztük az Anthropic Computer Use eszközét, ami a Claude 3.5 Sonnet modell kifejezetten egyszerű feladatok végrehajtására módosított verziója, vagy a Google DeepMind Marinert, ami a Gemini 2.0 modellen alapuló AI-ügynök.

openai

A szétszteroidozott diversity alkonya

Évtizedekben mérhető folyamatokat nem lehet profitorientált cégek asszisztálásával pár év alatt lezavarni, DEI csomagolásban.

A szétszteroidozott diversity alkonya Évtizedekben mérhető folyamatokat nem lehet profitorientált cégek asszisztálásával pár év alatt lezavarni, DEI csomagolásban.

A CUA ugyanazokkal a grafikus felhasználói felületekkel – gombokkal, szövegdobozokkal, menükkel – való interakcióra van kiképezve, amelyeket az emberek az online tevékenységek során használnak. Ez lehetővé teszi, hogy végrehajtsa azokat a feladatokat a weboldalakon, amelyeket egy egyszerű felhasználó is képes lenne a gép elé ülve, de az érzékeny bejelentkezési adatokat igénylő feladatokor mindig megerősítést kér.

Az iparági benchmark tesztek alapján a CUA magasabb pontszámokat szerzett a Computer Use és Mariner eszközök alatt nyugvó modelekkel szemben. A feladatok végrehajtásának minőségét mérő OSWorld tesztjén például a PDF-fájlok egyesítése vagy egy kép manipulálása feladatban a CUA 38,1%-ot ért el a Computer Use 22,0%-ához képest. A WebVoyager nevű benchmarkon pedig a CUA 87%-ot, a Mariner 83,5%-ot, a Computer Use pedig 56%-ot ért el.

Lényeges különbség a felhasználó gépén futó, Google Chrome-ban használható Marinertől, hogy az Operator az utasítást egy távoli böngészőnek küldi, ami az OpenAI szerverén fut, és mivel a számítások a felhőben futnak, így az Operator több feladatot képes végrehajtani egyszerre - emelte ki az OpenAI.

a címlapról