Hibamegoldásban még gyengék a kódoló AI-modellek
A Microsoft felmérte, mennyire megbízhatók a legfejlettebb modellek, ha a debuggolás folyamatáról van szó. Ugyan az eredmények nem feltétlen meglepők, a tanulmány a korábbinál részletesebb betekintést nyújt a főbb problémákba.
Az OpenAI, az Anthropic és más vezető AI-laboratóriumok kódolást segítő eszközeit már aktívan használja a fejlesztők jelentős része a monotonabb kódolási feladatokhoz. A Google tavaly év végén számolt be arról, hogy a termékeihez írt új kódok 25 százalékát, tehát körülbelül a negyedét már AI-rendszerek generálták, természetesen mérnökök felülvizsgálata mellett. Nem csak a Google-nél gyorsítják fel a fejlesztők a folyamatokat ilyen módon: a Stack Overflow 2024-es fejlesztői felmérése szerint a válaszadók több mint 76 százaléka használ vagy tervez használni a jövőben AI-eszközöket a fejlesztési folyamathoz az évben, 62 százalékuk pedig már aktívan használ is valamilyen megoldást.
A legfejlettebbeknek számító modellek azonban még döcögősen birkóznak meg a különféle szoftverhibák keresésével és megoldásával, melyek a tapasztaltabb fejlesztők számára nem okoznak különösebb nehézséget – derül ki a Microsoft Research friss kutatásából. A redmondi cég kutatási-fejlesztési divíziója szerint az Anthropic Claude 3.7 Sonnet és az OpenAI o3-mini egyelőre nem képesek debugolni a hibák jelentős részét az SWE-bench Lite benchmark alapján. A tanulmány szerzői kilenc modellt teszteltek egy promptalapú AI-ügynökkel, melynek hozzáférése volt számos debugging eszközhöz, köztük a Python debuggerhez. Az ügynöknek 300 különféle feladatot kellett elvégeznie az SWE-bench Lite hibakeresési feladatainak halmazából.
Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez Ezúttal egy mindenki számára kötelező, de laza jogi különkiadással jelentkezünk. Ennyi a minimum, amit munkavállalóként illik tudnod.
Az ügynök még a leghatékonyabbnak mondható modellekkel dolgozva sem tudta megoldani elégségesen az összes feladat közel felét. A legjobban a Claude 3.7 Sonnet dolgozott, 48,4 százalékos arányban teljesített sikeresen, amit követett az OpenAI o1 (30,2%) és az o3-mini (22,1%). Egyes modellek nehezen tudtak használni a rendelkezésükre álló hibakereső eszközöket, vagy megérteni, hogy az eszközök miként segíthetnének a különböző problémákban.
Az eredményeket leginkább az adathiányra lehet visszavezetni a szerzők szerint: a jelenlegi modellek képzési adataiban nincs elegendő adat az embereket jellemző szekvenciális döntéshozatali folyamatok reprezentációjához. A későbbiekben azonban további képzés és finomhangolás útján a modellek sokkal interaktívabb és sikeresebb debuggerekké válhatnak.
Az eredmények ismét arra emlékeztetik a fejlesztőket, hogy a laboratóriumok merész kijelentései ellenére az AI egy ideig még biztos nem fogja leváltani a humán szakértőket kódolás terén. A megállapítások nem is feltétlen megdöbbentőek, mivel számos korábbi tanulmány rávilágított már, hogy a kódgeneráló eszközöknek vannak gyenge pontjaik, például a programozási logika megértésének képessége, de a Microsoft áttekintése a korábbinál részletesebb betekintést nyújt ebbe a területbe is.
Az AI toolokat aktívan használó fejlesztőkkel egy éve bővebben is beszélgettünk tapasztalataikról a HWSW Krafti 30. adásában, mely itt hallgatható.