Nem mindenki örül az OpenAI kaparórobotjának
Webes crawlert állított csatasorba az OpenAI, ami némi módosítással távol tartható a weboldalaktól, kérdés, mennyire hatékony a védekezés.
Az OpenAI különösebb bejelentés nélkül, szép csendben útnak indította új keresőrobotját (crawler), ami a webhelyek tartalmának átfésülésével segítené a cég nagy nyelvi modelljeinek (LLM) fejlesztését. A weboldalak tulajdonosainak körében azonban hamar elégedetlenkedést váltott ki, hogy a bot elkezdte lekaparni a weboldalakon található hasznos információkat, ezért a fejlesztők a GPTBot támogatási oldalát kiegészítették a robot tevékenységét leállító megoldással, ami egy egyszerű változtatással eszközölhető az adott oldal robots.txt fájlján keresztül, vagy bizonyos IP-címek blokkolásával.
A cég szóvivője nyíltan kifejtette, hogy időszakonként nyilvánosan elérhető adatokat gyűjt az internetről a jövőbeli modellek képességeinek és pontosságának fejlesztésére, de egyértelmű útmutatót tett közzé ahhoz, hogy az üzemeltetők leállítsák a crawler hozzáférését. A keresőrobot szűri és nem gyűjt információkat olyan oldalakról, amiknek tartalma fizetőfallal védett, személyazonosításra alkalmas információkat gyűjtenek, vagy sértik az OpenAI irányelveit.
CI/CD-vel folytatódik az AWS hazai online meetup-sorozata! A sorozat december 12-i, ötödik állomásán bemutatjuk az AWS CodeCatalyst platformot, és a nyílt forráskódú Daggert is.
Bár a beállítások némi kontrollt jelenthetnek afelett, hogy ki használhatja az interneten fellelhető nyílt tartalmakat, kérdéses, hogy a GPTBot blokkolása valójában mennyire hatékony annak megakadályozására, hogy a nagy nyelvi modellekbe bekerüljenek a nem fizetős tartalmak. Az LLM-ek és a generatív MI-platformok már korábban is többek közt masszív, hatalmas mennyiségű nyilvános adatokat tartalmazó gyűjteményekből dolgoztak, ilyen jól ismert adatkészletek a Google Colossal Clean Crawled Corpus (C4), vagy a nonprofit Common Crawl gyűjteményei, amiken keresztül a lekapart adatok már eljuthattak a ChatGPT-be vagy a Google Bardba. A Common Crawl-hoz hasonló szolgáltatások tevékenysége szintén a robots.txt fájlon keresztül blokkolható.
Tavaly az Egyesült Államok fellebviteli bírósága egyértelműsítette, hogy az interneten nyilvánosan hozzáférhető adatok lekaparása nem sérti a a számítógépes csalásról és visszaélésről szóló törvényt (CFAA). Ennek ellenére a mesterséges intelligencia betanítására irányuló adatkaparási gyakorlatokat az elmúlt évben több fronton is támadás érte, júliusban két pert indítottak az OpenAI ellen. A San Francisco-i szövetségi bíróságon landoló egyik ügy szerint az OpenAI törvénytelenül másolta könyvek szövegeit anélkül, hogy beleegyezést kért volna a szerzői jogok tulajdonosaitól, egy másik vád szerint pedig a ChatGPT és a DALL-E az adatvédelmi törvényeket megsértve gyűjti az emberek személyes adatait az internetről.
A jobb időkben Twitternek hívott X, valamint a Reddit már lépéseket is tett abba az irányba, hogy korlátozza a hozzáférést a saját adatkészleteihez, előbbi korlátozta a megtekinthető tweetek számát, és ideiglenes megtiltotta a tweetek megtekintését a be nem jelentkezett internetezők számára. A Reddit a külsős fejlesztők előtt csukta be addig elérhető, adatkaparászáshoz használható API-készleteit, amik már magas díj ellenében használhatók csak.