:

Szerző: Dömös Zsuzsanna

2023. augusztus 9. 11:01

Nem mindenki örül az OpenAI kaparórobotjának

Webes crawlert állított csatasorba az OpenAI, ami némi módosítással távol tartható a weboldalaktól, kérdés, mennyire hatékony a védekezés.

Az OpenAI különösebb bejelentés nélkül, szép csendben útnak indította új keresőrobotját (crawler), ami a webhelyek tartalmának átfésülésével segítené a cég nagy nyelvi modelljeinek (LLM) fejlesztését. A weboldalak tulajdonosainak körében azonban hamar elégedetlenkedést váltott ki, hogy a bot elkezdte lekaparni a weboldalakon található hasznos információkat, ezért a fejlesztők a GPTBot támogatási oldalát kiegészítették a robot tevékenységét leállító megoldással, ami egy egyszerű változtatással eszközölhető az adott oldal robots.txt fájlján keresztül, vagy bizonyos IP-címek blokkolásával.

A cég szóvivője nyíltan kifejtette, hogy időszakonként nyilvánosan elérhető adatokat gyűjt az internetről a jövőbeli modellek képességeinek és pontosságának fejlesztésére, de egyértelmű útmutatót tett közzé ahhoz, hogy az üzemeltetők leállítsák a crawler hozzáférését. A keresőrobot szűri és nem gyűjt információkat olyan oldalakról, amiknek tartalma fizetőfallal védett, személyazonosításra alkalmas információkat gyűjtenek, vagy sértik az OpenAI irányelveit.

webcrawler

A Gitlab mint DevSecOps platform (x)

Gyere el Radovan Baćović (Gitlab, Data Engineer) előadására a november 7-i DevOps Natives meetupon.

A Gitlab mint DevSecOps platform (x) Gyere el Radovan Baćović (Gitlab, Data Engineer) előadására a november 7-i DevOps Natives meetupon.

Bár a beállítások némi kontrollt jelenthetnek afelett, hogy ki használhatja az interneten fellelhető nyílt tartalmakat, kérdéses, hogy a GPTBot blokkolása valójában mennyire hatékony annak megakadályozására, hogy a nagy nyelvi modellekbe bekerüljenek a nem fizetős tartalmak. Az LLM-ek és a generatív MI-platformok már korábban is többek közt masszív, hatalmas mennyiségű nyilvános adatokat tartalmazó gyűjteményekből dolgoztak, ilyen jól ismert adatkészletek a Google Colossal Clean Crawled Corpus (C4), vagy a nonprofit Common Crawl gyűjteményei, amiken keresztül a lekapart adatok már eljuthattak a ChatGPT-be vagy a Google Bardba. A Common Crawl-hoz hasonló szolgáltatások tevékenysége szintén a robots.txt fájlon keresztül blokkolható.

Tavaly az Egyesült Államok fellebviteli bírósága egyértelműsítette, hogy az interneten nyilvánosan hozzáférhető adatok lekaparása nem sérti a a számítógépes csalásról és visszaélésről szóló törvényt (CFAA). Ennek ellenére a mesterséges intelligencia betanítására irányuló adatkaparási gyakorlatokat az elmúlt évben több fronton is támadás érte, júliusban két pert indítottak az OpenAI ellen. A San Francisco-i szövetségi bíróságon landoló egyik ügy szerint az OpenAI törvénytelenül másolta könyvek szövegeit anélkül, hogy beleegyezést kért volna a szerzői jogok tulajdonosaitól, egy másik vád szerint pedig a ChatGPT és a DALL-E az adatvédelmi törvényeket megsértve gyűjti az emberek személyes adatait az internetről.

A jobb időkben Twitternek hívott X, valamint a Reddit már lépéseket is tett abba az irányba, hogy korlátozza a hozzáférést a saját adatkészleteihez, előbbi  korlátozta a megtekinthető tweetek számát, és ideiglenes megtiltotta a tweetek megtekintését a be nem jelentkezett internetezők számára. A Reddit a külsős fejlesztők előtt csukta be addig elérhető, adatkaparászáshoz használható API-készleteit, amik már magas díj ellenében használhatók csak.

Az üzemeltetői szakmát számos nagyon erős hatás érte az elmúlt években. A történet pedig messze nem csak a cloudról szól, hiszen az on-prem világ is megváltozott.

a címlapról