2023. augusztus 9. 11:01

Nem mindenki örül az OpenAI kaparórobotjának

Webes crawlert állított csatasorba az OpenAI, ami némi módosítással távol tartható a weboldalaktól, kérdés, mennyire hatékony a védekezés.

Az OpenAI különösebb bejelentés nélkül, szép csendben útnak indította új keresőrobotját (crawler), ami a webhelyek tartalmának átfésülésével segítené a cég nagy nyelvi modelljeinek (LLM) fejlesztését. A weboldalak tulajdonosainak körében azonban hamar elégedetlenkedést váltott ki, hogy a bot elkezdte lekaparni a weboldalakon található hasznos információkat, ezért a fejlesztők a GPTBot támogatási oldalát kiegészítették a robot tevékenységét leállító megoldással, ami egy egyszerű változtatással eszközölhető az adott oldal robots.txt fájlján keresztül, vagy bizonyos IP-címek blokkolásával.

A cég szóvivője nyíltan kifejtette, hogy időszakonként nyilvánosan elérhető adatokat gyűjt az internetről a jövőbeli modellek képességeinek és pontosságának fejlesztésére, de egyértelmű útmutatót tett közzé ahhoz, hogy az üzemeltetők leállítsák a crawler hozzáférését. A keresőrobot szűri és nem gyűjt információkat olyan oldalakról, amiknek tartalma fizetőfallal védett, személyazonosításra alkalmas információkat gyűjtenek, vagy sértik az OpenAI irányelveit.

webcrawler

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

Ezúttal egy mindenki számára kötelező, de laza jogi különkiadással jelentkezünk. Ennyi a minimum, amit munkavállalóként illik tudnod.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez Ezúttal egy mindenki számára kötelező, de laza jogi különkiadással jelentkezünk. Ennyi a minimum, amit munkavállalóként illik tudnod.

Bár a beállítások némi kontrollt jelenthetnek afelett, hogy ki használhatja az interneten fellelhető nyílt tartalmakat, kérdéses, hogy a GPTBot blokkolása valójában mennyire hatékony annak megakadályozására, hogy a nagy nyelvi modellekbe bekerüljenek a nem fizetős tartalmak. Az LLM-ek és a generatív MI-platformok már korábban is többek közt masszív, hatalmas mennyiségű nyilvános adatokat tartalmazó gyűjteményekből dolgoztak, ilyen jól ismert adatkészletek a Google Colossal Clean Crawled Corpus (C4), vagy a nonprofit Common Crawl gyűjteményei, amiken keresztül a lekapart adatok már eljuthattak a ChatGPT-be vagy a Google Bardba. A Common Crawl-hoz hasonló szolgáltatások tevékenysége szintén a robots.txt fájlon keresztül blokkolható.

Tavaly az Egyesült Államok fellebviteli bírósága egyértelműsítette, hogy az interneten nyilvánosan hozzáférhető adatok lekaparása nem sérti a a számítógépes csalásról és visszaélésről szóló törvényt (CFAA). Ennek ellenére a mesterséges intelligencia betanítására irányuló adatkaparási gyakorlatokat az elmúlt évben több fronton is támadás érte, júliusban két pert indítottak az OpenAI ellen. A San Francisco-i szövetségi bíróságon landoló egyik ügy szerint az OpenAI törvénytelenül másolta könyvek szövegeit anélkül, hogy beleegyezést kért volna a szerzői jogok tulajdonosaitól, egy másik vád szerint pedig a ChatGPT és a DALL-E az adatvédelmi törvényeket megsértve gyűjti az emberek személyes adatait az internetről.

A jobb időkben Twitternek hívott X, valamint a Reddit már lépéseket is tett abba az irányba, hogy korlátozza a hozzáférést a saját adatkészleteihez, előbbi korlátozta a megtekinthető tweetek számát, és ideiglenes megtiltotta a tweetek megtekintését a be nem jelentkezett internetezők számára. A Reddit a külsős fejlesztők előtt csukta be addig elérhető, adatkaparászáshoz használható API-készleteit, amik már magas díj ellenében használhatók csak.

Nem mindenki örül az OpenAI kaparórobotjának

Webes crawlert állított csatasorba az OpenAI, ami némi módosítással távol tartható a weboldalaktól, kérdés, mennyire hatékony a védekezés.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

A lézerrel írt történelem

Az Intel exportjának is piros vonalat húzott az USA

Tőzsdére lépne a Figma az Adobe-üzlet kútba esése után

Nem mindenki örül az OpenAI kaparórobotjának

Webes crawlert állított csatasorba az OpenAI, ami némi módosítással távol tartható a weboldalaktól, kérdés, mennyire hatékony a védekezés.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

A lézerrel írt történelem

Az Intel exportjának is piros vonalat húzott az USA

Tőzsdére lépne a Figma az Adobe-üzlet kútba esése után

Haladékot kapott a legfontosabb kiberbiztonsági adatbázis

Szintetikus adatokat hív segítségül az Apple az AI képzéséhez

Újra fognak indulni az androidos mobilok 3 nap inaktivitás után

Haladékot kapott a legfontosabb kiberbiztonsági adatbázis

Szintetikus adatokat hív segítségül az Apple az AI képzéséhez

Újra fognak indulni az androidos mobilok 3 nap inaktivitás után