Mennyi az annyi? Véletlenszerűen változtatja meg a személyes adatokat egy új adatbányászati szoftver
Az IBM két kutatója -- név szerint Dr. Rakesh Agrawal és Dr. Ramakrishnan Srikant -- forradalmian új eljárást fejlesztett ki, amelynek segítségével olyan adatbányászati alkalmazások készíthetők, amelyek pontos elemzésekkel szolgálnak, ugyanakkor megvédik a személyes információkat.
Bizonyára sokan találkoztak már olyan internetes kérdőívekkel, amelyek személyes adatokat -- életkort, havi fizetést vagy testsúlyt -- kértek a felhasználóktól. Sokan nem töltik ki ezeket a kérdőíveket, mások szándékosan hamis adatokat adnak meg, mert nem akarnak személyes információkat kiadni. Amennyiben egy így létrejött adattömeg alapján végez valaki felméréseket, könnyen téves következtetésekre juthat, hiszen a válaszok jelentős része eltérhet a valóságtól. Erre a problémára ad megoldást az IBM kutatói által kidolgozott módszer.
A "Privacy-Preserving Data Mining" technológia a bevitt adatok véletlenszerű megváltoztatásán alapul. Ezt az eljárást alkalmazva pontos előrejelzések és modellek készíthetők anélkül, hogy bizalmas információk jutnának illetéktelen kezekbe. Dr. Agrawal szerint a módszer széles körben alkalmazható, az e-kereskedelemtől kezdve egészen a orvosi kutatásokig.
Az eljárás működése rendkívül egyszerű. A felhasználó által bevitt adatok még elküdés előtt véletlenszerűen megváltoztatásra kerülnek. Minden egyes felhasználó adatát külön-külön változtatja meg az algoritmus, ami egyedül nem változik, az a változás mértéke.
Tegyük fel, hogy egy e-kereskedelmi weboldal a felhasználók fizetése után érdeklődik. Ha valaki megadja fizetését -- legyen ez mondjuk havi 100 ezer forint --, az algoritmus azt még elküldés előtt egy előre beállított intervallumon belül véletlenszerűen megváltoztatja. Legyen ez az intervallum +/- 30 ezer forint. Példánknál maradva a felhasználó 100 ezer forintos fizetése a változás után 70-130 ezer forint közötti értéket vehet fel.
Az adatokat elemző alkalmazásnak, illetve az azt végző cégnek vagy személynek nem kell tudnia, pontosan mekkora is a fizetése az egyes felhasználóknak, elég a megváltoztatott értékeket és véletlenszerű változtatás intervallumát ismernie, ezek alapján pontos modelleket készíthet a felhasználók adatairól anélkül, hogy személyes információkhoz jutna.
Az IBM szakemberei szerint még 100 százalékos változtatási intervallum esetén is csak 5-10 százaléknyi pontosság veszik el, miközben a felhasználók személyes adatai titokban maradnak -- hiszen el sem kerültek az adatgyűjtést végző céghez.