:

Szerző: Gálffy Csaba

2016. január 18. 11:41

Gigantikus gépitanulás-adatbázist ajándékoz a Yahoo

A jelenleg elérhető legnagyobb adatbázist tette nyilvánosan elérhetővé a Yahoo - jelentette be a cég múlt héten. A felhasználók hírfogyasztási szokásaira vonatkozó gigantikus adatbázis közzétételétől a cég a gépi tanulás, mint kutatási terület gyorsabb fejlődését várja.

Látványos méretű, kutatásra használható adatbázist tett elérhetővé a Yahoo. A gépi tanulásra vonatkozó kutatások egyik alapfeltétele az ilyen giga-adatbázisokhoz való hozzáférés, ilyenekkel azonban jellemzően csak a nagy tech-cégek rendelkeznek, a független kutatást végző egyetemek, kutatóintézetek ebből a szempontból hátrányban vannak. Ezt az igényt ismerte fel a Yahoo, az új adatbázissal pont ezeken az entitásokon szeretne segíteni.

Az adatbázis mintegy 110 milliárd adatsort tartalmaz, tömörítés nélkül 13,5 terabájt nagyságú. Az anonimizált adatok mintegy 20 millió felhasználó hírfogyasztási szokásaira vonatkoznak, ezeket a cég 2015 februárja és májusa között gyűjtötte a cég a Yahoo weboldalán, illetve a Yahoo News, Sports, Finance, Movies és Real Estate oldalain.

Az adatbázis roppant gazdag, vannak információk a felhasználók demográfiai adatairól (életkor, nem, lokáció), a fogyasztott tartalmak címe, kivonata és kulcsmondatai, az interakció időpontja (helyi idő szerint) és az eléréshez használt eszköz típusára vonatkozó adatok is megtalálhatóak. A cég komolyan odafigyelt arra, hogy az adatbázist anonimizálja, így bizonyos adatokat (életkor, lokáció) pontatlanabbá tett, hogy lehetetlenné tegye az egyes felhasználók beazonosítását.

Hello, itt az idei SYSADMINDAY!

Szabadtéri helyszínen idén is megrendezzük a hazai Sysadmindayt. Melós hónapok után ez egy jó lehetőség, hogy találkozzunk barátokkal, kollégákkal.

Hello, itt az idei SYSADMINDAY! Szabadtéri helyszínen idén is megrendezzük a hazai Sysadmindayt. Melós hónapok után ez egy jó lehetőség, hogy találkozzunk barátokkal, kollégákkal.

A most közzétett adathalmazt a Yahoo elsősorban ajánlórendszerek validációjához, kollaboratív szűréshez, kontextus-alapú tanuláshoz, felhasználói viselkedés modellezéséhez ajánlja. Az adatbázis kizárólag független (non-profit) kutatók tölthetik le ingyenesen, egyedi elbírálás alapján. A kereskedelmi használatot a cég tiltja, így (elvben) az adatbázis nem használható céges kutatás-fejlesztés alapjául.

A gépi tanulás egyébként az elmúlt és elkövetkező évek legforróbb tech-témája. Ez dolgozik a Google keresési találatai, a Facebook hírfolyama, a Netflix ajálórendszere, a Spotify Discover és a kedvenc webes áruházunk ajánlódoboza mögött is. De alapvetően ugyanilyen elven működnek a gépi látási rendszerek is, amelyek hatalmas adatbázisokon tanított gépekkel képesek felismerni például az utcai táblákat és egyéb jelzéseket. A kutatások "demokratizálása" így nagyon fontos kérdéssé vált: a cégek elképesztő összegeket költenek a saját adathalmazok felépítésére (lásd az utakat folyamatosan pásztázó Google-autók), emiatt csak nagyon kevés entitás engedheti meg magának, hogy versenyképes megoldást fejlesszen. A Yahoo ezt a hatást szeretné kissé tompítani, legalábbis ami a webes tartalomajánló rendszerek területét illeti.

A K8s annyira meghatározó technológia, hogy kis túlzással szinte az összes IT-szakemberre nézve karrier-releváns.

a címlapról

jogsértés

39

Bajban lehet az X az EU-ban

2024. július 12. 13:21

A Bizottság előzetes döntéshozatali eljárása szerint a közösségi platform működése több ponton is törvénysértő.