:

Szerző: Hlács Ferenc

2015. december 17. 11:41

Algoritmussal vadászik a felejthető képekre az MIT

A képek emlékezetességét mérő algoritmussal rukkoltak elő az MIT kutatói. A későbbiekben alkalmazás formájában is megjelenő, MemNet névre keresztelt megoldást a szakértők számos felhasználási területre alkalmasnak látják, többek között a vállalatok logóinak megtervezésében is segíthet.

Egészen egyedi oldalról közelíti meg a gépi képfeldolgozást az MIT (Massachusetts Institue of Technology) új algoritmusa: az intézmény számítástechnikával és mesterséges intelligenciával foglalkozó CSAIL (Computer Science and Artificial Intelligence Lab) részlegének új fejlesztése képes megállapítani egy-egy képről, hogy az mennyire emlékezetes - méghozzá az emberéhez hasonló pontossággal.

A MemNet algoritmus gépi tanulásra épít, azt a fejlesztők több tízezer kép elemzésével képezték ki, többek között a hatvanezer, kiterjedt metaadatokkal ellátott képet tartalmazó LaMem adatbázis bevetésével. Utóbbi a képek megszokott adatai mellé olyan információkat rendel, mint azok általános népszerűsége vagy érzelmi hatása.

Ünnepi mix a bértranszparenciától a kódoló vezetőkig

Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.

Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.

Az emberi viszonyítási alaphoz a szakértők az Amazon Mechanical Turk crowdsourcing szolgáltatását vették igénybe, amely kifejezetten népszerű a hasonló projektek során, két évvel ezelőtt kanadai kutatók például az emailezők személyiségjegyeinek behatárolásához vetették be. A platformon keresztül a szakértők most mintegy ötezer emberrel nézették meg a LaMem képeit: a tesztalanyoknak egy gombot kellett megnyomniuk mikor úgy gondolták, korábban már látott képet kaptak. Egy képre a kutatók átlagosan nyolcvan különböző személy értékelése alapján osztottak ki az emlékezetességet értékelő pontszámot - az algoritmus és az emberi elemzők eredményei mindössze néhány százalékpontos eltérést mutattak.

A szoftver működése kapcsán egyébként különösen érdekes, hogy az még az algoritmus fejlesztői számára sem teljesen átlátható. A projekt egyik vezetője, Aditya Khosla a TechCrunch-nak nyilatkozva elmondta, a gépi tanulásos algoritmusok bár rendkívül hatékonyak és jelen esetben sikeresen azonosítják azokat a mintákat, amelyek alapján behatárolható, hogy egy-egy kép mennyire hagy mély nyomot a megtekintőben, hátrányuk viszont, hogy meglehetősen nehéz bepillantást nyerni pontos működésükbe. A kutatók kezdeti elemzései szerint az emberi testrészek, arcok sokat nyomnak a latban emlékezetesség terén, sok tájkép azonban felejthetőnek bizonyult.

A megoldás emellett értelemszerűen gyengébben teljesít azokon a területeken ahol még képzetlen, például a logók vagy hasonló grafikák terén. Khosla szerint ez a következő terület amelyre kiképeznék az algoritmust, amelyet egyébként a jövőben kereskedelmi felhasználásra is szánnak. A vállalati logók, emblémák terén nem nehéz meglátni, miért is lehetne hasznos egy hasonló megoldás, a szakértők későbbi terveiben ennek megfelelően a szoftver specifikus iparágakat célzó verziói is szerepelnek.

A kutatók egy MemNet alkalmazás kiadását is tervezik, amely a megadott képeken kvázi hőtérképszerűen jelöli majd, mely részek izgalmasabbak és melyek felejthetők. Az app az elképzelések szerint ennek megfelelően homályosíthatná vagy el is tüntethetné az érdektelenebb területeket, hogy előtérbe hozza az emlékezetes képrészeket. Hosszabb távon a szakértők továbbá akár olyan funkciókat is el tudnak képzelni, amelyekkel automatikusan változtatható lenne egy-egy kép emlékezetessége, különböző elemek elvételével vagy hozzáadásával - ez persze kifejezetten bonyolult feladat, hiszen a hozzáadott objektumoknak passzolniuk kell a meglévő környezethez, ami újabb kört jelent a gépi tanulásos rendszer számára.

A MemNet demója online már kipróbálható, az érdeklődők a projekt kapcsolódó weboldalára tölthetik fel képeiket, az elemzéshez.

a címlapról