:

Szerző: Bizó Dániel

2008. november 28. 13:58

Kereshetővé teszi a videókat egy magyar fejlesztésű szoftver

Kereskedelmi forgalomba került a Kormányszóvivő.hu portálon is üzemelő audioindexelő motor, mely képes videofelvételek beszédanyagát kereshetővé tenni, és kulcsszavak alapján akár a video lejátszásának kezdetét is pozicionálni. A Digital Natives, mely egy magyar start-up, első körben főként a hazai médiumokat célozza meg mindroom megoldásával -- árulta el lapunknak a cég ügyfélkapcsolati menedzsere.

[HWSW] Kereskedelmi forgalomba került a Kormányszóvivő.hu portálon is üzemelő audioindexelő motor, mely képes videofelvételek beszédanyagát kereshetővé tenni, és kulcsszavak alapján akár a video lejátszásának kezdetét is pozicionálni. A Digital Natives, mely egy magyar start-up, első körben főként a hazai médiumokat célozza meg mindroom megoldásával -- árulta el lapunknak a cég ügyfélkapcsolati menedzsere.

Az alig több mint másfél évtizedes múltra visszatekintő web eredetileg szövegből, majd képekből épült fel, az elmúlt évek során azonban hatalmas audiovizuális robbanáson ment keresztül, ahogyan a sávszélesség töretlen emelkedésének köszönhetően a video- és hangállományok elárasztották a netet. Ebből következik az a természetes igény, hogy a képi és hangállományokat is strukturált formában érhessük el, és kereshessük is a tartalmukat.

Melyik híradóban beszéltek az immerziós litográfiáról?

Ennek a problémának egy részére kínál megoldást a Digital Natives mindroom fejlesztése, melynek érdekességét és piaci létjogosultságát a magyar nyelv támogatása adja, hiszen egy ilyen kis piac felett elsiklanak a globális szereplők, mondta Bárdos Kristóf account manager. A frissen piacra került termékkel a cég egyelőre elsősorban olyan médiumokat céloz meg, melyek nagyobb mennyiségű hang- vagy videoanyaggal rendelkeznek, és azt kereshetővé is kívánják tenni. Az elképzelés szerint a látogató a felvételek közt kutatva rákeres bizonyos kulcsszóra, majd egy találatra kattintva elindul a video- vagy hanglejátszás annál a résznél, ahol elhangzik a szó.

A belépési korlát minél alacsonyabbra szorítása érdekében a mindroom havidíjas szolgáltatásként érhető el, a díjazás mértéke a feldolgozott anyagmennyiségtől függ, akalkuláció alapja a feldolgozáshoz szükséges idő. Az ügyfél szervere ilyenkor a Digital Natives mindroom kiszolgálójával épít fel HTTP-kapcsolatot egy API-n keresztül, áttölti a leindexelni kívánt videókat, majd eredményként megkapja a szöveget tartalmazó XML-t, valamint egy konvertált videót. A mindroom audio- és videoformátumok rendkívül széles skáláját képes bemenetként fogadni a mindroom, a rendszer talán legnagyobb kompromisszumaként ugyanakkor egyelőre kizárólag alacsony felbontású FLV (Flash video) kimenetet képes adni, és a pozicionáláshoz is saját lejátszóra van szükség -- Bárdos ugyanakkor leszögezte, hogy hamarosan érkezik a mindroom új verziója, mely képes lesz közel HD-minőségű MP4 formátumot kiadni.

Jelenleg is van már ugyanakkor projekt alapon lehetőség arra, hogy az ügyfél által használ videolejátszót felvértezzék ezzel a képességgel, amennyiben ez technikailag lehetséges -- tette hozzá Bárdos. A jövőben nyitottak a videomegosztókkal történő együttműködésre is, bár az algoritmusnak, melyet egyébként a Budapesti Műszaki és Gazdaságtudományi Egyetemen fejlesztettek ki, rengeteget kell még fejlődnie a generikus felhasználáshoz. Igény esetén a Digital Natives médiatárhely, vagy akár médiastreaming szolgáltatást is kínál, ami elsősorban a kisebb médiumoknak lehet hasznos, így nem szükséges saját médiaszerver üzemeltetése -- igény esetén lehetőség nyílik a szoftver licencelésére, és saját szerver üzemeltetésére, a valósidejű indexeléshez elegendő bármely mai, 2,5 gigahertz feletti órajelű processzor, és 2 gigabájt memória.

A mindroom a felismerés pontosságának fokozásához tematikára építő statisztikai eszközöket és akusztikai kalibrációt is alkalmaz, azaz meg kell adni a hang- vagy videoanyag témáját, és a felvételi környezetet, például hogy híradóról, telefon- vagy stúdióbeszélgetésről van-e szó -- ez az a terület egyébként, melyre jelenleg a mindroom fejlesztései koncentrálnak. Bárdos elmondása alapján a jelenleg 75-90 százalékos precizitással dolgozik a rendszer, ami megfelelő kalibrációval és tanítással 95 százalék fölé is tornázható. Az indexelésen kívül a mindroom lehetőséget kínál a videók feliratozására is, akár többféle nyelven. A feliratok kézi szerkesztésére is lehetőség nyílik.

Új területek

A beszédfelismerés bár napjaink egy nagy érdeklődésre számot tartó területe az ember-gép interakció, az automatizáció és az adatbányászat javítására, az évtizedes kutatómunka ellenére továbbra is gyerekcipőben járnak a technikák. A Google például minden pénzügyi, mérnöki és számítástechniai erőforrása ellenére is csak az amerikai elnökválasztás alkalmával, korlátozott kísérleti jelleggel vezette be a videók kereshetőségét -- kizárólag angol nyelven, jó minőségű, artikulált és erősen tematizált beszéd esetén. Jelenleg primitív, betanított kulcsszavas utasítások jelentik az általános alkalmazási területet.

Az algoritmusok fejlődésével és a számítási teljesítmény egyre olcsóbbá válásával azonban rohamos terjedés előtt áll a beszédfelismerés alkalmazása, különösen az ügyfélkapcsolati rendszerekben. Egy másik magyar fejlesztés, mely a Nextent, leánya, a Data Research, és a Szegedi Tudományegyetem mesterséges intelligenciával foglalkozó kutatóival közösen született meg, telefonos ügyfélszolgálatok felvételeit elemzi ki tartalmilag és érzelmileg egyaránt -- ez utóbbi igazi áttörés hoz. A Voice Miner névre hallgató megoldással így a cég teljes képet kap az ügyfélszolgálat munkájáról, és gyors reakcióra képes a fontos ügyfelek megtartása érdekében. A Voice Miner által használt algoritmus kuriózuma, hogy nem stilizált, hanem élő szöveget elemez, igaz, a tartalmi felismerés itt szűk iparágspecifikus szókészletre szűkíthető.

[+] Az érzelmeket is kibányássza a telefonhívásokból egy magyar fejlesztésű szoftver

A Voice Miner hangbányászó modelljét mintegy 500 óra telefonos élőbeszéd, nem pedig előre megírt szöveg felolvasása alapján fejlesztették ki a beszélgetések felszeletelésével és a mintázatok azonosításával, mondta el Dr. Kocsor András kutató. A munkában matematikusok és programozók mellett nyelvészek és adatfeldolgozók is részt vettek. A beszédkutatás területe nem csak piaci, de tudományos szempontból is robbanás előtt áll, véli Kocsor, ugyanis a publikációk túlnyomó többsége a magas fokon stilizált szövegfelolvasásra koncentrál, és így felépített modellek nem alkalmasak a spontán beszéd elemzésére. Hatalmas potenciál lakozik például az online elréhető rádiós és televíziós adások indexelésében, jegyezte meg a kutató -- és pontosan itt rajtol a mindroom.

a címlapról