:

Szerző: Dojcsák Dániel

2013. január 21. 10:43

A digitális kor veszélyezteti a gyenge nyelveket

Kéthetente kihal egy nyelv a földön - mondják a nyelvészek. A maradék körülbelül 4-6000 még létező nyelv közül a digitális korban még nagyon sok szívódik majd fel, a túlélésért pedig azon túl, hogy tartozik-e egy ország vagy nemzet egy nyelvhez, az is érdemben hozzájárul, hogy a digitális világban van e kellően erős lenyomata.

Az Egyesült Államok az angol nyelv mellett tette le voksát, ami az azóta eltelt időben sok könnyebbséget okozott az ország életében, igaz az ország lakosságán belül jellemző kulturális sokszínűség nyelvi értelemben eltűnt, s a spanyol és ázsiai kisebbségeket leszámítva nem jellemző a nyelvőrzés. Az Európai Unióban viszont ezzel éppen ellentétes szándékok vannak, s az EU támogatja a soknyelvűséget, még akkor is, ha ez minden szempontból nehézségeket okoz, több erőforrást kíván a társadalmi kommunikáció és igazgatás terén.

Az Európai Bizottság által alapított Meta-Net nevű hálózat meglátása szerint az egyik legnagyobb probléma a kontinensünkön nem is elsősorban a kis nyelvek elsorvadása, hanem az, hogy a polgárok mind az üzleti, mind a politikai szférában elkerülhetetlenül nyelvi akadályokba ütköznek. A Meta-Net 33 ország 54 kutatóközpontját összefogva végez kutatásokat és vizsgálatokat nyelvtechnológiai területeken azzal a céllal, hogy az említett akadályokat lerombolja. A szervezet szerint ehhez kulcsfontosságúak a digitális nyelvtechnológiai eszközök, adatbázisok, kutatás-fejlesztési eredmények.

Gépi fordítás EU-s nyelveken

Ez alatt nem csak azt kell érteni, hogy bölcsészek serege könyveket digitalizál és szótárakat épít, hanem például gépi fordítási fejlesztésekről, illetve valós idejű hang-hang fordításról, beszélő robotokról és nemzetközi társadalmi párbeszédek modellezéséről is szó van. A nyelvtechnológia fő alkalmazási területei a nyelvi ellenőrzés, webes keresés, beszédtechnológiai- és gépi fordítás. Ezek olyan alkalmazásokat és technológiákat foglalnak magukban, mint a helyesírás-ellenőrzés, a szerzői támogatási rendszerek, gép által támogatott nyelvtanulás, információ-visszakeresés, információkinyerés, szövegtömörítés, kérdésmegválaszoló rendszerek, beszédfelismerés és beszédszintézis.

A Meta-Net az elmúlt években felmérést végzett az EU-ban és annak környező országaiban rendelkezésre álló nyelvi erőforrásokról és technológiákról. Tette mindezt a 23 hivatalos európai nyelv mellett több nemzeti és regionális nyelvre kiterjedve. A kutatás rávilágított arra, hogy még a leginkább fejlett nyelvtechnológiai támogatással rendelkező angol nyelv is csak közepes eredményeket ér el, a legtöbb egyéb nyelv pedig erőteljesen hiányos ilyen szempontból. A magyar nyelv a középmezőnyben van, a cél hogy 2020-ra a 23 hivatalos uniós nyelv, illetve például az addigra már valószínűleg az EU-hoz csatlakozó horvát is felkészüljön a digitális korban való túléléshez.

A projekt során elkészült fehérkönyv szerint “a magyar nyelv romlásáról szóló próféciák ellenére nyelvünk nincs veszélyben, még az angol nyelv erejével szemben sem. Viszont a helyzet drámaian megváltozhat akkor, amikor a technológiák új generációja elkezdi valóban hatékonyan kezelni az emberi nyelvet”. A kutatók szerint a gépi fordítás tökéletesítése ugyan segít a korlátok leküzdésében, ugyanakkor a saját digitális tartalommal nem rendelkező nyelveket lesöpörheti. A nyelvek túlélési esélye a XXI. században nem elsősorban a beszélők számán múlik, hanem azon, hogy az adott nyelv rendelkezik-e fejlett és és jól használható nyelvtechnológiai eszközökkel.

Nyelvtechnológia és politika

Ilyenek lehetnek a szótárak, digitális lexikonok, adatbázisok, gyűjtemények, fordítási eszközök. Ezeknek a fenntartása és fejlesztése igen költséges, ezért félő, hogy egyes országok, ahol nincs kellő kulturális támogatottság erre, lemaradhatnak. A múlt héten, a Magyar Tudományos Akadémián tartott “A magyar nyelv helyzete a digitális korban” konferencián is érzékelhető volt, hogy a tudományos közeg nyomatékosan kéri a kormányzati szereplőket, hogy ne csak hangzatos köszöntőkkel és kampánygesztusokkal, de anyagi forrásokkal is támogassák a nyelvészet ügyét.

Szerencsére Magyarországon nem rossz a helyzet, sok fontos támogatott fejlesztés zajlott az elmúlt években is a korpuszépítés és a nyelvi erőforrások létrehozása terén, igaz az eszközök átlagos minősége és lefedettsége messze elmarad az angol nyelvű megfelelőik mögött. Az elemző- és információkinyerő eszközök, a nyelvi ellenőrzés, a gépi fordítás mind angol nyelven érik el a csúcsokat. Ennek oka elsősorban történelmi, az elmúlt 50 évben minden releváns kutatás és fejlesztés az angol (főként amerikai) nyelvre fókuszált. Egyes kutatók azt gondolják, hogy az angol nyelv szintaktikai jellegénél fogva alkalmasabb a számítógépes feldolgozásra, mint a magyar, spanyol vagy épp a francia. Ez abból a szempontból akár igaz is lehet, hogy az angol úgynevezett flektáló (hajlító) nyelv, míg a magyar aglutináló (ragasztó) nyelv, ami azt jelenti, hogy mi a szótőhöz több toldalékot rakunk sorban, jól elkülöníthető módon, a szótő megváltoztatása nélkül, míg az flektáló angol a szótő módosításával változtatja a jelentést, egy új, felbonthatatlan szótőt létrehozva.

Mélyül a szakadék

A ma elérhető számítási kapacitások és szoftveres megoldások komplexitása azonban lehetővé teszi, hogy bonyolultabb szerkezeteket is könnyedén kezeljenek a fordítók, elemzőszoftverek. A tudományos munka mellett fontos szerepet játszanak a piaci, üzleti megoldások. Ezek közül a leginkább közismert törekvés a Google szövegelemző, értelmező algoritmusa, amit a hangfelismerő, felolvasó és fordító algoritmusok egészítenek ki. A Google azonban nem tesz indokolatlan erőfeszítéseket a gyenge nyelvek érdekében, például a magyar nyelvű fordítója annyira lesz pontos és helyes, amennyire azt használják az emberek és amennyi alapanyag és tapasztalat van a javításra.

Machine recruiting: nem biztos, hogy szeretni fogod

Az AI visszafordíthatatlanul beépült a toborzás folyamatába.

Machine recruiting: nem biztos, hogy szeretni fogod Az AI visszafordíthatatlanul beépült a toborzás folyamatába.

A nyelvész szakértők szerint az angol és a magyar nyelv közti ilyen szakadék egyre mélyül, s igaz az, hogy vannak fejlesztéseink, de az egész EU-ra jellemző, hogy rövid, alacsony finanszírozású programok váltják egymást, míg az Egyesült Államokban stratégiai kutatások folynak. Hiába van megfelelő kutatói potenciál a régióban, megfelelő koordináció és összefogás nélkül ezzel mindössze “egy tiszteletreméltó említést lehet elérni a Wikipediában” - mondja a Magyar nyelv a digitális korban című kiadvány vezetői összefoglalója.

Akit mélyebben érdekel a téma, annak érdemes elolvasnia A magyar nyelv a digitális korban című fehérkönyvet, ami részletesen bemutatja nyelvtechnológiai szempontból a magyart, ami nem csak bölcsészek, de felhasználói felületek, szoftverek, szolgáltatások tervezésével foglalkozó szakemberek számára is kritikusan fontos tudás. Ugyanez a dokumentum elérhető 30 másik nyelvre vonatkozóan a Meta-Net hivatalos oldalán, ahol további hasznos dokumentumok és információk is találhatóak.

Eleged van az eltérő környezetekből és az inkonzisztens build eredményekből? Frusztrál, hogy órákat kell töltened új fejlesztői környezetek beállításával? Többek között erről is szó lesz az AWS hazai online meetup-sorozatának ötödik, december 12-i állomásán.

a címlapról