:

Szerző: Dömös Zsuzsanna

2023. január 11. 13:23

Bárkit képes utánozni a Microsoft szövegfelolvasó MI-je

Mindössze három másodperces minta alapján képes emberszerű beszédet generálni a redmondiak új megoldása, ráadásul a szintetizált hangfelvétel nemcsak a beszélő sajátos tónusait tartja meg, de az akusztikát is mímeli.

A Microsoft kutatói bejelentették a VALL-E szövegfelolvasó MI-modellt, ami egy mindössze három másodperces hangminta alapján képes valós személy hangját szimulálni. Így a beszélő jellegzetes tónusait megtartva bármilyen szöveges hanganyagot előállít, mintha adott személy beszéde lenne hallható. Készítői fejlett szövegfelolvasó- és szerkesztő alkalmazásként képzelik el használatát, akár olyan más generatív MI-modellekkel kombinálva, mint a szöveget generáló GPT-3.

A redmondi cég a VALL-E-ra neurális nyelvi modellként hivatkozik, ami a Meta által tavaly bejelentett EnCodec nevű tömörítési neurális hálózaton alapul. Más, a hullámformák manipulálásával dolgozó szövegfelolvasó eljárásokkal ellenben a Microsoft megoldása  audiokodek kódokat alkot a megadott szövegből és a minta akusztikus jeleiből.

microsoft_vall_e_kiemelt

Modern SOC, kiberhírszerzés és fenntartható IT védelem (x)

Gyere el meetupunkra november 18-án, ahol valós használati eseteken keresztül mutatjuk be az IT-biztonság legújabb trendjeit.

Modern SOC, kiberhírszerzés és fenntartható IT védelem (x) Gyere el meetupunkra november 18-án, ahol valós használati eseteken keresztül mutatjuk be az IT-biztonság legújabb trendjeit.

A VALL-E alapvetően kielemzi egy adott személy beszédének jellegzetességeit, az információkat az EnCodec-kel bontja különálló komponensekre, "akusztikus tokenekre", hogy létrehozza a végleges hullámformát. Amellett, hogy leköveti a beszélő hangszínét, a hangminta „akusztikus környezetét” is képes utánozni. Például, ha a mintát egy telefonhívásból vágták ki, a telefonhívás akusztikáját és frekvenciatulajdonságait is visszaadja.

A redmondi kutatók a Meta által szolgáltatott audiokönyvtár segítségével dolgoztak, ami több mint 60 ezer órányi angol nyelvű beszédet tartalmaz több mint 7000 személytől. Mivel ahhoz, hogy a VALL-E jó minőségű és élethű tartalmat hozzon létre, a hangmintának nagy egyezést kell mutatnia a kiképzéshez használt adatok valamelyikével, így a jövőben további adatokkal tervezik bővíteni az adatbázist.

A Microsoft a visszaélések miatt egyelőre nem teszi elérhetővé másoknak a tesztelést, sem a VALL-E kódját. Közleménye szerint a vállalat a jövőben saját, MI-vel kapcsolatos fejlesztésekhez kialakított irányelveit követi majd, illetve készül egy külön modell is annak meghatározására, hogy egy hangklipet a VALL-E segítségével hoztak-e létre. Jelenleg a projekt GitHub-oldalán lehet meghallgatni, hogyan muzsikál az algoritmus: egyelőre még nem tökéletes, és bizonyos klipek hallhatóan gépszerűek, de vannak valóban ijesztően valósághű eredmények is.

November 25-26-án 6 alkalmas K8s security és 10 alkalmas, a Go és a cloud native szoftverfejlesztés alapjaiba bevezető képzéseket indítunk. Az élő képzések órái utólag is visszanézhetők, és munkaidő végén kezdődnek. November 8-ig early bird kedvezménnyel!

a címlapról