2023. január 11. 13:23

Bárkit képes utánozni a Microsoft szövegfelolvasó MI-je

Mindössze három másodperces minta alapján képes emberszerű beszédet generálni a redmondiak új megoldása, ráadásul a szintetizált hangfelvétel nemcsak a beszélő sajátos tónusait tartja meg, de az akusztikát is mímeli.

A Microsoft kutatói bejelentették a VALL-E szövegfelolvasó MI-modellt, ami egy mindössze három másodperces hangminta alapján képes valós személy hangját szimulálni. Így a beszélő jellegzetes tónusait megtartva bármilyen szöveges hanganyagot előállít, mintha adott személy beszéde lenne hallható. Készítői fejlett szövegfelolvasó- és szerkesztő alkalmazásként képzelik el használatát, akár olyan más generatív MI-modellekkel kombinálva, mint a szöveget generáló GPT-3.

A redmondi cég a VALL-E-ra neurális nyelvi modellként hivatkozik, ami a Meta által tavaly bejelentett EnCodec nevű tömörítési neurális hálózaton alapul. Más, a hullámformák manipulálásával dolgozó szövegfelolvasó eljárásokkal ellenben a Microsoft megoldása audiokodek kódokat alkot a megadott szövegből és a minta akusztikus jeleiből.

microsoft_vall_e_kiemelt

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

Ezúttal egy mindenki számára kötelező, de laza jogi különkiadással jelentkezünk. Ennyi a minimum, amit munkavállalóként illik tudnod.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez Ezúttal egy mindenki számára kötelező, de laza jogi különkiadással jelentkezünk. Ennyi a minimum, amit munkavállalóként illik tudnod.

A VALL-E alapvetően kielemzi egy adott személy beszédének jellegzetességeit, az információkat az EnCodec-kel bontja különálló komponensekre, "akusztikus tokenekre", hogy létrehozza a végleges hullámformát. Amellett, hogy leköveti a beszélő hangszínét, a hangminta „akusztikus környezetét” is képes utánozni. Például, ha a mintát egy telefonhívásból vágták ki, a telefonhívás akusztikáját és frekvenciatulajdonságait is visszaadja.

A redmondi kutatók a Meta által szolgáltatott audiokönyvtár segítségével dolgoztak, ami több mint 60 ezer órányi angol nyelvű beszédet tartalmaz több mint 7000 személytől. Mivel ahhoz, hogy a VALL-E jó minőségű és élethű tartalmat hozzon létre, a hangmintának nagy egyezést kell mutatnia a kiképzéshez használt adatok valamelyikével, így a jövőben további adatokkal tervezik bővíteni az adatbázist.

A Microsoft a visszaélések miatt egyelőre nem teszi elérhetővé másoknak a tesztelést, sem a VALL-E kódját. Közleménye szerint a vállalat a jövőben saját, MI-vel kapcsolatos fejlesztésekhez kialakított irányelveit követi majd, illetve készül egy külön modell is annak meghatározására, hogy egy hangklipet a VALL-E segítségével hoztak-e létre. Jelenleg a projekt GitHub-oldalán lehet meghallgatni, hogyan muzsikál az algoritmus: egyelőre még nem tökéletes, és bizonyos klipek hallhatóan gépszerűek, de vannak valóban ijesztően valósághű eredmények is.

Bárkit képes utánozni a Microsoft szövegfelolvasó MI-je

Mindössze három másodperces minta alapján képes emberszerű beszédet generálni a redmondiak új megoldása, ráadásul a szintetizált hangfelvétel nemcsak a beszélő sajátos tónusait tartja meg, de az akusztikát is mímeli.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

A lézerrel írt történelem

Az Intel exportjának is piros vonalat húzott az USA

Tőzsdére lépne a Figma az Adobe-üzlet kútba esése után

Bárkit képes utánozni a Microsoft szövegfelolvasó MI-je

Mindössze három másodperces minta alapján képes emberszerű beszédet generálni a redmondiak új megoldása, ráadásul a szintetizált hangfelvétel nemcsak a beszélő sajátos tónusait tartja meg, de az akusztikát is mímeli.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

A lézerrel írt történelem

Az Intel exportjának is piros vonalat húzott az USA

Tőzsdére lépne a Figma az Adobe-üzlet kútba esése után

Haladékot kapott a legfontosabb kiberbiztonsági adatbázis

Szintetikus adatokat hív segítségül az Apple az AI képzéséhez

Újra fognak indulni az androidos mobilok 3 nap inaktivitás után

Haladékot kapott a legfontosabb kiberbiztonsági adatbázis

Szintetikus adatokat hív segítségül az Apple az AI képzéséhez

Újra fognak indulni az androidos mobilok 3 nap inaktivitás után