Audiógenerátor eszközcsomagot tett elérhetővé a Meta
Hangeffektusok és zenék generálására képes a közösségi óriás több modellből álló csomagja, aminek kódját meg is nyitotta a fejlesztők előtt.
A Meta elérhetővé tette új nyílt forráskódú, AudioCraft nevű szolgáltatását, amivel a felhasználók különféle hangokat, akár komplett zeneszámokat generálhatnak a mesterséges intelligenciának köszönhetően. A szolgáltatás több, a hanggenerálás különböző területeivel foglalkozó modellt használ: a 20 ezer órányi zenén betanított MusicGen szöveges promptok alapján készít zenét, míg az AudioGen ugyanilyen módon hangeffekteket, hanghatásokat tud létrehozni, például kutyaugatást, lépéshangokat, zörgéseket.
Az eddigi tesztek alapján a létrehozott környezeti zajok, például szirénák, zúgások meglehetősen természetesnek tűnnek, a zeneszámok esetében már nyomon érhető egyfajta mesterséges íz a hangszerek, például a gitárok megszólalásában. Az EnCodec nevű dekóder komponens pedig egy neurálishálózat-alapú audió tömörítési kódek.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
A Meta megjegyzi, hogy míg a szöveg és kép formátuma köré épülő generatív mesterségesintelligencia-modellek nagy figyelmet kapnak, a generatív audioeszközök fejlesztése elmaradottnak tekinthető. A kutatóknak és a fejlesztőknek a nyílt forráskódú csomaggal lehetőségük adódik rá, hogy saját modelleket képezhessenek ki saját adatkészleteikkel.
Hanggenerátor technológiávaé szintén kísérletezik a Google, aminek MusicLM nagy nyelvi modellje egy ideje már elérhető. A keresőcég megoldása szintén szöveges utasítások alapján állít elő pár percnyi hanganyagot, de egyelőre korlátozott hozzáférésű, csak kutatók használhatják. Említhető még a decemberben létrehozott Riffusion nevű szöveg-zene generátor platform, ami a Stable Diffusion technológiájára épül.