2023. március 2. 13:55

Beszédfelismerő API-t indít útnak az OpenAI

Élőbeszédből készít szöveget a Whisper API, ami a fejlesztők széles köre előtt nyílik meg.

Az OpenAI amellett, hogy mától lehetővé teszi a ChatGPT API-jának használatát a chatszolgáltatásokat készítő külső fejlesztők számára, bejelentette a Whisper API-t is, ami a Whisper nevű beszéd-szöveg modell integrálására ad lehetőséget. Az új alkalmazásprogramozási-interfésszel a cég megfogalmazása szerint a modellt sikerült extrém szinten optimalizálni, így gyorsabban és hatékonyabban dolgozik, így átírási képességei a meglévő alkalmazások, szolgáltatások, termékek és eszközök fejlesztését remekül szolgálhatják szélesebb körben is.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

Ezúttal egy mindenki számára kötelező, de laza jogi különkiadással jelentkezünk. Ennyi a minimum, amit munkavállalóként illik tudnod.

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez Ezúttal egy mindenki számára kötelező, de laza jogi különkiadással jelentkezünk. Ennyi a minimum, amit munkavállalóként illik tudnod.

A percenként 0,006 dollárba kerülő Whisper egy automatikus beszédfelismerő rendszer, amely az OpenAI állítása szerint több nyelven is hatékony készít szöveges leiratot, illetve fordításra is használható, támogatja az M4A, MP3, MP4, MPEG, MPGA, WAV és WEBM formátumokat.

Greg Brockman, az OpenAI elnöke szerint a Whisper abban különbözik a konkurens megoldásoktól, hogy hatalmas adatmennyiségen képezték ki, 680 ezer órányi felvételt használtak fel az internetről számos nyelven, amivel hatékonyabban tudja felismerni a modell az olyan apró nüanszokat, mint az egyedi akcentusok, a különféle háttérzajok és a technikai szakzsargonok.

A hangátírási technológiák elterjedése előtt egyelőre rengeteg akadály van, a Statista 2020-as felmérése szerint a cégek több okból sem használnak aktívan mindennapi működésükhöz ilyen eszközöket, említve fő problémaként a nyelvjárásokkal kapcsolatos felismerési problémákat és a költségeket.

A Whispernek szintén vannak korlátai, főleg prediktivitás, azaz az egymás után következő kifejezések előrejelzése terén szorul további finomításra. Az OpenAI is felhívja a figyelmet arra, hogy a Whisper olyan szavakat is beleszőhet az átiratokba, amelyek valójában nem hangzottak el, valószínűleg azért, mert egyszerre próbálja megjósolni a következő szót, és magát az elhangzó szavakat is figyeli.

Továbbá egyelőre nem ugyanolyan hatékony az összes nyelven, nagyobb a hibaarány, ha olyan nyelvek beszélőiről van szó, amelyekhez kapcsolódóan kevesebb adat állt rendelkezésre a kiképzés során.

a címlapról

A lézerrel írt történelem

Az 59. Weeklyben elmélyedünk az optikai adattárolás múltjában és jelenében. Igen, van jelene is.

CHIPHÁBORÚ

Beszédfelismerő API-t indít útnak az OpenAI

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

A lézerrel írt történelem

Az Intel exportjának is piros vonalat húzott az USA

Tőzsdére lépne a Figma az Adobe-üzlet kútba esése után

Beszédfelismerő API-t indít útnak az OpenAI

Jogod van tudni: mankó kirúgáshoz, munkahelyi szkanderezéshez

A lézerrel írt történelem

Az Intel exportjának is piros vonalat húzott az USA

Tőzsdére lépne a Figma az Adobe-üzlet kútba esése után

Haladékot kapott a legfontosabb kiberbiztonsági adatbázis

Szintetikus adatokat hív segítségül az Apple az AI képzéséhez

Újra fognak indulni az androidos mobilok 3 nap inaktivitás után

Haladékot kapott a legfontosabb kiberbiztonsági adatbázis

Szintetikus adatokat hív segítségül az Apple az AI képzéséhez

Újra fognak indulni az androidos mobilok 3 nap inaktivitás után