:

Szerző: Dömös Zsuzsanna

2024. május 14. 09:32

Emberszerű csevegéssel riogat az OpenAI új AI-modellje

Megérti a valós idejű beszédet, felismeri a különféle érzelmekre utaló jeleket és a vizuális bemenettel is képes dolgozni az OpenAI legújabb nagy nyelvi modellje, a GPT-4o (omni), ami az ingyenes ChatGPT alá is bekerül.

A szokásos frázisokkal élve gyorsabb, hatékonyabb és jobban teljesít szövegértésben a ChatGPT alatt dolgozó nagy nyelvi modell, a GPT-4 legújabb iterációja, amit hétfőn jelentett be az OpenAI, még a Google éves fejlesztői konferenciájának keddi rajtja előtt. Az időzítésből fakadóan több lap úgy találgatott, hogy a startup egy AI-alapú keresőmotort fog bejelenteni, de nagyobb esély mutatkozott egy továbbfejlesztett modellre – ami még nem a GPT-5, hanem valami más.

Mira Murati technológiai igazgató elmondása szerint az újgenerációs GPT-4o (omni) képességeit minden felhasználó ingyen próbálhatja ki, míg a ChatGPT prémium előfizetői kevesebb korlátozással és nagyobb kapacitással használhatják az új képességeket, a következő napok-hetek során. A modell „natívan multimodális", tehát képes tartalmat generálni, vagy parancsokat értelmezni hang, szöveg vagy kép formájában, és minden bemeneti módszernél jelentősen javulni tudott az elődjéhez képest, valós időben, késleltetés nélkül tud kommunikálni kamerakép, írott szöveg és élő beszéd alapján is. 

gpt4omni

Ünnepi mix a bértranszparenciától a kódoló vezetőkig

Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.

Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.

Kiemelhető újdonság, hogy miként képes kezelni a modell az audióbemenetet, ez egyben a legrémisztőbb is: hangasszisztensként valós időben, gyakorlatilag késleltetés nélkül reagál, a fejlesztők elmondása szerint átlagosan körülbelül 320 ezredmásodperc alatt. Egy 2009-es tanulmány szerint ez hasonló az emberek közt zajló beszélgetések alatt mért reakcióidőhöz, és jelentősen rövidebb, mint a korábbi modelleknél tapasztalt tipikus 2-3 másodperces késés.

A bemutatóra hozott egyik demóban a modell hangszínét és stílusát a felhasználó kommunikációjához igazította, amihez különféle hangeffektusokat, nevetést és éneklést is beépített a válaszaiba. Az OpenAI tavaly szeptemberben bővítette hangalapú társalgási funkcióval a ChatGPT-t, amikor elérhetővé tette a Whisper beszédfelismerő modellt, így láthatóan fél év alatt sokat sikerült fejlődni ezen a területen.

Sokat javult a modell vizuális feldolgozás és értelmezés terén is: a felhasználók a szövegeket, grafikonokat és képeket tartalmazó képernyőmentések, vagy dokumentumok feltöltése után kérdezhetik a ChatGPT-t az azokon látható/olvasható tartalommal kapcsolatban, arról akár összegzést vagy elemzést is kérhetnek róla. A telefon kameráját egy matematikai egyenletet mutató papír felé fordítva pedig hamar megoldással tér vissza a modell.

26:13
 

Introducing GPT-4o

Még több videó

A fejlesztők számára közeljövőben elérhető, a különféle külsős szolgáltatások fejlesztéséhez használható fizetős API fele annyiba fog kerülni és kétszer olyan gyors lesz, mint a GPT-4 Turbo - tette hozzá Sam Altman. A GPT-4o ezen felül több mint 50 nyelv esetében teljesít jobban elődjénél, és megjelent a valós idejű fordítási lehetősége is, megkönnyítve a különböző nyelveket beszélők közötti beszélgetést. A képességeket fokozatosan teszi elérhetővé a cég, de a szöveg- és képelőállításhoz, valamint elemzéshez kapcsolódó funkciók már a bejelentéstől kezdve használhatók a ChatGPT-n keresztül.

A startup ezen felül bejelentette, hogy érkezett egy asztali alkalmazás macOS alá, ami már elérhető a ChatGPT Plus felhasználók számára. Maga a ChatGPT chatbot kezelőfelülete is frissült egy új kezdőképernyővel és átgondoltabb elrendezéssel, illetve korábban fizetős funkciókat kapnak meg az ingyenes szolgáltatás felhasználói.

a címlapról