Gépi tanulásra fókuszál az IBM vadiúj chipe
Bemutatta legújabb, mainframe-ekbe szánt processzorát az IBM. A nagy méretű chip fejlesztésében meghatározó szempont volt a gépi tanulásos műveletek gyorsítása.
Az új processzorról Dr. Christian Jacobi, a Nagy Kék vezető tervezője beszélt az idei Hot Chips alkalmából. A chip összesen nyolc darab magot tartalmaz, amelyek mély szuperskalár OoO (Out-of-Order) futószalaggal rendelkeznek. A magok órajele rendkívül magas, 5 GHz feletti, a hozzájuk tartozó L2 gyorsítótár mérete pedig darabonként 32 megabájt, ami a komplett chipet tekintve 256 megabájt gyorsítótárat jelent.
Machine recruiting: nem biztos, hogy szeretni fogod Az AI visszafordíthatatlanul beépült a toborzás folyamatába.
A Telum egyik érdekes fejlesztése épp utóbbit, vagyis a cache-t célozza. A magokhoz kapcsolódó másodszintű tárak ugyanis igény szerint harmadszintű tárként kombinálhatóak, sőt, a komplett szervert tekintve akár negyedszintű cache-ként is összevonhatóak. A rendszer legfeljebb nyolc darab processzort tartalmazhat, így az L4 cache kapacitása akár 2 gigabájtig is skálázható, amennyiben arra a végrehajtás szempontjából szükség van.
IBM Telum Processor brings deep learning inference to enterprise workloads
Még több videóA Telum legfőbb újítása a gépi tanulásos műveletek gyorsítása, amit a chipbe épített dedikált egységekre bíztak a mérnökök. Ez processzoronként legfeljebb 6 TFLOPs végrehajtási tempót jelent, amely 32 processzoros rendszer esetében már közel 200 TFLOPs-os számítási kapacitást jelent FP16-os, vagyis negyedpontosságú lebegőpontos műveleteknél. Az IBM ígérete szerint a gyorsító képessége firmware kiadások segítéségével bővíthető lesz. A gyorsító képessége természetesen TensorFlow-n keresztül is ki lehet majd aknázni a Nagy Kék saját Deep Learning Compiler-e mellett.
A tervezési munkálatokat vezető Jacobi szerint a Telum gépi tanulástól eltekintve is jelentős ugrás a z15-ben található elődhöz képest, amelyhez viszonyítva foglaltonként akár 40 százalékos is lehet a gyorsulás. A lapka a felhasználási területnek megfelelően hatalmas, mintegy 530 négyzetmilliméter területű. A 22,5 milliárd tranzisztort felvonultató szilíciumot a Samsung gyártja 7 nanométeres eljárásával.