Az adatközpontokba is megérkezett az Nvidia "Turing"
A Tesla T4 a gépi tanulásban jelentős előrelépéssel kecsegtető új architektúrára épül.
A professzionális felhasználásra szánt Quadrók, illetve a játékosokat célzó GeForce-ok után az adatközpontos Tesla termékcsaládot is elérte az Nvidia legújabb grafikus mikroarchitektúrája, a Turing. A chiptervező állítása szerint a friss fejlesztését elsőként alkalmazó Tesla T4 drámai előrelépést nyújthat az épp két éve bemutatott előd P4-hez képest, az új termék bizonyos esetekben akár tizenkétszeres gyorsulással is kecsegtethet. Hab a tortán, hogy mindezt a TDP keret növelése nélkül, szerény, külső tápellátást nem igényelő 75 wattos maximális disszipáció mellett képest produkálni az új gyorsítókártya. A minden téren tetemes fejlődésnek hála a legújabb Tesla sikerre lehet ítélve, amit meglovagolva tovább erősítheti vezető pozícióját az adatközpontos gyorsítók piacán az Nvidia.
A sztenderd PCI Express csatolós Tesla T4 a GeForce GTX 2080 és 2070 kártyákkal bemutatkozott TU104 GPU-ra épül, pontosabban annak kissé megnyirbált verziójára. A 2944 CUDA magot tartalmazó lapkának egy részét ugyanis letiltották a mérnökök, így a grafikus processzorban 2560 darab aktív végrehajtó maradt. Ehhez társul 320 úgynevezett Tensor mag, amely a gépi tanulásos műveletek gyorsítása miatt került be a GPU-ba. A Voltával debütált fejlesztés képességeit bővítette az Nvidia, melynek hála az INT8 (8 bites integer) mellett már INT4 (4 bites integer) műveleteket is képes végrehajtani a rendszer, az utóbbit a 8 bitesnél kétszer nagyobb tempóban. Az új Tesla ezt egy még ezeknél is szerényebb pontosságú, mindössze 1 bites egészszámos végrehajtással fejeli meg, bár ez egyelőre csupán kísérleti funkcióként van jelen. Az alacsony pontosságú formátumok bizonyos gépi tanulásos modellek esetén komoly sebességnövekedést hozhatnak, ám ehhez természetesen optimalizáció szükséges.
Machine recruiting: nem biztos, hogy szeretni fogod Az AI visszafordíthatatlanul beépült a toborzás folyamatába.
Az Nvidia számszerűsítette is a várható előrelépést. Félpontosságú lebegőpontos (FP16) számítások esetében közel tizenkétszeres gyorsulásra lehet számítani, hisz míg a T4 65, addig a P4 csupán 5,5 TFLOPS teljesítményre képes. Gépi tanulásos INT8 (8 bites integer) műveletek esetében már "csak" hatszoros a javulás (22 vs. 130 TOPS), INT4-ben azonban ismét közel tizenkétszeres lehet az ugrás. Ahogy a P4-et, úgy a most bejelentett utódot is elsősorban nagy sűrűségű, scale-up rendszerekbe szánja az Nvidia, ahol a szoftveres környezet megfelelően profitálhat a jellemzően több GPU-s kiépítésből. A kártya ennek megfelelően továbbviszi a félmagas, azaz low profile kialakítása, amellyel megtartja széleskörű kompatibilitását.
Végül, de nem utolsó sorban konkrét felhasználási területekre is kitért az Nvidia. A tervezőcég VDI (Virtual Desktop Infrastructure) mellett többek között videokódoláshoz ajánlja a Tesla T4, amely az ígéret szerint akár 38 darab FullHD streamet is képes lehet egyazon időben dekódolni. Emellett természetesen különféle gépi tanulásos munkafolyamatokhoz is ideális lehet a rendkívül hatékony T4. Ehhez jóformán az összes népszerű frameworkot támogatja a termék, amelynek listáján a PyTorch, a TensorFlow, az MXNet, illetve a Caffee2 is szerepel. A kártyához jár a TensorRT 5 gépi tanulásos következtetési (inferencing) optimalizáló és runtime motor, amely teljesen kihasználja a már említett Tensor magok képességeit.