Kínából kap konkurenciát a gyorsítók piacán az Nvidia
A Huawei-nek is besegítő Cambricon első terméke kimagasló specifikációkkal rendelkezik.
Dedikált szerveres gyorsítókártyával jelentkezett a Cambricon. A kínai tervezőcég kifejezetten gépi tanulásos környezethez készítette újdonságát, a kártyán található NPU (Neural Processing Unit) ugyanis félpontosságú lebegőpontos, illetve 8 bites egészszámos műveleteket képes végrehajtani viszonylag gyorsan, nem utolsó sorban pedig igencsak hatékonyan. A számítási teljesítmény az Nvidia aktuális csúcs Tesla V100-ával is bőven összemérhető, a PCIe csatolós MLU100 ugyanis a Teslánál (papíron) akár 38-177 százalékkal nagyobb tempóra is képes lehet, miközben a kártya ezt az impozáns teljesítményt közel harmad disszipáció mellett állíthatja elő.
A fejlesztés lelke a nyomtatott áramkörön található MLU-100 chip. A TSMC 16FF gyártástechnológiájával legyártott áramkör alapbeállításon lebegőpontos (FP16) műveletek esetében 64 TFLOPS (Tesla V100: 30 TFLOPS), egészszámos (INT8) műveletek esetében pedig 128 TOPS (V100: 120 TOPS) számítási tempóra képes mindössze 80 wattos TDP mellett (Tesla V100: 300 watt). A megsüvegelendő számokat tetézi, hogy a kártya egy kvázi turbó ("Perf") móddal is rendelkezik, amellyel az NPU órajele 30 százalékkal 1,3 GHz-re ugrik fel, ezzel párhuzamosan pedig a számítási teljesítmény is épp ekkora mértékben nő meg. A magasabb tempó kisebb hátulütője, hogy a TDP a számítási teljesítménynél valamivel nagyobb mértékben növekszik, az ugyanis 37,5 százalékkal 110 wattra emelkedik, rontva valamelyest a hatékonysági mutatón - ha tehát a teljesítmény helyett a teljesítménysűrűségre kell optimalizálni, a lassabb működés jobb lehet.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
A MLU100 egyébiránt egy teljesen szabványos PCI Express bővítőkártya formájában pompázik, az egyetlen említésre méltó érdekességet a memória jelenti a NYÁK-on. A Cambricon ugyanis vélhetően a könnyű implementáció, illetve az ezzel együtt járó alacsonyabb költségek szellemében egyszerű DDR4-1600 chipeket tervezett az NPU mellé. Ezek a viszonylag széles, 256 bites memóriabusznak hála 102,4 GB/s sávszélességet nyújtanak a 16 vagy 32 gigabájtos összkapacitás erejéig.
A kártya legfőbb paramétereit tehát biztatóak, azonban közel sem biztos, hogy ez elég lesz a sikerhez. A legfőbb buktató a terméktámogatásban, illetve az ennek szerves részét képző szoftveres csomagban bújhat meg. Az első számú ellenfélnek számító Nvidia ugyanis ezen a téren (is) rendkívül erős, az elmúlt években a fejlesztők már kiismerhették a cég csomagját, amelyre alapozva számos fejlesztés született. Weboldalán a Cambricon ehhez kapcsolódóan mindössze annyit ír, hogy a gyorsítókártya támogatja a népszerű szoftveres könyvtárakat, így a TensorFlow-t, a Caffe-t, illetve az MXNetet.
Rokonságban a Kirin 970-nel
Az NPU részleteit bár nem taglalta a Cambricon, az azonban kiderült, hogy az MLUv01 mikroarchitektúra egyezik a Kirin 970-ben megismert Cambricon-1A-val, a tervezőcég "csupán" felskálázta a rendszert. A kínai vállalat egyébként már dolgozik a következő generációkon, az 1H és 1M jelölésű a csőben van, arról azonban nincs hír, hogy ezek pontosan mikor és milyen formában kerülnek piacra. Iparági pletykák szerint ambiciózus terveket dédelget a cég, hisz még idén megjelenhet egy másik gyorsítókártya, jövőre pedig vélhetően a már említett 1M-re épülve érkezhet egy 7 nanométeres NPU, amellyel állítólag rendkívül magas, 5 TOPS/Watt hatékonyságot célzott meg a Cambricon (MLU-100: 1,6 TOPS/Watt).