Egységes memóriakezelést hoz a CUDA 6
A Denverben zajló Supercomputing 2013 konferencián nem csak a friss Top500 lista mutatkozott be, az NVIDIA is ezt a rendezvény választotta a legújabb Tesla kártyájának bemutatására. A cég bemutatta GPU-programozási környezetének, a CUDA-nak a legfrissebb verzióját is.
A Tesla K40 az eddigi legnagyobb teljesítményű GPU-ja a zöld emblémás cégnek, amely a vállalat szerint feladattól függően 20-40 százalékkal magasabb teljesítményre képes a K20x-nél. A K40 a mérnöki-tudományos feladatokra szánt verziója a GeForce GTX 780 Ti-nek. A chip 2880 CUDA magot mozgat meg 745 MHz-es alapórajelen, ami akér 875 MHz-re is emelkedhet, ha a 235 wattos fogyasztási keretbe belefér. A kártya érdekessége, hogy a múlt héten bemutatott AMD FirePro S10000-hez hasonlóan összesen 12 gigabájt GDDR5 memóriát tartalmaz, amelyet 288 gigabájt/másodperces sebességgel ér el a GPU.
Az NVIDIA számításai szerint a K40 csúcsteljesítménye egyszeres pontosságú lebegőpontos műveletek alatt 4,29 teraflops, kétszeres pontosság esetén ez 1,43 teraflopsra esik vissza. Emlékeztetőül, a K20x 3,93, illetve 1,31 teraflops elméleti maximális teljesítményre képes. A különbség jórészt az SMX egységek megnövekedett számából és a magasabb órajelekből adódik, a K20x ugyanis fix 732 MHz-es frekvencián működik és a memóriát is "csak" 2,6 GHz-es effektív órajelen hajtja, míg a K40-nél az utóbbi érték 3 GHz.
Egységes memóriakezelést hoz a CUDA 6
A vállalat a napokban mutatta be a CUDA 6-ot is, amelynek legnagyobb ígérete a GPU és a processzor között megosztott memória. A GPGPU-alapú rendszerek legnagyobb hátránya jelenleg, hogy a grafikus chip által feldolgozott adatokat a rendszermemóriából a grafikus memóriába kell másolni a PCI Express interfészen keresztül, ami még a legújabb, PCI Express 3.0 verzió alkalmazása esetén is időigényes, amennyiben nagy adathalmazról van szó. Amennyiben a programozó nem kezeli megfelelően ezt a jelenséget, a másolásból adódó késleltetések lelassítják az amúgy gyors kódot.
A CUDA 6 ezen azzal próbál segíteni, hogy bevezeti az egységes memóriakezelést, legalábbis a fejlesztő oldaláról. Ez azt jelenti, hogy a GPU és a processzor továbbra is önálló fizikai memóriát használ, azonban a CUDA környezet ezt a fejlesztő számára elfedi, így nincs szükség az adatmozgatás "kézi vezérlésére". Az NVIDIA állítja, ezzel a programozók számára sokkal könnyebbé válik GPU-gyorsított alkalmazások fejlesztése. A Sandia National Laboratories skálázható algoritmusokért felelős csapatának vezetője, Rob Hoekstra szerint az adatkezelés automatizálásával lényegesen lerövidíthető a GPU-t használó alkalmazások fejlesztési ideje és csökken a kód komplexitása is. Hoekstra szerint a fejlesztési idők extrém esetben megfelezhetők a CUDA 6 használatával.
2025: neked mennyi pénzt ér meg a home office? Itt vannak az IT munkaerőpiaccal kapcsolatos 2025-ös prognózisaink.
A CUDA 6 "Unified memory" képessége Kepler vagy újabb generációs GPU-val működik, a processzor szempontjából viszont teljesen agnosztikus, az lehet akár ARM, vagy x86 is. Az új CUDA emellett két új könyvtárat is kapott (BLAS, Basic Linear Algebra Subprograms, illetve FFTW, Fastest Fourier Transform in the West) kimondottan GPU-ra optimalizálva. Ezek már több GPU-ra is képesek skálázódni, ezzel tovább növelve az elérhető teljesítményt - a cég állítása szerint a könyvtárak teljes visszamenőleges kompatibilitást biztosítanak, vagyis az ezekre épülő programokat nem kell újraírni a teljesítménynövekedéshez.
A CUDA Toolkit 6 az NVIDIA tájékoztatása szerint 2014 első negyedévében jelenik meg, a fejlesztői programban regisztrált felhasználók külön értesítést kapnak az NVIDIA-tól a megjelenésről.