Opteronok és Teslák a legerősebb számítógépben
Az Oak Ridge National Laboratory kutatóközpontban 2008-ban állt üzembe a Jaguar, amely egy Opteron-alapú Cray XT szuperszámítógép, 1,46 petaflops teljesítménnyel. A rendszert most továbbfejlesztették, NVIDIA Tesla kártyákat kapott, aminek köszönhetően a sebessége közel hússzorosára emelkedett. Át is nevezték, a Jaguar mostantól Titan.
A Jaguar egy Cray XT4 és XT5 szekrényekből álló vegyes rendszer volt, amelyet még piacon sem levő NVIDIA Tesla K20 processzorokkal bővítettek, utóbbiak felelősek a számítási teljesítmény meredek növekedéséért. A Cray XT-kben azonban processzorokat is lecserélte az Oak Ridge Nation Laboratory, mostantól 16 magos AMD Opteron 6274 lapkák működnek bennük, amelyek 32 nanométeres technológiával gyártott, 2,2 GHz-es Bulldozer-generációs darabok. A Titan több mint 18 ezer Opteront és ugyanennyi Teslát tartalmaz Cray XK7 blade-eken.
A legerősebb GPU
A jelenleg elérhető információk szerint a GK110 kódnevű Tesla K20 lapka nem kevesebb mint 7,1 milliárd tranzisztorból épül fel. A K20 alapelemei is az SMX-re keresztelt számítási blokkok, ezek másfél megabájt másodszintű gyorsítótáron és a 384 bites memóriabuszon osztoznak. Egy SMX 192 CUDA-magból épül fel, ezekből 64 képes FP64 utasítások végrehajtására. A K10/GF104 ugyanennyi CUDA-magot tartalmaz blokkonként, ott az FP64-képes futószalagok száma azonban blokkonként 8. A változásnak köszönhetően a mérnöki-tudományos környezetben sokszor kritikus fontossággal bíró FP64 utasítások végrehajtási sebessége már egyharmada lesz az FP32 utasításokénak. A K20 összesen 15 SMX blokkból áll, ami 2880 CUDA magot jelent a lapka szintjén.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
További fontos különbség a K10-hez (GF104) képest, hogy a K20 teljes ECC-védelmet élvez mind a memória, mind a gyorsítótár szintjén. A K20 a CPU tehermentesítésére és a GPU magasabb kihasználtságára is nagy hangsúlyt fektet, az NVIDIA két hasonló célú technológiát is bemutatott. A Hyper-Q képesség azt jelenti, hogy a Fermi egyetlen MPI feladatával szemben a Kepler 32 feladatot képes egyszerre kezelni, így a lapka kihasználtsága számottevően megnő. A Dynamic Parallelism képesség keretében pedig a GPU-n futó kernelek képesek egymást meghívni, így csökkenthető a CPU-val való kommunikáció gyakorisága - egy központi processzor így több GPU-t tud kiszolgálni.
A rendszer teljes memóriája 710 terabájt, ebből 598 terabájt az Opteron processzorokhoz csatlakozik, 112 terabájthoz pedig az NVIDIA Tesla kártyákon kapott helyet. A háttértár kapacitása 13,6 petabájt. Az Oak Ridge National Laboratory közlése szerint a Titan teljesítménye megközelítőleg 27 petaflops, amellyel jelenleg a legerősebb a világon - a legnagyobb teljesítményű számítógépek Top500 listáját évente kétszer frissítik, az idei őszi listát a november közepén Salt Lake Cityben zajló SC12 konferencián mutatják be. A rendszer összfogyasztása 12,7 megawatt, ami az egyik legjobb teljesítmény-fogyasztás mutatót biztosítja a rendszer számára a Top500 listán. A jelenlegi csúcstartó ebben a kategóriában az IBM BlueGene/Q, amely egy felvett wattot több mint 2000 megaflops számítási teljesítménnyé alakít. A Titan esetében ez a mutató 2100 megaflops/watt fölé kerül.
Terjednek a hibridek
A Titan nem az első rendszer a Top500 listán, amely hibrid felépítésű, a júniusi rangsorban 57 olyan szuperszámítógép volt megtalálható, amely GPU-kat is tartalmazott, a Teslákra épülő kínai Tianhe egy időben még a lista élén is állt. Az Egyesült Államokban azonban eddig nem volt akkora teljesítményű hibrid gép, amely felkerült volna a listára. Ennek oka, hogy a két legnagyobb HPC-szállító, az IBM és a Cray viszonylag későn lépett be erre a területre - a legnagyobb teljesítményű mérnöki-tudományos gépekbe az IBM a mai napig saját BlueGene architektúráját ajánlja, a Craynél pedig csak 2011 novemberére készült el az első (XK6) hibrid blade. A Titan feltehetően meg fogja a nyitni az utat további ilyen rendszerek előtt.
A hibrid architektúra természetesen a futtatott szoftverek oldaláról is megkövetel módosításokat, hogy azok kihasználhassák a GPU-kban rejlő potenciált. A programok portolásán már egy ideje dolgoznak az ORNL mérnökei, akiknek beszámolói szerint jelentős gyorsulást sikerült elérni a GPU-k munkára fogásával. A National Center for Atmospheric Research (NCAR) csapat részéről például Warren Washington elmondta, a Titan egyetlen nap alatt 1-5 éves távon képes szimulálni a klíma változását, miközben a Jaguar ugyanennyi idő alatt három hónapos előrejelzést tudott készíteni.