A GPGPU ellenszerén dolgozik az Intel
Az IBM után az SGI is bejelentette, hogy grafikus chipeket fog szuperszámítógépes felhasználásra kínálni, vagyis belép a GPGPU alkalmazásának területére. Ezzel egy időben az Intel is előrukkolt a GPGPU ellenszerével, a Larrabee program gyümölcseként megszülető Knights Corner masszívan párhuzamos chippel.
GPGPU az SGI és IBM kínálatában
A bejelentést az SGI és az Intel is a hamburgi nemzetközi szuperszámítógépes konferenciára (ISC) időzítette. Az NVIDIA Tesla és AMD ATI FireStream chipek használatával az SGI belépett a hibrid avagy heterogén számítógépek területére, ahol a hagyományos értelemben vett általános célú processzorok mellett tipikusan vektorizált (adatszinten párhuzamosított) végrehajtóegységekkel rendelkező vagy alkalmazásspecifikusan programozható (FPGA) architektúrák is helyet kapnak. Az SGI bejelentése néhány héttel követi az IBM-ét, amely az NVIDIA Tesla megoldását vette fel magas sűrűségű iDataPlex rendszereihez.
Az NVIDIA és AMD GPGPU-kon kívül, amelyek a grafikus feladatokon túlmutatóan is hatékonyan programozhatóak vektorizált számítások, mátrixműveletek végrehajtásához, az SGI más architektúrák felé is nyitott, amelyeket PCI Express felületen tud a rendszerbe illeszteni. A vállalat már meg is állapodott a Tilerával, amely saját fejlesztésű sokmagos architektúrát fejlesztett ki VLIW stílusú architektúrára alapozva. A Tilera jelenlegi csúcsprocesszora 64 darab 64 bites magot integrál, az órajele pedig 1,5 gigahertz is lehet, a fogyasztás pedig 55 watt legfeljebb. A Tilera szerint az elméleti csúcsteljesítmény 750 ezer MIPS, vagyis másodpercenként 750 milliárd művelet, amihez négy darab DDR3-vezérlő 60 GB/S feletti sávszélességet biztosít.
A hibrid számítástechnika növekvő jelentőségét jelzi, hogy a világ tíz legerősebb szuperszámítógépéből három hibrid architektúrájú: a Sencsenben üzemelő második legerősebb NVIDIA Tesla GPGPU-kat fürtöz, a harmadik helyre visszacsúszott amerikai Roadrunner IBM PowerXCell 8i chipekre építi bődületes számítási kapacitását, míg a nyolcadik, szintén kínai konfiguráció Radeon HD 4870 kártyákat használ. A világ első GPGPU hibrid rendszere 2008-ban bukkant fel Japánban, a Tokiói Technológiai Intézet TSUBAME konfigurációját bővítették ilyen módon 170 darab NVIDIA Teslával. A GPGPU szuperszámítógépek jellemzően a lista elején találhatók jelenleg, ami valószínűleg azzal magyarázható leginkább, hogy ezeknél a hatalmas projekteknél a legnagyobb a nyomás a számítási teljesítmény maximalizálása és a hatékonyság irányában, miközben rendelkezésre állnak az erőforrások a kódok portolásához is.
Intel Larrabee 2012-ben
Mindezt természetesen az Intel sem nézi tétlenül, a cégnél évek óta folynak célzott kutatások a nagy számítási teljesítményt igénylő alkalmazások (HPC) jobb kiszolgálása érdekében, amelyek különböző becslések szerint a szerverpiac 20-25 százalékát teszik ki. A legalább négy éve futó, Larrabee kódnév alatt formálódott program kifejezett célja, hogy a HPC területen felvegye a harcot a GPGPU-kkal és az azóta törölt IBM Cell vonallal, amelyek masszívan párhuzamosított felépítésük révén a PC-s és szerveres szoftverbázis által gúzsba kötött általános célú processzoroknál jóval magasabb hatékonyságot érnek el szilíciumterületre és energiafogyasztásra vetítve egyaránt, ha a kódokat az ügyfél hajlandó a hardverhez igazítani.
A Larrabee program stratégiai küldetése, hogy elejét vegye az Intel esetleges térvesztésének a HPC szegmensben a GPGPU és más masszívan párhuzamos architektúrákkal szemben. Éppen ezért mikor az Intel tavaly decemberben közölte, hogy idén a cég nem lép a grafikus piacra Larrabee termékkel, majd pedig májusban megerősítette, hogy nem tervez diszkrét GPU-t piacra dobni, nyilvánvaló volt, hogy mindez nem érinti a Larrabee program létét. A vállalat tovább folytatja a fejlesztéseket, két irányban: az általános célú processzorokkal való architekturális integráció és a HPC felé.
A hamburgi ISC talán legjobban várt előadása éppen ezért Kirk Saugen Intel-alelnöké volt. Saugen bejelentette, hogy a vállalatnál egy 22 nanométeres csíkszélességű szervertermék fejlesztései folynak, amely a gyártástechnológia várható rendelkezésre állása alapján 2012-ben kerülhet piacra. Ez a Knights Corner kódnéven futó termék egy több mint 50 processzormagot integráló koprocesszorra épül majd, amely architektúrájának az Intel a Many Integrated Core Architecture (MICA) nevet adta.
Ahogyan azt már a Larrabee kapcsán régóta tudni lehet, a Knights Corner is x86-os magokra fog épülni, amelyek széles vektorizált (SIMD) kiterjesztéssel, 100 új utasítással, és négyszeresen párhuzamosított (Hyper-Threading) végrehajtással rendelkeznek. Érdemi új információ nem hangzott el az architektúrával kapcsolatban: koherens a cache-hierarchia, a chipen nagy sávszélességű hálózati összeköttetés működik, nagy a memória-sávszélesség, semmi konkrétum. Saugen szerint a Knights chipek fejlesztéseinél felhasználják a korábbi évek során elért olyan kutatási eredményeket is mint a 80 magos Polaris, amelynek feladata elsősorban a chipen történő adatkommunikáció hatékony megoldása volt.
A leginkább érdekes éppen az volt, amiről nem beszélt Saugen: a prezentáció alapján a Knights termékekben is marad fix funkcionalitású logika, vagyis alkalmazásspecifikus áramkör, ami korábban közvetlenül a grafikus feladatokat takarta, mint például a textúrázás, pixel raszterizáció. Ebből lehetne arra következtetni, hogy az Intel 2012-ben esetleg mégis belép a diszkrét GPU piacra, legalábbis a professzionális mérnöki munkaállomások területén, de nem zárható ki egy olyan magyarázat sem, amely szerint az Intel döntése, hogy mégsem próbál hagyományos értelemben vett diszkrét GPU-t gyártani, a Knights Corner fejlesztéseinek egy előrehaladott fázisában született meg, amikor már nagyban folyt az elektronikai implementáció - ez valószínűnek tűnik annak fényében, hogy tavaly nyáron még Larrabee GPU-ról beszélt az Intel, és csak decemberben változtatta meg a véleményét.
A pofonegyszerű programozás ígérete
Az Intel talán elkésettnek tűnik, ami igaz abból a szempontból, hogy a vállalat eredetileg már idén piacra akart lépni első Larrabee termékeivel, valójában azonban bőséges tartalékokkal rendelkezik, a Top500 gépeinek 80 százaléka Intel processzorra épül, és a GPGPU egyelőre csak moderált ütemben nyer teret a programozási kihívások miatt. Saugen szerint a Knights termékek messze legnagyobb előnye, hogy programozási oldalról semmi forradalmit nem követelnek meg, és az eddigi Xeonra irányuló fejlesztések forráskódján nem kell változtatni, nem kell új programozási nyelvet vagy modelleket tanulni, sem új fejlesztői eszközöket használni.
Az alelnöke azt ígérte, az Intel felkészíti fordítóit és optimalizáló eszközeit a Knights termékek támogatásáraz, így a programozó egyazon forrásból és eszközkészlettel olyan bináris készíthet, amely csúcsteljesítménnyel fut a Xeon chipeken, és amely a Knights gyorsítóchipek képességeit is kihasználja. Saugen szerint a Sandy Bridge processzorgenerációval debütáló AVX vektorkiterjesztés és a Larrabee vektorkészlete konvergáló pályán mogoznak, ami arra utal, hogy később kiterjesztésekkel végül a kettő összeolvad az egységes programozási modell érdekében.
A szoftverfejlesztések támogatásához az Intel fejlesztői kártyákat is biztosít a kiválasztottak számára. A Knights Ferry kódnevű PCI Express kártya minden jel szerint a már korábban ismertetett első generációs Larrabee implementáció, kódnéven Aubrey Isle: 32 mag, magonként 4 párhuzamos utasításszál (összesen 128 fonál), 1,2 gigahertzes órajel, 8 MB koherens cache, 1-2 GB GDDR5 memória. Egy demó során a Knights Ferry egyszeres pontossággal 517 Gflops teljesítményt adott le a Linpackban is használt LU faktorizáció alatt, minimális kódoptimalizációval, és Saugen szerint nem is üzemelt az összes mag. Egyszeres pontosságú mátrixszorzásoknál a teljesítmény már most 1 Tflops feletti.
Saugen szerint a Larrabee koprocesszorok minden formában felbukkanhatnak a jövőben, így a PCI Express bővítőkártyák mellett Xeon-kompatibilis foglalatban is, amivel még nagyobb teljesítménnyel kommunikálhatnak a rendszerben, de az Intel tervezi a MICA integrációját a Xeonnal, így hibrid processzorok születhetnek, hasonlatosan a Sony és az IBM által kifejlesztett Cell Broadband Engine-hez - ugyanakkor egységes utasításkészlettel és programozási modellel, amivel könnyen és gyorsan idomíthatóak a kódok. A Larrabee első felhasználói közé tartozik a CERN, amely a Large Hadron Collider részecskegyorsító által kitermelt hatalmas adatmennyiség elemzéséhez használja a Knight Ferry káryákat.