Power7: jövőre is az IBM a teljesítménybajnok
Kiszivárgott a Power7 előzetes teljesítményképe. Az eddigi ismereteknek megfelelően az IBM következő generációs szerverprocesszora hatalmas ugrást képvisel mind az abszolút teljesítmény, mind a teljesítménysűrűség, valamint az energiahatékonyság terén.
Az IBM elsőként az augusztusban megrendezett Hot Chips konferencián beszélt Power7 processzorának architekturális részleteiről, egyúttal utalt annak potenciáljára is. Azt már régóta, legalább egy éve tudni lehetett, hogy az új szerverchip szakít elődje, a Power6 felépítésével, és az extrém magas órajelek felől a párhuzamosság felé fordul, és 8 magot integrál majd.
Kiegyensúlyozott
Az IBM a vezető szerep megtartása érdekében a Power6-hoz képest alapjaiban megváltoztatja a Power7 felépítését, ennek ellenére kiegyensúlyozottan igyekszik növelni annak teljesítményét, hogy a szálankénti, magonkénti, foglalatonkénti és rendszerszintű teljesítmény is egyaránt növekedjen. Megfordítva, az IBM el akarta kerülni, hogy az energiahatékonyság és az abszolút teljesítmény fokozása által diktált masszív párhuzamosság oltárán feláldozza a szálankénti vagy akár csak a magonkénti teljesítményt.
Ez nem csak marketing szempontból nem volna szerencsés, a csökkenő magonkénti vagy szálankénti teljesítmény sok esetben komoly fejtörést okozhat valódi alkalmazási területeken is, például az egyes válaszidők vagy lefutási idők kerülhetnek a megadott küszöbértékeken kívül, miközben a magonként licencelt szoftverek költsége is megnövekedhet. Ez sok esetben értelmetlenné tenne mindenféle hardveres fejlesztést, mivel a licencköltségek sokszor az alkalmazott processzormagok számától függ - az IBM szoftvereinek nagy része is ilyen licencelési formát alkalmaz, de a nagy szoftverszállítók közül az Oracle is előszeretettel használja ezt a modellt.
A Power7 teljesítménykoncepciója (nem valós adatok)
A Power7 tehát azt a nem kis bravúrt igyekszik végrehajtani, hogy egyetlen gyártástechnológiai generáció alatt úgy négyszerezi meg a magok, és nyolcszorozza meg a szálak számát, hogy a valós teljesítményben a felhasználó ne tapasztaljon sehol sem csökkenést, sőt, kifejezetten gyorsulást tapasztaljon. Ennek érdekében az IBM 45 nanométeres SOI-eljárásán implementált Power7 alapvetően különböző mikroarchitektúrát képvisel elődjéhez képest, és áttörő újításként eDRAM-ot is integrál a processzoron - ez gyártástechnológiai okokból korábban lehetetlen volt, ezért az eDRAM L3 külső diszkrét chipen helyezkedett el.
A Hot Chipsen már prezentáltak alapján a célok érdekében a magok szélesebbek lettek, órajelenként immár 5 helyett akár 8 utasítást is képesek befogadni, és 6 feldolgozását el is tudják indítani. A magok kettővel több, vektorizálható lebegőpontos végrehajtóegységgel rendelkeznek, amivel az IBM elsősorban a szuperszámítógépes felhasználást célozta meg, a Power7 kifejlesztése ugyanis része egy szuperszámítógépes DARPA projektnek, melynek célja a petaflopsos rendszerek létrehozása. Visszatért az agresszív soron kívüli végrehajtás (OoO), és kettő helyett már négy szálat hajt végre párhuzamosan egy mag, melyek a 12 végrehajtóegységen osztoznak. Ez 32 szál chipenként, akár 1024 vastag fonál a legnagyobb SMP-rendszerben.
A 6T-SRAM-nál sokkal helytakarékosabb eDRAM-nak köszönhetően 32 megabájt L3 tárat kapott a szilíciumra integrálva a chip, ami így is mindössze 1,2 milliárd tranzisztort számlál, és 576 négyzetmilliméter területet foglal el - az IBM ezzel 1,5 milliárd tranzisztort spórolt meg. Az integrációnak köszönhetően az L3 elérése hatszor gyorsabb mint korábban, így kisebb, 256 kilobájtos L2 tárak is elegendőek, melyek gyorsabbak, ahogyan kisebbek és fürgébbek lettek az L1 cache-ek is, méretük 32 kilobájt. Egy chip kettő, egyenként négycsatornás DDR3-vezérlővel rendelkezik, melyek összesen 100 GB/s effektív sávszélességet képesek fenntartani - ez háromszorosa például a Nehalemek elméleti maximumának, és másfélszerese annak, mint amire egy Power6 chip képes.
Bravúrnak ígérkezik
A szélesített magoknak, az agresszív OoOE motor visszatérésének, a négy szálnak, gyorsabb cache-hierarchiának, a magasabb memória-sávszélességnek köszönhetően a magonkénti teljesítmény növekszik, annak ellenére, hogy a Power7 órajele 3,5-4 GHz magasságába várható, szemben a Power6 4-5 gigahertzével. Az IBM prezentációja alapján kereskedelmi feladatok alatt nagyjából harmadával, 35 százalék körül növekedett a magonkénti sebesség. A chip egészére vetítve a több mint ötszörös teljesítmény nyújt egy Power7 chip egy Power6-hoz képest, amit már kétségtelenül a négyszeres magszám és nyolcszoros párhuzamosság magyaráz leginkább.
Számításintenzív feladatokban a különbség még nagyobb, lebegőpontos feladatok esetén magonként 60 százalék, chipenként pedig több mint 500 százalék a különbség, míg integer műveleteknél ezek a mutatók rendre 40 és 450 százalék körüliek a prezentáció alapján - a lebegőpontos műveletek esetében a tovább nyíló különbséget nyilvánvalóan az extra végrehajtóegységek magyarázzák. Ezek természetesen csak irányadó számok, melyeket nem részletezett tovább az IBM, de valószínűsíthető, hogy a lebegőpontos és fixpontos számítások SPEC CPU2006 kódokat, míg a kereskedelmi feladatok egy OLTP-szerű, például TPC-C alkalmazást takar.
Az IBM ugyanakkor ezeket a számokat csak processzorszinten adta meg, így figyelmeztet, hogy ez alapján ne kalkuláljunk rendszerszintű teljesítménynövekedést. Való igaz, a Power7 a Power6 által használt infrastruktúrát használja, vagyis a Power7 \"processor bookokat\" ugyanazok a kommunikációs linkek kapcsolják egymáshoz, és az IBM ígérete szerint a Power 595 és 570 rendszereket biztosan lehet upgrade-elni majd. Ez nagyobb rendszerek esetében némileg ronthat a Power7 chipek nyers teljesítményén, ugyanakkor az IBM közel lineáris skálázódást ígér még így is. A valós teljesítmény természetesen számos más tényező is befolyásolhatja, így például a szoftverek skálázódása vagy a diszk I/O-alrendszer is válhat szűk keresztmetszetté.
A Power7 chipenként 360 GB/s aggregált interprocesszor sávszélességgel rendelkezik a többi lokális (egy bookon vagy MCM-en lévő) chip és a távoli chipek felé, és 20 ezer koherenciaművelet egyidejű követésére képes. Az I/O sávszélességről egyelőre nincs adat, a feldolgozási kapacitás koncentrációja miatt az IBM valószínűleg itt is megnöveli a GX I/O busz sebességét vagy azok szlességét. A Power6 chipenként (GX buszonként) 20 GB/s, bookonként (négy chipenként) 80 GB/s nyers I/O-kapacitással rendelkezett, ami döntő szerepet játszik abban, hogy a Power6 rendszerek uralják az olyan I/O-intenzív feladatokat, mint amilyen a TPC-C is. Egy teljesen kiépített Power 595 640 GB/s nyers I/O-sávszélességgel bír, ezzel szemben a legnagyobb Sun SPARC Enterprise M9000 birtokában 272 GB/s, míg a legnagyobb Superdome rendszerben 172 GB/s van - utóbbi esetében azonban például a processzorok és memória felé mindössze 32 GB/s a nyers elérés, mivel 2-8 processzoros cellánként csak 2 GB/s áll rendelkezésre, ami tized-negyvened része a Power rendszerekben elérhetőnek.
Visszatérve a Power7 teljesítménymutatóira, nem teljesen világos azonban az sem, milyen hardverkonfigurációkkal történt az összevetés, egyes felvetések szerint elképzelhető, hogy azonos órajelre normalizált az IBM - ez ellen szól, hogy a meggyőző fölényhez ilyen trükközésekre nincs szükség. Akárhogyan is, a Power7 rendszerek hatalmas előrelépéssel kecsegtetnek valamikor 2010 első felében, a jelek szerint magasan túlszárnyalva a generációs váltásnál elvárt kétszeres teljesítményt.
A tesztlaborokban már jó ideje üzemelő Power7 egyaránt lehetőséget kínál a meglévő igények alacsonyabb költségű kiszolgálására (például kevesebb szoftverlicenc, kevesebb gép), vagy a növekvő teljesítményigények lekövetésére, akár a kinőtt Power 595 vagy 570 \"dobozon\" belüli felfejlesztésével - bookos (avagy cellás) felépítésű még a 560 Express is, ennek fejleszthetőségéről azonban nincs publikus információ.
A szálankénti sebesség optimalizálását segíti, hogy lehetőség nyílik a szimultán végrehajtás egy- vagy két szálra korlátozására is. A Power7 is képes a Nehalemhez hasonló turbo módra, mikor a chip által fel nem használt energiakeretet a chip képes az órajel fokozására fordítani, legfeljebb 10 százalékkal, magonként függetlenül. Az energiatakarékosság érdekében a magok egy meghatározott, a nominálishoz képest -50 és 10 százalékos tartományban dinamikusan képesek frekvenciájukat és tápfeszültségüket kalibrálni a terhelés függvényében, miközben lehetőség nyílik az energiamaximum kézi kalibrálására is.
A Power7 processor book
Erre valószínűleg leginkább a multi-chip modulokat használó nagy szuperszámítógépes installációknál lehet szükség olyan esetekben, mikor betáplálási vagy hűtési rendszer elérte határait. A kiszivárgott információk szerint egy négy Power7 chipet tartalmazó MCM (multichip modul) akár 800 wattot is fogyaszthat. Az IBM azt ígéri, hogy a Power7 ugyanabba az energiakeretbe fér bele, mint a Power6. A lapka természetesen többféle kivitelben is hozzáférhető lesz majd, az MCM-ekkel leginkább a magas számítás sűrűségű területeket célozza meg a vállalat, míg a leggyorsabb chipek egy önálló kerámiatokba kerülnek. Lesz belépőkategóriás modell is 2-4 utas blade és vékony rack szerverekbe, ahol mindössze egy memóriavezérlő aktív, és az interchip összeköttetések sebessége is fele a teljesnek.
Köszönhetően a brutális sávszélességeknek és az extrém órajelnek a Power6 rendszerek jelenleg is a legnagyobb teljesítményűek közé tartoznak, ami az üzleti alkalmazásokat illeti, így a Power7 a jelek szerint igen magasra fogja tenni a lécet. Egyedüli potens ellenfelének kezdetben kizárólag a skálázódó rendszerekbe szánt, és szintén 2010 első felében érkező nyolcmagos Intel Nehalem-EX ígérkezik, mely 8 foglalatig addicionális támogató logika nélkül képes skálázódni, chipset segítségével pedig akár 32 foglalatig is, ami 256 magot és 512 szálat takar. A Beckton kódnéven is ismert, teljes harci díszben legfeljebb 2,26 gigahertzes chip 24 megabájt L3-mal bír, és a 8 DDR3-csatornával, valamint a QuickPath direkt interprocesszor-összeköttetésekkel felveheti a versenyt, esetleges abszolút teljesítménybeli hátrányát pedig agresszív árazással ellensúlyozhatja. Messzebbre tekintve az új platformot kapó Itanium is potens ellenféllé válhat 2011-ben, ha az Intel a jövő év első felére ígért Tukwilát követően nem sokkal kihozza a Poulson kódnéven ismert, 32 nanométeres Itaniumot - ez azonban jelenleg teljesen homályos távolság.