:

Szerző: Bizó Dániel

2010. április 1. 08:46

Elindult az Intel nehézbombázója, a Nehalem-EX

Az Intel bejelentette a Nehalem-EX elérhetőségét, amely a skálázódó Xeonok egy új generációja. A chip teljesítménye bőséges fölényt biztosít az Opteronokkal szemben, és gyakorlatilag csak a Power7-nek lehet menekvése előle.

A Xeon 7500 és 6500 terméksorozatokban megjelenő chipek architekturális részletei régóta ismertek. A 45 nanométeres csíkszélességű félvezetőgyártási eljáráson készülő processzorok nyolc magot integrálnak egyetlen szilíciumdarabkára, amelyek a 2008-ban debütált Nehalem mikroarchitektúrát implementálják. Amint az ismert, a magok legfőbb jellemzője a 4 utasítás széles felépítés, agresszív soronkívüli ütemezés és elágazásbecslés, valamint a kétszálú végrehajtás támogatása a Hyper-Threading révén - jelenleg ez a legerőteljesebb x86 mikroarchitektúra, amely termékben megjelent.

Skálázódás chipen belül

A Nehalem-EX tervezőcsapatának erőfeszítései nem a magokra, hanem az azon kívüli részekre koncentráltak, mint például az L3 cache, a belső körbusz, a processzorok közti routolás és a koherenciapolitika kidolgozása, hogy a chipre alapozva akár 32 foglalatos üzleti, vagy akár több száz foglalatos szuperszámítógépes SMP-rendszerek is épülhessenek.

A Nehalem-EX szilíciumon 24 megabájt, logikailag teljesen megosztott L3 SRAM gyorstárat integrál (ami a 2,3 milliárd tranzisztor jelentős részéért felelős), az azonban 8 önálló szeletre osztott az elektronikai implementáció nehézségei miatt. Egy ekkora memóriaterületet egyben kezelni nemcsak rendkívül komplex feladat, de a sebesség is jelentős csorbát szenvedett volna. Az egyes cache-blokkokat a mérnökök egy-egy maghoz rendelték, az összeköttetést közöttük széles belső, full-duplex körbusz biztosítja, és a címzés teljesen "lapos", a késleltetésnövekedés pedig legfeljebb 5 órajel a legtávolabbi szeletből is.

A körbusz tehát valójában két, szemben forgó körből áll, vagyis egy-egy állomás két irányból is fogadhat egyszerre adatokat, azonban egyszerre csak egyet tud kiolvasni, ezért a konfliktus feloldása és a sebesség megőrzése érdekében a mérnökök polaritással látták el az egyes irányokat és az állomásokat, és az állomás csak megfelelő polaritású körből fogadja az adatokat. Mivel a körök, vagyis az adatsávok órajelenként felváltják a polaritásukat, ezért egy adott időben egy állomásra csak az egyik sávról (kör) érkezhetnek adatok, nincs konfliktus.

A körbusz vezérlőlogikája maga menedzseli, hogy a feladó és címzett közt hány állomás, vagyis órajel a távolság, és milyen a fogadó polaritása, és ennek megfelelő időben adja fel a csomagot, elkerülve azt, hogy akkor érkezzen küldemény a címzetthez, mikor az nem tudja fogadni azt, így a csomagnak meg kell tennie egy teljes kört, ami késlelteti az célba érkezését, és pazarolja a kör szállítási kapacitását. Az Intel állítása szerint a szimulált effektív sávszélesség 250 GB/s fölött van, ami négyszerese a hagyományos egyirányú körbuszénak, és az állomások számával skálázódik, miközben a késleltetés is feleakkora. A körökre a magok és az L3 cache szelet közös állomással csatlakoznak.

Skálázódás chipen kívül

A Nehalem-EX a Xeon MP vonalba is bevezeti pont-pont összeköttetéseket, és integrált memóriavezérlőt alkalmaz. A már jól ismert, nagysebességű, egyenként 25 GB/s nyers sávszélességet biztosító (full-duplex 12,8 GB/s link) QuickPath Interconnect linkekből négy került a chipre. Ezzel tökéletesen skálázódó négyfoglalatos rendszerek építhetőek, ugyanis minden chip közvetlenül képes a másikra kapcsolódni egy ilyen linken keresztül. Lehetőség adódik egyébként úgynevezett "glueless" nyolcfoglalatos felépítésre is, vagyis nincs szükség extra alaplapi vezérlőlogikára, ekkora azonban már némileg letörik a teljesítmény skálázódása, ahogyan majd később is látjuk.

Az adatok irányításáért a chipeken található routerek felelnek. Egy router nyolcportos, ebből egy-egy port jut a QPI linkekre, míg a belső cache és a memóriavezérlők felé szintén egy-egy. A miniatűr routernek szélsőséges esetekben akár 100 GB/s forgalmat is kell tudnia kezelnie anélkül, hogy eldugulna. A chip cache által tárolt adatok külső lekérdezését két ügynök kezeli, valamint rajta keresztül folyik át a meg nem talált adatok lekérése, és a koherenciaprotokollok közvetítése.

A Nehalem-EX két integrált memóriavezérlővel rendelkezik, amelyek egy-egy nagysebességű soros felületen (SMI) keresztül kapcsolódnak két-két alaplapi memóriapufferre (SMB). A pufferchipek két DDR3 csatornát vezérelnek, csatornánként kettő DIMM foglalattal, vagyis összesen 8 DDR3 csatorna és 16 DDR3 DIMM áll rendelkezésre foglalatonként - ez a hamarosan hozzáférhető 32 GB kapacitású modulokkal akár 512 GB-ot is jelenthet foglalatonként, vagyis 2 TB memóriát egy négyfoglalatos gépben. Az eredeti tervekkel ellentétben a memóriaalrendszer áttervezésével a sávszélesség a várt duplája, a leggyorsabb validált 1066-os DDR3 modulokkal akár 68 GB/s, ami 50 GB/s feletti effektív elérhető sávszélességet jelent foglalatonként.

Ki a király?

A Nehalem-EX, avagy Beckton hatalmas ugrást képvisel a Xeon MP vonalon elődjéhez, a hatmagos, már szűkösnek bizonyuló adatbuszokat használó Dunningtonhoz képest, de általában az x86 szerverek terén szintúgy. A Xeon 7500 sorozat számos teljesítményrekordot döntött meg különféle kategóriákban, lényegében az összes iparági x86-os szerverrekordot megszerezte. Az AMD a napokban dobta piacra új, a következő évek során szolgáló szerverplatformját, és 12 magos "Magny-Cours" Opteronjait, ezek azonban láthatóan nem fogják tudni felvenni a versenyt a nyolcmagos Xeonokkal. A legerősebb Nehalem-EX 2,26 gigahertzes (Xeon X7560), de három fokozatban akár 2,66 gigahertzig is képes magát gyorsítani Tubro Boosttal, ha a futtatott kód nem tölti ki a 130 wattos TDP-keretet. A teljes termékpaletta megtalálható itt

A mérnöki-tudományos számításokat összegző SPEC CPU2006 tesztcsomagban a Xeon X7560 egy kétfoglalatos konfigurációban 362 pontot ér el az egészpontos műveleteket mérő SPECint_rate_base2006 teszt során, ami 20 százalékkal haladja meg a legjobb publikált Magny-Cours eredményt. Lebegőpontos számításokban egyelőre nincs kétfoglalatos Nehalem-EX eredmény, míg a négyfoglalatos, 48 magos eredmények teljesen hiányoznak az AMD oldaláról, így az összevetés erősen hiányos itt. A HWSW becslése szerint lebegőpontos teljesítményben a Nehalem-EX és Magny-Cours közel lehetnek egymáshoz.

A 8 magos Opteron 6136 (São Paulo) processzorokkal az AMD 580 pont körüli csúcsteljesítményt (SPECint_rate2006) jelez, ami 723 bázis (base) ponttal áll szemben. Az AMD eredményét diszkontálni kellene 10-15 százalékkal az összevethetőség érdekében, így a nyolcmagos Nehalem fölénye magonként 40 százalék feletti. Hasonló kalkulációt követően a lebegőpontos számításokban 20 százalék körüli a Nehalem-EX előnye, vagyis jól látszik, hogy ezen a területen lehet keresnivalója a Magny-Cours Opteronoknak, a pontos arányok erősen kódtól függnek majd.  Az azonban látszik, hogy számításintenzív kódok alatt átlagsebességben esélye sincs az AMD-nek fölényre szert tennie másfélszeres magszám mellett sem, és kizárólag a nagyrészt a nyers lebegőpontos kapacitástól függő kódok esetében számíthat sikerre.

Pedig a HPC nem is a Nehalem-EX igazi erőssége, a chipet elsősorban adatbázisok és vállalatirányítási rendszerek kiszolgálására alkották meg, ahol kihasználhatja például a Hyper-threading adta előnyöket. Az SAP Sales & Distribution 2-tier benchmarkban 10450 felhasználót szolgál ki egy négyfoglalatos IBM x3850 X5 Windows Server 2008 operációs rendszerrel és DB2 9.7 adatbázis-kezelővel, és 57120 SAPS pontot ér el, ami 2,9-szerese a legjobb hatmagos Opteron eredménynek - látható, hogy egy 12 magos Opteron közel sem fogja beérni, a pontos különbséget azonban nehéz meghatározni.

A szerveroldali Java-alapú tranzakciófeldolgozás hagyományosan az Opteronok erőssége, itt kétszeres teljesítményt kínál az új Xeon a jelenlegi, 2,8 gigahertzes hatmagos Opteronokkal szemben, a 12 magos változatok alacsonyabb órajele azonban erősen negatívan fogja befolyásolni az eredményt, így optimális esetben is mintegy 10 százalékkal el fog maradni. Egy terület, ahol az Opteronnak esélye van megszorongatnia a Xeont, az a Java-alapú alkalmazásszerver.

A kép természetesen kódról kódra változik, ugyanakkor egyértelműnek látszik az eddigiekből, hogy az esetek többségében a Nehalem-EX rendszerek fognak győztesként kikerülni a küzdelemből, sokszor pedig nem is lehet majd igazi küzdelemről beszélni. Erre utal az is, hogy az AMD saját kommunikációja a 8-12 magos Opteronok teljesítményével kapcsolatban finoman szólva is szegényes, és a négymagos Barcelona rajtját idézi.

Az AMD végeredményben nem tud máshogyan versenyezni az Intel jelenlegi Westmere-EP és Nehalem-EX kínálatával, amely minden szegmensben szorítja, árat kellett csökkentenie. A Magny-Cours formájában ezt már meg is tette, lényegében két hatmagos Opteront ad egy áráért - ez azonban vélhetően édeskevés lesz az üdvösséghez, mivel a processzorok ára csak egy töredéke egy teljes rendszerének, viszont a teljesítményt nagyban meghatározzák, vagyis nincs árérzékenység. A teljesítményrekordokkal kapcsolatos táblázat erre található.

RISC-gyilkos?

A Nehalem-EX azonban nem ragad le az Opteronokkal szembeni küzdelemnél, mivel 8 és 16 foglalatos üzleti szerverek, de akár 64 foglalat feletti szuperszámítógépes rendszerekben is megjelenik. Ezekkel a gépekkel elsősorban a RISC-eket kívánja támadni, ennek elkerülhetetlen hatásaként pedig már Itanium processzorcsaládjának is növekvő versenyt támaszt házon belül. Ebbe a szegmensbe nem csak nagy teljesítményt kínál, de olyan fejlett képességeket is felvonultat, mint az eddig kizárólag a csúcskategóriás processzorokban meglévő machine check architektúra, amely az operációs rendszernek vagy a hypervisornak jelentve egy-egy detektált hibát megóvja a rendszert az összeomlástól, és szoftveres támogatással újraindulhat a sérült feldolgozás.

Az olyan rendszerek, mint a Fujitsu PrimeQuest 1800E és az NEC Epxress 5800 ehhez olyan fejlett szolgáltatásokat is adnak, mint a particionálás lehetősége. Teljesítmény tekintetében kizárólag a nyolcmagos Power7 képes felvenni a versenyt a Xeonnal, sőt. Sok esetben messze, processzormodellektől és kódtól függően 25-100+ százalékkal felülmúlja a Becktont foglalatonkénti teljesítményben, ugyanakkor a Power7 mindezt nagyjából másfélszeres TDP-vel és sokkal drágább és nagyobb sávszélességű memóriaalrendszerrel és összeköttetésekkel produkálja. Ez azt jelenti, hogy adott teljesítményszinthez nagyobb Xeon gépet kell vásárolni, több foglalattal és maggal, árban és fogyasztásban azonban valószínűleg még így is versenyképes lesz az Intel processzora.

A döntő szempont a szoftverek és a szoftvergazdálkodás lehet sok esetben. Az SAP S&D 2-tier tesztjében egy 8 foglalatos PrimeQuest nyújt egy 4 foglalatos Power 750 rendszerrel azonos teljesítményszintet, előbbi eredménye 16 ezer felhasználó és 87550 SAPS, utóbbi pedig 15600 felhasználó és 85220 SAPS. Míg azonban a Power7 DB2 9.7 adatbázist használt, addig a Nehalem-EX gép képes Windowst is futtatni, így a SQL Server 2008 is elérhető hozzá.

Ez jelentős költségcsökkentési lehetőséget kínál, főként, ha egy értékesítési rendszer esetében a sok felhasználó miatt processzoralapú licencelést alkalmazunk, a Microsoft ugyanis foglalatonként számláz, míg az IBM (és az Oracle is) magonként, ráadásul akár dupla összeget. Amennyiben valamiért ragaszkodunk az IBM vagy Oracle RDBMS-hez, úgy az x86 architektúra itt is előnyt jelent, ugyanis a magonként 30-50 százalékkal kevesebb licencet kell vásárolnunk, ami a Power7 erőbeli fölényének nagy részét kioltja a gazdaságossági oldalon. Az IBM és a HP kezében az utolsó ász a UNIX magasabb biztonsági és megbízhatósági percepciója, kérdéses, hogy ezt meddig tudják még eredményesen kijátszani - a SPARC esetében a Solaris elérhető x86-on is.

Összességében a Nehalem-EX egy rendkívül erős szervertermék az Inteltől, amely a szerverpiaci szegmensek példátlan szélességét célozza meg, kezdve a kétfoglalatos (nagy memóriasűrűséget igénylő) szerverektől a középkategóriás nagyvállalati adatbázis-kiszolgálókon át a gigantikus HPC-rendszerekig. Az Intel ennek érdekében sokféle modellt piacra dob, amelyek egyes területekre optimalizáltak a magok számával, a Hyper-threading meglétével és a skálázódással. A Nehalem-EX megjelenésével lezárult egy korszak is, ugyanis hamarosan megszűnik piacon lenni az utolsó, adatbuszt (FSB) használó Intel termék is, miután 2008 végén megindult a váltás.

A vezető szervergyártók a Nehalem-EX érkezésével egy időben szintén bejelentették szervereiket, amelyeknek szállításai a következő hetek és hónapok során indulnak meg. A kínálatban elérhetőek lesznek a 2-8 foglalatos "tömegszerverek", valamint a 4-16 foglalatos "mission critical", vagyis üzleti kritikus gépek is, amelyek particionálhatóságot, fokozott menedzselhetőséget és RAS képességeket vonultatnak fel.

a címlapról