Mennyire gyors az új Intel Xeon E7?
A múlt héten az Intel nyilvánosan is kiadta az új generációs Xeon E7 processzorait, a nagy gyártók kínálatában megjelentek az ezekkel szerelt rendszerek. A vállalat számos teszteredményt is publikált, amelyek képet adnak az ügyfelek által várható teljesítményről.
Az Intel által a múlt héten bemutatott új generációs Xeon processzorok továbbra is E7-*800 sorozatként kaphatók, de kaptak a modellszám végére egy v2 jelet, ahogy azt az őszi Xeon E5 frissítéskor is meglépte a cég. Ebben az a meglepő, hogy a tavaly ősszel kiadott Xeon E5 család csak kis előrelépés volt műszakilag, a processzorok azonos foglalatba illeszkedtek és a korábban megvásárolt gépeket frissíteni is lehetett rájuk, ami megmagyarázta a modellszámok változatlanul hagyását. Ezzel szemben az új Xeon E7 család két generációnyi ugrást képvisel, teljesítményben hatalmas előrelépés és teljesen új platformot is igényel. A v2 jelölés ebből a szempontból talán "understatement", ugyanakkor azt is megmutatja, az E5 és E7 család technológiailag mára ugyanott tart, mindkettő az Ivy Bridge mikroarchitektúrára épül.
Nyers CPU-teljesítmény
Az Intel, ahogy szokta, közzétette az új processzorral készült teszteredményeket is, amelyek az iparágban szokásos standard benchmarkok alatt mutatják meg az Ivy Bridge-EX generáció képességeit. Ezek alapján lapunk megpróbálja bemutatni, mekkorát is lépett előre teljesítmény terén az Intel, illetve mi a helyzet a versenytársakkal - a Xeon E7 sorozatú chipeket a vállalat nem titkoltan a hagyományos RISC processzorok ellenfeléül szánja, az ezekre épülő szerverekkel a gyártók a POWER és SPARC lapkákkal szerelt UNIX szerverektől akarnak majd vevőket elcsábítani.
A vízszintes tengelyen a tesztben elért pontszám, a magasabb érték a jobb
A tiszta CPU-teljesítményt változatos, való életből vett kódok alatt (pl. különféle szimulációk, ray-tracing, sakkfeladvány megoldása, tömörítés, programfordítás, végeselem-analízis) vizsgáló SPEC CPU2006 tesztben látszik igazán, mekkorát is lépett előre az Ivy Bridge-EX a korábbi generációhoz (Xeon E7-2870) képest, az integer és lebegőpontos kódok futtatása esetén is több mint kétszeres a teljesítményugrás. Az E7-2870 v2 még a tavaly ősszel kiadott, kétfoglalatos rendszerekbe szánt (szintén Ivy Bridge generációs) E5-2697 v2-t is jócskán megelőzi a magasabb magszám és órajel, illetve a hatalmas L3 cache miatt, amit köztudottan "szeret" ez a SPEC CPU2006, főleg a lebegőpontos műveletek.
A Xeon E5-2697 v2-nek már korábban sikerült a bravúr, az IBM POWER7+ legyőzése, az E7-2890 v2 pedig még rátett erre egy lapáttal. A teljes képhez persze hozzátartozik, hogy ennek a processzornak inkább a (HWSW által tavaszra várt), 12 magos IBM POWER8 lesz az ellenfele, amely teljesítmény terén nagy előrelépésnek ígérkezik a POWER7+-hoz mérve is, legalábbis ezt ígéri róla az IBM.
A vízszintes tengelyen a tesztben elért pontszám, a magasabb érték a jobb
Négyfoglalatos konfigurációban megjelenése óta a Fujitsu SPARC64 X tartotta a csúcsot a SPEC CPU2006 tesztjében, a japánok által tervezett processzort azonban messze lepipálja az új Xeon, ami a közvetlen elődhöz képest (E7-4870) itt is kétszeres teljesítményt hoz. Nyolcfoglalatos összeállítás esetén is meggyőző a chip fölénye a versenytársakkal szemben, az elődmodellhez képest a teljesítménynövekedés lebegőpontos kódok esetén 150 százalék feletti, ami a megnövekedett L3 cache mellett a magasabb sávszélességű QPI használatával magyarázható.
A vízszintes tengelyen a tesztben elért pontszám, a magasabb érték a jobb
Nyergeljünk most át a nem szintetikus tesztekre. Az ilyen processzorral szerelt szervereket vállalati környezetben tipikusan tranzakciófeldolgozási feladatokra szokták befogni, az új Xeonnal egyelőre TPC-E, SAP 2-tier SD és SPECjbb benchmark eredmények érhetők el.
Online tranzakciókezelés (TPC)
A TPC-E teszt egy brókercég tranzakciókezelő rendszerének működését imitálja a és a készítői szerint a futtatott workload nagyon is hasonlít a modern OLTP feladatokra. A nagy szervergyártók közül az IBM és az NEC publikált TPC-E teszteredményt, négyfoglalatos konfigurációban, Xeon E7-4890 v2 felhasználásával. A két eredmény közül az IBM-é a jobb, ezért a táblázatunkban ez szerepel. A TPC tesztek kapcsán mindenképp érdemes megjegyezni, hogy az iparágban extrémnek számító tárolókonfigurációk mellett szokták végezni őket, hogy a szerver teljesítményét ne korlátozza le a tárolóinfrastruktúra. A részletes jegyzőkönyvekből látható, pontosan milyen hardver- és szoftverkomponensek vettek részt a tesztben és azok milyen áron elérhetők, így mindenki levonhatja a következtetéseket.
A vízszintes tengelyen a tesztben elért pontszám (tranzakció/perc), a magasabb érték a jobb
Bár a nyilvánosságra hozott TPC-E eredmények száma nem túl nagy, azért lehet érdekes megállapításokra jutni a számokból. Ezek közül a legfontosabb, hogy az új Xeon-generáció már négyfoglalatos kiépítésben hozza a korábbi Xeon E7 sebességét nyolcprocesszoros konfigurációban. Ez azért hatalmas előrelépés, mert a (Xeon-alapú) szerverek ára a foglalatok számával skálázódik, a nyolcfoglalatos gépek jellemzően a felső kategóriába esnek (az IDC terminológiája alapján ez a 250 ezer dollár felett kezdődő árszint). Amennyiben sikerül négy foglalatból akkora teljesítményt kihozni, amihez korábban kétszer ennyi processzor kellett, akkor jelentősen olcsóbb hardverberuházással számolhatnak a vásárlók.
A tesztjegyzőkönyv szerint az 5576 tranzakció/perces sebességet felmutató, E7-4890 v2-re épülő IBM System x3850 X6 rendszer listaára 151 ezer dollár, míg a nyolcfoglalatos (IBM System x3850 X5, 5457 tranzakció/perc) még 252 ezer dollárba került. Magyarán szólva az új Xeonra építve 100 ezer dollárral olcsóbban kihozható egy azonos OLTP teljesítményt nyújtó rendszer, ami főleg annak fényében szép teljesítmény, ha közben észben tartjuk, hogy a vállalati adatbázisok tipikusan magalapon licencelődnek, és a 8x10 E7-8870 mag helyett 4x15 E7-4890 v2 használata miatt még a szoftverköltségen is sokat lehet megtakarítani. Ebben a konkrét példában a szervereken futó szoftver ára 140 ezer dollárral lett kevesebb, a szerver hardver+szoftver beszerzési ára így összességében majdnem negyedmillió dollárral alacsonyabb.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
A tranzakciókezelési teljesítmény kapcsán mindenképp érdemes megemlékezni arról, hogy a legnagyobb processzormagonkénti sebességet (TPC-E) a kétfoglalatos rendszerekbe szánt Xeon E5-2697 v2 adja (103 tranzakció/másodperc), négyfoglalatos kiépítésben az E7-4890 v2 ettől körülbelül 10 százalékkal marad el (92,3 tranzakció/perc) - a probléma gyökere a skálázódás romlása lehet, mert az új E7 több maggal rendelkezik és magasabb órajelen is jár. A szoftverlicenc-költségek által dominált projektek alatt ezt érdemes szem előtt tartani és ennek fényében választani konfigurációt.
SAP SD
SAP 2-tier SD eredményt kétfoglalatos konfigurációban egyelőre nem publikált egyik gyártó sem, de a négy- és nyolcfoglalatos szerverekkel végzett tesztek eredményei nyilvánosak: az új Xeon gyakorlatilag megduplázza a konkurencia sebességét. Ennek gyakorlati jelentősége megint csak az lehet mint a TPC-E teszt esetében, az új generációs processzorokkal szerelt szerverek fele annyi chippel hozzák az elődök sebességét, ami lehetővé teszi az SAP-felhasználók számára, hogy egy mérettel kisebb dobozra (pl. 8 processzor helyett 4-re) váltsanak, ami jelentős hardverköltség-megtakarítást jelent, nem beszélve olyan tényezőkről mint a support költsége, ami jellemzően a hardver árával egyenesen arányos, valamint akár az áramköltségről - igaz, üzleti feladatok alatt ez ritkán szokott nagy tétel lenni egy TCO számításban, de figyelmen kívül hagyni sem érdemes.
A vízszintes tengelyen a tesztben elért pontszám, a magasabb érték a jobb
Négy Xeon E7-4890 v2 akkora teljesítményt ad ebben a tesztben már, mint amekkorához korábban nyolc Xeon volt szükséges, de ami még ennél is meglepőbb, az IBM nyolcfoglalatos POWER7+ szerverének sebességét is megközelíti ez a konfiguráció. A nyolcfoglalatos E7-8890 v2 (Fujitsu PRIMEQUEST 2800E) teszteredménye bőven felülmúlja a 8 foglalatos, 128 magos SPARC T5-8 sebességét és a 12 foglalatos, 96 magos IBM POWER7+ szerveréhez közelít.
A vízszintes tengelyen a tesztben elért pontszám, a magasabb érték a jobb
Java szerverfeladatok
Java teljesítménytesztből két eltérő eredményt tett közzé az Intel. A négyfoglalatos konfiguráció teljesítménye a tavaly ősszel visszavonultatott SPECjbb2005 benchmarkban az előző generációs Xeon E7-hez képest bő 80 százalékkal magasabb, és a kategóriában korábbi csúcstartó POWER7+ teljesítményénél is jobb. Ez megint az a teljesítményosztály, amihez korábban nyolcfoglalatos rendszert kellett vásárolni - a nyolcfoglalatos gépek által elért legjobb eredmények 5,03-5,32 millió pont körül vannak a SPEC adatbázisában.
A vízszintes tengelyen a tesztben elért pontszám, a magasabb érték a jobb
A SPECjbb2013 teszt egy világméretű kiskereskedelmi lánc háttérrendszerének működését szimulálja, online tranzakciókkal és párhuzamosan futó komplex üzleti lekérdezésekkel. A benchmarkban négyfoglalatos konfigurációban a Xeon E7-4890 v2 177 ezer feletti pontszámot ért el, ami kétszerese a SPARC64 X eredményének azonos kiépítésben és 70 százalékkal múlja felül a korábban publikált legjobb nyolcfoglalatos Xeont (E7-4870). A nyolcfoglalatos Ivy Bridge-EX gép 214 ezer pont feletti pontszáma pedig minden eddiginél magasabb - a teszt, ahogy a neve is mutatja, elég új, egyelőre kevés a publikált eredmény, azok is jobbára a két-négyutas Xeonok közül kerülnek ki.
A vízszintes tengelyen a tesztben elért pontszám, a magasabb érték a jobb
Fele annyi processzor is elég mint korábban
A "friss" Java szerverteszt is azt mutatja, hogy az új Xeonra épülő rendszerek fele annyi processzorral hozzák az előző generációs (Westmere-EX) gépek teljesítményét, másképp fogalmazva az egy processzorra jutó teljesítmény hozzávetőleg 100 százalékkal nőtt, ami igen tisztességes előrelépésnek mondható. (Másfelől a táblázatból jól látszik, hogy szerveroldali Java futtatásakor az új processzor is komoly skálázódási korlátokba ütközik, kétszer annyi foglalat mellett a teljesítmény csak 21 százalékkal nőtt.)
A hazai felhasználók számára ez azért igazán örvendetes, mert mostantól kevés kivételtől eltekintve mindenki számára elegendő lehet egy négyfoglalatos rendszer, legalábbis ami a teljesítményt illeti, és a nyolc vagy ennél több foglalattal rendelkező gépek átkerülhetnek a "felesleges úri luxus" kategóriába. Ugyanezen ok miatt azok a gyártók, amelyek nyolcfoglalatos Xeon-alapú szerverekkel (pl. ProLiant DL980) indultak a tendereken, azzal szembesülhetnek, hogy megérkeztek a nyakukra a konkurensek, négyfoglalatos gépe ugyanis minden komoly x86-os gyártónak van. A verseny tehát élesedni fog a szállítók között, aminek az ügyfelek lehetnek a nyertesei.
Azok a felhasználók, akik pedig négyfoglalatos gépeket vásároltak teljesítménykorlátok miatt, a jövőben átnyergelhetnek a kétfoglalatos konfigurációkra, amelyeket a piacon uralkodó erőteljes árnyomás miatt szinte már dömpingáron vásárolhatnak meg. Az ősszel piacra dobott Xeon E5 processzorokhoz képest a most bemutatott E7 lapkák legfontosabb előnye a még nagyobb támogatott memória, foglalatonként akár 1,5 terabájt, ami az in-memory alkalmazások mellett virtualizációs, konszolidációs projektek indításakor teszi őket megfontolandó választássá. Természetesen nem szabad arról sem elfelejtkezni, hogy az extrém memóriaméretű gépek drágák lesznek, mint ahogy ennyi memória megvásárlása sem olcsó mulatság, a fogyasztásról és hűtésről nem is beszélve.
A fogyasztás és a hűtés kérdése más szempontból is fontos: ahogy a korábbi cikkünkben is szerepelt, az új E7 generáció csúcsmodelljei már 155 wattos TDP értékkel rendelkeznek, ami majdnem 20 százalékos növekedést jelent az elődökhöz viszonyítva. Ez azt jelenti, hogy hiába javult sokat az energiahatékonyság, a nagyobb teljesítményt a villanyszámlán is meg kell fizetni, ami az áramfogyasztási költségek által dominált alkalmazások alatt (tipikusan ilyen a webhoszting) rontja a gazdaságossági mutatókat - igaz, ezekre a feladatokra amúgy sem Xeon E7-et szokás választani. A másik következménye ennek az lehet, hogy a jobban kiépített és főleg memóriával megtömött rendszerek hűtésére oda kell majd figyelni olyan esetekben, amikor egy szerverterem kapacitását, a rackekben elhelyezhető gépek mennyiségét a kezelhető teljesítménysűrűség (hűtés vagy a fogyasztás oldalán) korlátozza.