Ütősnek ígérkezik a SPARC T4
A múlt héten zajlott Hot Chips konferencián az Oracle újabb részleteket árult el SPARC T4 processzoráról, amelynek kereskedelmi rajtja még az év vége előtt esedékes, feltehetően a Solaris 11 operációs rendszerrel együtt. A T4-alapú gépeket a HWSW ismeretei szerint már kiválasztott ügyfelek is tesztelik, vagyis a fejlesztések jól haladnak.
Az Oracle eddig nagyon szűkösen bánt az információkkal a T4 processzorról, mindössze annyit lehetett tudni a nyolcmagos, magonként 8 szálat kezelő chipről, hogy jóval nagyobb szálszintű teljesítményt nyújt a T3-nál. Erre azért is van szükség, mert várhatóan a T4 magjain alapulnak majd az Oracle nagy teljesítményű chipjei is, amelyeket legnagyobb skálázódó szervereibe épít majd a vállalat. Miután kiderült, hogy a Rock kódnéven dédelgetett, korát megelőző processzor életképtelen, a Sunnál gyorsan B-tervet kellett készíteni. Az elképzelések szerint egy közös processzortechnológiai fejlesztési mederből több derivatív termékvonal ágazik majd le, a célpiacon futtatott kódok igényeit szem előtt tartva, vagyis a T4 magjainak leszármazottai kerülhetnek később a legnagyobb teljesítményű, üzleti kritikus Oracle szerverekbe is.
Kevesebb, de erős mag
A Hot Chipsen elhangzott prezentáció alapján a Yellowstone Falls kódnevű SPARC T4 teljesen új, S3 kódnevű processzormagokat kapott, amelyeket viszonylag magas órajelek elérésére terveztek - a 16 fokozatú fixpontos futószalag és a 11 fokozatú lebegőpontos futószalag akár 3 GHz feletti frekvenciát is lehetővé tesz. Persze ez távolról sem jelenti azt, hogy az első kereskedelmi T4 példányok rögtön 3 GHz feletti órajelen nyitnak, de a mikroarchitektúrában megvan a potenciál az órajel skálázódására. A szakma 2,5 és 3 GHz közötti induló órajelet vár egyébként, ami már önmagában nagyot dobna a teljesítményen - a SPARC T4 közvetlen elődje, a T3 1,66 GHz-es órajelen működik.
A SPARC T4 egy magja
A T4 lehet a Sun/Oracle első olyan, kereskedelmi forgalomba kerülő processzora, amely out of order felépítésű magokat tartalmaz, vagyis az utasítások végrehajtási sorrendje nem követi a programban elfoglalt helyüket (a vállalat korábban is tervezett ilyen chipeket, azonban a Millennium, a Gemini és a Rock kódnevű egységek nem kerültek piacra). Az utasításszintű párhuzamosság növelése az egyik módja a számítási teljesítmény növelésének, a cél az, hogy a végrehajtóegységek ne maradjanak kihasználatlanul, ne várakozzanak feleslegesen más műveletekre. A T4-ben az ütemező nyolc szálból választhat két utasítást, amelyeket elküldhet a végrehajtóegységeknek.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
Nem csak a magok, hanem a cache-hierarchia is teljesen átalakult a T3-hoz képest: a T4 magjai a T3-énál kétszer nagyobb, 16 kilobájtos elsőszintű adatcache-t kaptak, az utasításcache mérete azonban maradt 16 kilobájtos. A T4-ben minden maghoz 128 kilobájtos L2 gyorsítótár tartozik és a nyolc mag ezenfelül megosztozik egy 4 megabájtos harmadszintű cache-en, míg a T3 esetében 4 megabájt L2 cache állt a 16 mag rendelkezésére és nem volt harmadszintű gyorsítótár.
Teljesítmény
A korábbi T-sorozatú processzormagokban a szálváltás ütemezése időszeleteléssel történt: a chip minden órajelciklusban szálat váltott - ez a megközelítés nem igénye bonyolult logikát és kétségtelenül jól működik akkor, ha a futtatott feladat sok szállal tudja terhelni a processzort, Az ütemezés a T4-ben is azonos, de a magok már rendelkeznek egy ún. "critical thread API"-val, ami lehetővé teszi hogy egy teljesítménykritikus programszál teljesen kisajátítson egy processzormagot és annak minden erőforrását, hogy a legnagyobb sebességgel futhasson. Ehhez azonban szükséges az operációs rendszer támogatása is, a "critical thread API" feltehetően először a Solaris 11-ben bukkan fel, amelynek megjelenése szintén 2011-re várható.
Az Oracle prezentációja szerint a fixpontos teljesítmény a T3-hoz képest ötszörösére, a lebegőpontos teljesítmény pedig hétszeresére nőtt a SPEC_cpu2006 benchmark alapján - ezt azonban feltehetően csak úgy lehet elérni, ha egy szálhoz a "critical thread API"-val egy mag minden erőforrását hozzárendeljük, vagyis a szálszintű teljesítmény oltárán fel kell áldozni a "throughputot", vagyis az áteresztőképességet. Amennyiben a felhasználó így tesz, a harmatos T3-hoz képest valóban jelentős teljesítménynövekedést realizálhat.
Konkrét teljesítményadatok egyelőre nem állnak rendelkezésre, a HWSW előrejelzése szerint a T4 elegendő lesz ahhoz, hogy az Oracle mérnökeinek ne kelljen szégyenkezniük, ha egyszálú teljesítmény van terítéken. Az nem valószínű, hogy a SPARC T4 utoléri a leggyorsabb szerverchipeket (IBM Power7, Intel Xeon), de nem is ez a célja az Oracle-nek, hanem mint minden más hardverrel, az, hogy a saját szoftverei alá megfelelő hardvert tudjon kínálni. A SPARC T4 is tartalmaz olyan képességeket, amelyeket kihasználva az Oracle szoftverek nagyobb teljesítményt érhetnek el. Az egyik ilyen a beépített kriptomotor, amely számos különféle titkosítási eljárást (pl. AES, DES, Kasumi, Camellia, CRC32c, MD5, SHA-1, SHA-256, SHA-512, MPMUL, MONTMUL, MONTSQR) képes gyorsítani. Ennek főleg adatbázisok esetén lehet jelentősége, a nagyvállalatoknál egyre gyakoribb igény a biztonságos hozzáférés.
Az igazán nagy előrelépést teljesítmény terén a T4-et kiszolgáló infrastruktúra is korlátozza: a memóriavezérlő kétcsatornás DDR3-1066, emellett két PCI Express x8 vezérlő és két 10 gigabites Ethernet-kontroller került a chipre (a T3 négycsatornás memóriavezérlővel rendelkezik). A processzor legfeljebb négy foglalatig skálázódik "glueless", valószínűleg ennél nagyobb szervereket nem is épít rá az Oracle.
Két év múlva 28 nanométeren
A SPARC T4-et elődjéhez hasonlóan a TSMC gyártja 40 nanométeres csíkszélességgel - a lapka 855 millió tranzisztorból áll mindössze, vagyis kevesebből mint az 1 milliárdot zsúfoló T3. A SPARC T4-et követő chipgeneráció, a T5 már 16 maggal rendelkezik, mondta el korábban Rick Hetherington, aki az Oracle chipfejlesztési tevékenységét irányítja. A magok számának duplázását a félvezetőtechnológia fejlődése teszi lehetővé, ez a lapka már a TSMC 28 nanométeres csíkszélességű eljárásán készül és várhatóan a T4 után egy-másfél évvel, vagyis valamikor 2013 elején kerülhet piacra.
Hogy a T4-ben is használt magok leszármazottai milyen más processzorokba kerülnek be, egyelőre nem tudni, az Oracle ugyanis mélyen hallgat a chipfejlesztési terveiről, a Sun bekebelezése óta csak egészen nagy vonalakban ismerteti elképzeléseit.