Szerző: Bodnár Ádám

2008. augusztus 21. 13:04

Nehalem: minden részlet a helyére került

A héten rendezett San Franciscó-i Intel Developer Forum fókuszában természetesen a hónapokon belül piacra kerülő következő generációs processzor áll. A Nehalem az Intel történetének mérföldköve, mely minden téren fölényre tör megjelenésekor.

Az Intel pár éve kockázatkezelési okokból bevezetett tik-tak stratégiájának lényege, hogy a vállalat páros években új gyártástechnológiát, páratlan években pedig új mikroarchitektúrát vezet be. Ennek szellemében a 45 nanométeres csíkszélességgel gyártott Penryn után egy évvel, mely a két éve debütált Merom továbbcsiszolt miniatürizációjának tekinthető, következik a Nehalem kódnevű új mikroarchitektúra, amely legelső változataiban már az idén piacra kerül, de a család kiteljesedése 2009-ben esedékes. A héten rendezett San Franciscó-i Intel Developer Forum (IDF) fókuszában természetesen a hónapokon belül piacra kerülő következő generációs processzor áll.

A Nehalemmel az Intel célja egy olyan ütőképes processzor megalkotása volt, mely minden területen bevethető. Egy olyan processzort, mely elég nagy teljesítményt nyújt egy szál futtatása esetén, ugyanakkor hatékonyan képes kiszolgálni a párhuzamosított alkalmazásokat is. Moduláris felépítése révén az architektúra mobil, asztali és szerverkivitelben is megjelenik, az eltérő felhasználási területeken felmerülő változatos igényeknek mind meg kell felelnie: összességében a lehető legnagyobb teljesítményt kell nyújtania alacsony fogyasztás mellett.

Ütőképes teljesítmény: fejlettebb magok és új rendszerarchitektúra

A Nehalem valóban mérföldkő az Intel történetében, ugyanis az első olyan processzora, amely mellőzi a hagyományos adatbuszt, és egy közvetlen pont-pont összeköttetésen alapuló új infrastruktúrára, a QuickPath Interconnectre épül (hasonlóan az AMD által már egy ideje alkalmazott Hyper-Transporthoz), és memóriavezérlőt is integrál a processzormagokkal közös szilíciumlapkára. Ennek köszönhetően a processzorok számának növelésével a teljesítmény közel lineáris skálázódását ígéri az Intel, ami elsősorban a szerverváltozatok esetében jelent majd drasztikus előrelépést az Opteronokkal, illetve más architektúrákkal (Power, SPARC, Itanium) folytatott küzdelemben.

A jövőben a QuickPath Interconnect lesz az Itaniumok infrastruktúrája is, egyfelől komoly teljesítménynövekedést hozva a kritikus feladatokat kiszolgáló platformra, másfelől olcsóbbá téve a rendszerek tervezését, validálását is. Mindez ugyanakkor nem jelenti azt, hogy az Itanium és a Xeonok teljesen megegyező infrastruktúrát kapnának akár a foglalatszintű kompatibilitásig, a QuickPath ráadásul valójában nem egy konkrét implementációt definiál, hanem sokrétű kommunikációs technikákat gyűjt össze. Az Itanium és Xeon MP rendszerek QuickPath összeköttetéseit például magasabb szintű RAS-képességekkel vértezik fel, valamint jelentős eltérések lehetnek a chipek QuickPath linkjeinek a számában is.

Mit is jelent a moduláris felépítés? Azt, hogy a Nehalemből két-, négy- és nyolcmagos változat egyaránt piacra kerül, de a különféle felhasználási területekre (mobil, desktop, munkaállomás, szerver, stb.) szánt verziók nem csak a magok számában különböznek egymástól, hanem egyéb jellemzőikben is, például a harmadszintű cache méretében, a memóriavezérlők és a QuickPath Interconnect kapcsolatok számában, valamint az energiagazdálkodási jellemzőkben is, egyes változatok pedig akár integrált grafikus magot is kaphatnak a jövőben.

A Nehalem a Core mikroarchitektúra inkrementális, de jelentős továbbfejlesztésének tekinthető, az Intel mérnökei számos változtatást vezettek be, egyfelől a teljesítmény növelése, másrészt a fogyasztás csökkentése érdekében. A fejlődést jól mutatja, hogy a Nehalem magjai egyenként 25 százalékkal nagyobbak a Penrynben alkalmazott magoknál. A mikroarchitektúra újdonságai közé tartozik az SSE4.2 vektoros utasításkészlet támogatása, a Hyper-Threading szimultán többszálú végrehajtás újbóli megjelenése, a másodszintű becslőkkel kiegészített elágazásbecslő logika, valamint a hatékonyabb soronkívüli végrehajtást támogató megnövelt pufferek.

Hogy maximális teljesítményt préseljenek ki, az Intel tervezői erőteljesebb soronkívüli végrehajtást végző motorral vértezték fel a chipet. Az ütemező 96 helyett immár 128 mikroutasításból válogathat a végrehajtóegységek kihasználtságának fokozása érdekében -- vagyis az utasítászintű párhuzamosság növelésével emelkedhet az órajelenként elvégzett hasznos munka mennyisége. A teljesítményt tovább javítja az egymástól független cache-hozzáférések gyorsabb végrehajtása, valamint a szinkronizációs primitívek gyorsítása, mely leginkább a többszálú végrehajtást támogatja. Egy másodszintű TLB (translation look aside buffer, memóriacím fordítási tár) bevezetésével gyorsulnak a virtuális-fizikai memóriacímek megfeleltetései, ami főként nagy memóriaigényű, memóriaműveletekben intenzív kódok alatt, így virtualizált környezetben jelenthet leginkább előnyt. Mint látható, a Nehalem a PC-s kódok alatt igen jól teljesítő Core mikroarchitektúra szerverfeladatokra is felhangolt változata.

Gyors és hatalmas memória

Jelentősen megváltozott a Nehalem cache-hierarchiája is, amelyet eleve háromszintűre terveztek. Az elsőszintű, 32+32 kilobájt méretű, nyolcutasan asszociatív utasítás- és adatgyorsítótárakhoz magonként dedikált 256 kilobájtos, szintén nyolcutasan asszociatív L2 cache tartozik, amelyet egy inkluzív 8 megabájtos osztott harmadszintű gyorsítótár egészít ki, legalábbis ami a négymagos változatot illeti (a két- és nyolcmagos verziók specifikációit az Intel egyelőre nem közölte).

A cache-ek módosítására elsősorban a négy mag egyetlen szilíciumon történő integrálása miatt volt szükség (a jelenlegi négymagos Intel processzorok két lapkából épülnek fel), ráadásul maguk a processzormagok a fentebb ismertetett fejlesztéseknek köszönhetően a Core-nál is jobban éheznek az adatokra, másfelől a memóriavezérlő szervezése is gyökeres változáson esett át. A négymagos asztali Nehalem háromcsatornás DDR3-1066 memóriavezérlőt integrál, amelyek kumulált sávszélessége 33 gigabájt másodpercenként -- ez nagyjából háromszorosa a korábbi maximumnak, ráadásul a késleltetés is látványosan csökkent, hiszen az adatok betöltésekor sem a kérésnek, sem maguknak az adatoknak nem kell végigjárnia a távoli chipetseten ülő vezérlőt és a lassú adatbuszt. Az Intel a Harpertownhoz (jelenlegi négymagos Xeon 1600 MHz-es front side buszon) képest 40 százalékos késleltetés-csökkenésről beszél.

A Nehalem egy memóriacsatornájához legfeljebb három DIMM csatlakoztatható, foglalatonként összesen tehát kilenc memóriamodul. Az Intel ígérete szerint a Nehalem rajtjára már piacon lesznek három memóriamodult tartalmazó csomagok, így a Core i7 Extreme Edition vásárlóinak nem kell feleslegeen megvennie egy négydarabos csomagot. A MetaRAM technológiájával ma már 8 gigabájtos DIMM-ek is gyárthatók, így egy kétfoglalatos szerver vagy munkaállomás akár 144 gigabájt memóriát is könnyedén fogadhat, amint azt az IDF-en láthattuk is.

[oldal:Energiahatékonyság, Dunnington]

Energiatakarékos technikák

A Nehalem mikroarchitektúrális újdonságai többé-kevésbé eddig is ismertek voltak, azonban a chip fejlett energiagazdálkodási képességeiről vajmi keveset árult el eddig az Intel. Az IDF-en azonban végre fellebbent a fátyol ezekről is. A Nehalem hatékony működését egyfelől egy dedikált energiagazdálkodási vezérlőnek köszönheti, részben pedig gyártástechnológiai fejlesztéseknek. A négymagos Nehalem 731 millió tranzisztorából 1 milliót az az integrált mikrokontroller emészt fel, amelynek feladata csak a fogyasztás optimalizálása a terhelés és a hőmérséklet függvényében. A Nehalem minden komponense külön-külön órajellel rendelkezik, és egymástól teljesen függetlenül küldhető akár a legmélyebb alvás (C6) állapotába -- ekkor a fogyasztása lényegében nulla. Ez a változás ráadásul villámgyorsan végbemegy.

Az intelligens vezérlésnek köszöhetően a chip egyes részei képesek "turbófokozatba" kapcsolni, amikor arra szükség van. Ha egy négymagos Nehalem két magja tétlenül pihen, a felszabaduló termikus és fogyasztási keretet a logika arra használja fel, hogy a terhelt magok órajelét átmenetileg megnövelje, ezáltal a teljesítmény javul, miközben a chip fogyasztása változatlan marad. Ha a lapka fogyasztása nem éri el az előre meghatározott TDP-t, a logika akár az összes mag órajelét képes megemelni a nagyobb teljesítménz érdekében. A Nehalem energiagazdálkodását vezérlő elektronika teljesen független a platformtól vagy a futó alkalmazásoktól, így arra nem szükséges a szoftvereket külön optimalizálni, ugyanis a Turbo Mode a szoftverek felé ugyanolyan interfésszel rendelkezik, mint az Intel Enhanced SpeedStep.

A 45 nanométeres gyártástechnológia fejlesztése tette lehetővé az Intel számára, hogy az eddig is agresszívan alkalmazott órajelkapuzás mellett teljes "power gatinget" alkalmazzon. Az órajelkapuzás esetében a chip egyes részei felé megszűnik az órajel továbbítása, a "power gating" esetében azonban a blokkok tápfeszültsége is lekapcsol, az Intel szerint ezzel a dinamikus disszipáció mellett a szivárgási áramból eredő statikus disszipáció is agresszívan csökkenthető. Ehhez speciális, fémből készült tranzisztorokat alkalmaz az Intel, amihez szükség volt a gyártástechnológia finomhangolására is.

További trükk, hogy a processzormagban található összes memória (pl. L1 cache) nem az eddig általánosan elterjedt 6T SRAM blokkból épül fel, hanem kissé nagyobb 8T cellákból, amelyek kedvezőbb fogyasztási karakterisztikával bírnak. További érdekesség, hogy a tervezők a Nehalem összes adatútját tiszta CMOS-ból alkották meg, ami a lehető legkedvezőbb fogyasztást teszi lehetővé.

Nagyon gyors a Nehalem

Az már korábban kiderült, hogy a Nehalem végül Core i7 néven lesz kapható, illetve magáról a mikroarchitektúráról is kiszivárogtak részletek, az IDF-en azonban szinte minden részlet a helyére került, a vállalat teljes részletességgel ismertette az új mikroarchitektúrát, és demógépet is kiállított, azonban az ezekben dolgozó processzorok órajele és teljesítménye egyelőre nem nyilvános. Az elejtett információk alapján azonban egyre biztosabbnak tűnik, hogy az elsőként piacra kerülő Core i7 Extreme Edition 3,2 GHz-en jár majd, de zárt ajtók mögött ennél jóval gyorsabb Nehalemet is láthatott az IDF közönsége -- léghűtéssel.

A Nehalem ugyanakkor elsősorban a többszálú szoftverek alatt mutatja meg erejét, ott is elsősorban a memóriaintenzív kódok alatt, mint amilyen a szerverfeladatok többsége, köszönhetően új, alacsonyabb késleltetéseket és magasabb, skálázódó sávszélességet biztosító rendszerarchitektúrájának, valamint a szimultán többszálú végrehajtásnak. Az Inteltől kiszivárgott becslések alapján a Nehalem nagyjából kétszer nagyobb teljesítményt ad le kétutas rendszerben a számítás és egyben memóriaintenzív SPECfp_rate_base2006 tesztcsomag alatt két 3 gigahertzes Harpertownhoz viszonyítva, melyek kórosan éheznek a szűk és lassú adatbuszokon.

A Penryn hattyúdala, a Dunnington

Az Intel Developer Forum első napján Pat Gelsinger, a Digital Enterprise Group vezetője egy nyolcmagos Nehalemeket (Nehalem-EX) tartalmazó wafert is bemutatott annak demonstrálására, hogy az Intel milyen jól halad a szerverváltozatok fejlesztésével. A nagyobb konfigurációkba tervezett Nehalem-EX (Beckton) 2009 második felében kerül piacra az elképzelések szerint, addig a hatmagos Dunnington lesz az Intel fegyvere, mely a Penryn-generáció hattyúdala is egyben.

A Dunnington rendkívül ütőképesnek ígérkezik, a ráépülő szerverek egy sor iparági szabványos teljesítményrekodot döntöttek meg máris -- köztük az IBM nyolcfoglalatos x395 M2 kiszolgálója az x86-os konfigurációk között a világon elsőként törte át az 1 millió TpmC-s álomhatárt az online tranzakciókezelési teljesítményt vizsgáló TPC-C tesztben. Ilyen eredményt korábban csak felsőkategóriás RISC és Itanium szerverektől láthattunk.

a címlapról