:

Szerző: Bizó Dániel

2010. március 12. 17:46

Mire jó az integrált Intel grafika?

Az informatika ősi bölcsességei közé tartozik, hogy Intel grafikus chipet legfeljebb az ellenségeinknek kívánjuk, játékok futtatására nem alkalmas, rosszabb nyelvek szerint pedig semmire se. Mint a legtöbb közvélekedés, ez is rohamosan elavul, és az Intel legújabb integrált grafikája már felveszi a kesztyűt.

Egyszerűen csak HD Graphics

Legújabb grafikus megoldását az Intel január elején jelentette be, egészen pontosan 32 nanométeres Core i7, i5 és i3 PC-processzorainak részeként, és ezekben a hetekben kezdtek el szállingózni az első számítógépek, amelyekbe már ezt a platformot építik a PC-gyártól. Az egyszerűen HD Graphics névre hallgató generációval az Intel minőségi áttörést ígér, vagyis azt, hogy számos modern, néhány éves játék élvezhető sebességgel fut. Call of Duty 4 egy vékony, hordozható laptopon? Ugyan már!

A HD Graphics ráadásul az Intel saját bevallása szerint sem hoz forradalmi előrelépést, az előző generációs GMA X4500 architektúráját fejlesztették tovább a mérnökök, óvatosan. A DirectX 10 API-t támogató mag immár 10 helyett 12 teljesen rugalmasan programozható 128 bites vektormagot alkalmaz, valamint megjelent a más grafikus chipekben már tíz éve jelen lévő hierarchikus Z algoritmus hardveres támogatása, amely annak gyors kiszámításáért felelős, hogy mely objektumok vannak takarásban egy képkockán, így azokat nem kell lerenderelni. Ez a képesség javítja az erőforrások hatékonyabb kihasználását.

A mikroarchitekturális változások nem magyarázhatnak semmiféle látványos előreugrást, és nem változott a memóriaalrendszer sem. A gyári maximális órajel 800 megahertzről 900 megahertzre emelkedett az asztali változatok esetében, így a többi fejlesztéssel együtt mintegy harmadával nőtt  a nyers teljesítmény. Ennél jóval nagyobb a különbség a mobilverziók esetében, ahol immár 44 százalékkal magasabb, 766 MHz is lehet a gyári órajel, így összességében kétharmadával lehet nagyobb a számítási teljesítmény. Ez azonban gyorsabb memóriaalrendszer nélkül önmagában még mindig kevés volna az üdvösséghez. Hol van a trükk?

Amint azt már régóta tudjuk, az év elején megjelent Core család esetén a grafikus mag immár nem a chipset észak hídjában, hanem a processzor mellett, tokon belül foglal helyet. Pontosabban fogalmazva az északi híd funkcionalitásának nagy része (memóriavezérlő, grafikus mag, egy PCIe sín) egy különálló szilíciumszeleten átkerült a processzor tokjába, a processzorlapka mellé, Iron Lake kódnéven. Grafikus teljesítmény szempontjából ez a fizikai közelség két lehetőséget is teremtett az Intel mérnökei számára.

Villámgyors kapcsolat

Az egyik, hogy a grafikus mag és a processzor közti kommunikáció többé nem az osztott adatbuszon (FSB), hanem egy tokon belüli linken keresztül történik. Az Intel nem sokat beszélt eddig az MCP Interface névvel illetett kapcsolódási megoldásról, azonban látható, hogy ez lényegében egy tokon belüli kapcsolathoz adaptált QuickPath Interconnect link.

A szilíciumlapkákról készített fotók alapján a kétmagos Westmere chipen található MCP csatoló struktúrája nagyban egyezik a hatmagos Westmere-EP szerverváltozaton látható QPI felépítésével, méretük pedig látványosan azonos. Az ISSCC chiptervező konferencián prezentáltak alapján a 32 nanométeres implementációban a linksebesség 8 gigantranszfer/s (4 GHz, DDR sávok) sebességig fokozható, aminek eredményenként irányonként 16 GB/s elméleti nyers sávszélességet kapunk full duplexen, vagyis összesen 32 GB/s elméleti maximális sávszélesség a Westmere és az Iron Lake közt.

\"\"

Ez egy elméleti határ, a termékekben a valódi órajel hivatalosan nem ismert. A mérések alapján az asztali változatokban 6,4 Gtps, míg a mobil modellekben legfeljebb 4,8 Gtps sebességű az MCP link, így a processzor számára elérhető memóriaolvasási sávszélesség rendre 12 és 9 GB/s magasságában alakul. A grafikus chip a gyakorlatban 17 és 14 GB/s effektív sávszélességet érhet el legfeljebb, mivel közvetlenül csatlakozik a kétcsatornás DDR3-memóriára - hivatalosan 1333-as és 1066-os DIMM-eket támogatva.

Mivel a MCP/QPI link rendkívül nagy sebességű és full duplex, ezért elméleti képességeit a gyakorlatban is rendkívül hatékony módon használja ki, szemben az eddigi mainstream Intel chipeknél használt adatbusszal. A Core 2 processzorokig bezárólag kizárólag az FSB biztosította a kapcsolódást a külvilág felé, amely a sokkal korszerűbb QPI-hez (vagy a hasonló koncepciójú AMD HyperTransport linkekhez) képest lassú és rendkívül alacsony hatékonyságú, mivel órajele legfeljebb 400 MHz, és non-duplex működésű, vagyis egyszerre csak egy irányban forgalmaz.

Ennek eredményeként a Core 2 generációkhoz (Merom, Penryn) képest mind az asztali, mind a mobil változatoknál nagyjából mintegy 60 százalékos növekedés érhető el olvasási sávszélességben azonos memóriasebességek mellett, még úgy is, hogy az MCP áteresztőképessége láthatóan korlátozó tényező a processzor irányában. A Westmere tehát elsőre visszalépésnek tűnhet a már megjelent Nehalem processzorcsaládhoz képest, mivel a processzorból átkerült a memóriavezérlő, ami a késleltetés növekedését és a sávszélesség csökkenését eredményezi, valójában hatalmas az előrelépés a piacon lévő mainstream gépekhez viszonyítva. Az életciklusuk végénél járó notebookokhoz képest a processzor számára a memóriaolvasás sávszélessége két-két és félszeres.

A gyakorlatban ennél jóval nagyobb azonban a Westmere előnye. Ahogyan említettük, az MCP/QPI link full duplex, vagyis párhuzamosan küldhet is adatokat a memória és grafikus mag irányában, modelltől függően akár 12 GB/s maximális sebességgel. A különbséget tovább fokozza, hogy az MCP/QPI linken nem folyik I/O-forgalom a diszkek vagy a hálózat felé, azok a DMI-n közlekednek. Emiatt becsülhető, hogy a gyakorlatban a Westmere nagyjából kettő-ötszörös effektív sávszélességekkel tud gazdálkodni, a futtatott feladatok jellegétől függően.

A grafikailag intenzív feladatok különösen igénylik az alacsony késleltetéseket és magas sávszélességeket, nemcsak a grafikus mag és a memória, de a grafikus mag és a processzor közti kommunikációhoz, mivel a 3D-jelenetek megalkotásában egymásra vannak utalva. Az MCP/QPI összeköttetésnek és a fizikai közelségnek köszönhetően az x86-os és a grafikus mag egy nagyságrenddel gyorsabban érik el egymást, mint FSB-n keresztül, miközben jóval nagyobb effektív sávszélesség realizálható, ahogyan az előbbiekben elemeztük.

Dinamikus órajel

Az alacsony fogyasztású és rendkívül gyors link mellett a tokon belüli integráció áttétetelesen egy másik hatalmas előnnyel is jár, méghozzá a energiagazdálkodás terén. Ezzel egyes mobil változatok esetében (Core i5-500, Core i7-600) ugyanis bekerült a Turbo Boost mechanizmusa alá, vagyis a terhelés függvényében részesedik a tok teljes energiabüdzséjéből, osztozva az x86 processzorral. Ez azt jelenti, hogy a grafikus chip órajele 3D-intenzív kódot érzékelve megemelkedhet, amennyiben a processzor nem használja fel teljes saját részét a termális büdzséből. A frekvencia emelése addig folytatódik, amíg a tok teljes vagy a grafikus chip saját fogyasztása el nem éri a meghatározott küszöbértéket, vagy a grafikus chip a frekvenciamaximumot, amelyik előbb bekövetkezik.

A mechanizmus viszonylag komplex, a processzor szilíciumánál mért fogyasztás (feszültség és áramerősség, hőmérséklet), a processzor terheltsége, a felhasználói beállítások figyelembe vételével az Intel Turbo Boost drivere dönt arról, hogy a processzor vagy a grafika számára biztosít több TDP-büdzsét azáltal, hogy engedi az órajel emelését. Ennek eredményeként a grafikus chip fogyasztása a meghatározott TDP-t 30-60 százalékkal is meghaladhatja a mobil chipek esetében.

\"\"

Mivel alapvetően a processzort helyezi előtérbe, ezért a grafikus teljesítmény maximalizálásához a felhasználónak kiegyensúlyozott teljesítményprofilt kell kiválasztania Windows alatt, a grafikus energiabeállításokat vezérlő panelen (Intel szoftver) maximumra kell állítania a grafikus teljesítményt. Amennyiben rutinszerűen maximális teljesítményt kérünk a Windows profilban, úgy a Turbo Boost driver a processzort favorizálja versenyhelyzetben, így játékok alatt ez kontraproduktívan is elsülhet.

Nem teljesen világos, hogy a sokkal magasabb, akár 73 wattos TDP-kerettel rendelkező asztali változatoknál az Intel miért nem engedélyezi a grafikus órajel dinamikus emelését, valamint azokba miért nem valamivel erőteljesebb felépítésű, több vektoros egységgel rendelkező grafikus chipeket épít - a magasabb órajel és több végrehajtóegységgel könnyedén megverné az AMD és NVIDIA integrált megoldásait, és tovább préselhetné a videokártyák piacát.

\"\"

Az Intel mérései szerint 3D-intenzív játékok esetén ez a növekmény akár 20-40 százalék is lehet számos népszerű név esetén, mint a Half-Life2: Episode Two, Bioshock, Call of Duty 4. Ez azt jelenti, hogy az előző mobil GMA generációhoz képest nagyjából két és félszeres számítási teljesítményhez is juthatunk bizonyos esetekben. Mindehhez társul az előbb részletezett gyorsabb kommunikáció a processzor irányában is, valamint a processzor által elérhető sokkal nagyobb memóriasávszélesség.

Mindezek hatására a korábbi integrált platformokon szaggató modern játékok elfogadható sebességgel futnak és a Westmere alkalmi játékra alkalmas olyan nevek esetében is, mint a Quake 4, Enemy Territory Quake Wars vagy a  Call of Duty 4. Természetesen nincs arról szó, hogy extrém felbontásokat vagy maximális részletességet alkalmazhatnánk, ugyanakkor a játékok már integrált grafikás notebookokban is megmozdulnak és élvezhetőek.

\"\"

Egy példamutató példa: ASUS U30Jc

Mindezt persze a szemünkkel is látni akartuk, amihez az ASUS jóvoltából egy vadonatúj U30Jc notebookot kaptunk. A gyakorlati tapasztalataink alapján fontos megjegyezni, hogy mivel a HD Graphics a határon mozog, ezért egyes játékok elérik a már folyamatosnak (de nem folyékonynak) látszó átlagosan 20+ képfrissítési gyakoriságot, akár viszonylag magas beállítások mellett is, addig más játékoknál drasztikus vissza kell venni az effektek minőségéből és a felbontásból. Ez tehát még mindig csak a legalacsonyabb igények kielégítésére elég, ugyanakkor a 3-4 évvel ezelőtti játékok kompromisszumokkal futtathatóak.

\"\"

Ha ennél többre vágyunk, diszkrét grafikára kell váltanunk. Szerencsére ez ma már nem jelent otromba gépeket, az akkumulátoridő szükségszerű feláldozását, mivel mindegyik chipgyártó kidolgozott megoldást arra, hogy váltani lehessen a rendszerben az integrált és diszkrét grafikus chip között, a futtatott alkalmazásoktól függően.

ASUS U30Jc

Az ASUS U30Jc szerencsére megtartotta a elődök formavilágát, esztétikus és igényes szálhúzott alumínium burkolattal bír. A 13,3 hüvelykes, HD Ready (1366x768) felbontású kijelzővel szerelt gép tömege egy nagykapacitású, 8 cellás akkumulátorral is csak 2,2 kilogramm, ami akár 5 órás üzemidőre elegendő töltést jelent.
Az ASUS kifejezetten magas szintű felszereltséggel kínálja ezeket a gépeket: 2,26 GHz-es Core i5-430M processzor, 4 GB memória, 500 GB diszkkapacitás, GeForce GT310M, Bluetooth, Altec Lansing hangszórók, Windows 7 Home Premium 64 bit, és 250 ezer forintos ajánlott bruttó ár.

Az első fecskék egyike, amely már az új Intel Core generációra épít, de kapcsolható NVIDIA diszkrét grafikával is rendelkezik, az ASUS U30Jc, amely ötvözi a hordozhatóságot a sokoldalú felhasználhatósággal. A gép Core processzorba integrált HD Graphics mellett egy GeForce GT310M grafikus chipet is alkalmaz, 512 MB GDDR3 memóriával.

Az ASUS az NVIDIA Optimus megoldását választotta a grafikák közti váltásra, amihez külön Optimus driver szükséges, amely egy szeparált profillista alapján dolgozik, és az alkalmazások azonosításával dönti el, szükség van-e a GT310M bevetésére, amely nagyjából három-négyszer erősebb, mint az Intel integrált magja, és vele például már magas minőséggel, 1280-as felbontással is játszhattunk a Call of Duty 4-gyel.

A profilok szerkeszthetősége lehetővé teszi a felhasználó számára, hogy maga is belenyúljon abba, hogy az Optimus mely alkalmazásokkor kapcsoljon be, így például lehetőség van arra is, hogy játékokra egyedileg meghatározott profilokat hozzunk létre. Ebből fakadóan lehetőség adódik arra is, hogy azokat a játékokat, amelyekhez elegendő a HD Graphics teljesítménye, azzal futtassuk, sok esetben, különösen lassabb mozgású játékoknál tökéletesen felesleges 30 fps feletti sebességgel renderelni, így spórolhatunk az akkumulátorral, és kevésbé terheljük a gépet is melegedéssel.

Az Intel következő processzorgenerációja, az év végén vagy jövő év elején debütáló Sandy Bridge már szilíciumon integrálja a grafikát, 32 nanométeres eljáráson. Látható, hogy ezzel az Intelnek további lehetősége nyílik arra, hogy magasabb szintre emelje az integrációval járó előnyöket, még jobban kiaknázza az x86 és grafikus magok közti villámgyors kommunikációt, valamint tovább fokozza a frekvencia dinamikus növelésének képességét. Ez pedig nem jelent mást, minthogy az Intel még feljebb tolja azt a lécet, amelyet képes lesz átugrani - nem beszélve az időszerű mikroarchitekturális továbbfejlesztésekben rejlő lehetőségekről.

a címlapról