Cortex-A72: kisebb, gyorsabb, hűvösebb
Nem sikerült zökkenőmentesen a 64 bitre váltás a csúcskategóriás ARM-os processzoroknak. Ezért elsősorban az ARM Holdings által tervezett Cortex-A57-es processzormagok tehetőek felelőssé, a nagy teljesítményre kihegyezett magok ugyanis túlságosan melegednek. A cég most részleteiben is bemutatta az utódot, a Cortex-A72-es magot, amely javítja az előd súlyos hibáit.
A jelenlegi ARM-os, 64 bites csúcsprocesszorok rendkívüli mértékben melegednek, ennek igazolására elegendő megnézni az LG Flex 2 tesztünket, minden probléma nélkül sikerült az abban található Snapdragon 810-et egészen 80 fokig melegíteni. Ha ez nem lenne elegendő bizonyíték, itt az Ars Technica részletesebb elemzése a jelenlegi két vezető 64 bites ARM-lapkáról, a Qualcomm Snapdragon 810-ről és a Samsung-féle Exynos 7420-ról.
Röviden összefoglalva: a processzorok még viszonylag alacsony terhelés alatt is annyira felmelegednek, hogy az áramkörök védelmében a lapka leszabályozza saját sebességét, és a névleges órajel töredékére skáláz vissza. Ennek persze közvetlen kihatása van a teljesítményre is, a lapkák a csúcsteljesítmény közelébe sem tudnak érni a magas hőtermelés miatt. Az Ars Technica tesztje szerint az Exynos lapka a teszt alatt volt, hogy kevesebb mint 1,2 gigahertzre fogta vissza magát, a Qualcomm chipnél pedig a minimum érték kevesebb mint 900(!) megahertz volt. Ehhez képest a korábbi, 805-ös Snapdragon modell legkisebb sebessége 1,7 gigahertz környékén volt, ennek köszönhető, hogy a régebbi mikroarchitekúra bizony sebességben is megveri az új csúcsmodelleket.
Durván leszabályoz az új generáció, míg a korábbi sokáig gyors marad. (forrás: Ars Technica)
Zárójeles megjegyzés: a fentiek jól illusztrálják, hogy az Apple tényleg mennyivel a versenytársak előtt jár az ARM-os processzorok tervezésében, a cupertinoiak fejlesztőcsapata már 2013-ra elvégezte a maga házi feladatát és piacra dobta saját ARMv8-as magját. Ekkor jelent meg ugyanis sorozatgyártásban az az Apple A7 processzor, amely az iPhone 5S-ben dolgozik, és melegedés, leszabályozás és egyéb problémák nélkül teszi a dolgát.
Kisebb, hűvősebben jár, és még gyorsult is
Visszatérve a Cortexekhez, a melegedési probléma kulcsa a mindkét lapkán megtalálható, az ARM Holdingstól licencelt processzormag, a Cortex-A57. A mag az ARM egyik első ARMv8-as fejlesztése, amelyet kifejezetten nagy teljesítményre hegyezett ki a cég. Az alapoktól újrarajzolt processzormag azonban igazolhatóan komoly gyermekbetegségektől szenved. Az ARM ennek persze tudtában van, a Cortex-A57 véglegesítését követően azonnal beindult a munka a második, javított kiadáson, ez lett az év elején bejelentett, a napokban pedig részletesen is bemutatott Cortex-A72. A tervezők elsődleges feladata a meglévő A57-es mag optimalizálása, a kisebb-nagyobb problémák kiküszöbölése volt.
A feladatnak megfelelően a Cortex-A72 nem hoz látványos újdonságokat a mikroarchitektúra szintjén. Maradt a már megismert, teljesítményorientált out-of-order felépítés, emögött azonban minden logikai blokkot finomhangolt a vállalat. A frontend maradt három utasítás széles, a teljesítményt itt a hatékonyabb dekódoló fokozat és az utasítások összefűzésének (instruction fuse) lehetősége növeli.
Komolyabb átalakítást kapott a végrehajtó egység, a futószalag maximális hossza 19 fokozatról 16-ra csökkent. A SIMD funkcionális egységek is fejlettebbek lettek, az egyes lebegőpontos utasítások végrehajtásához szükséges órajelek száma számottevően csökkent (az FADD 4-ről 3 ciklusra), a 2x128 bites lebegőpontos futószalagok ugyanakkor megmaradtak. A legújabb ARM mag a vállalat szerint egy új algoritmusnak köszönhetően az elágazáspredikció terén is jelentősen fejlődött, így nagyjából 20 százalékkal csökken a tévesen jósolt elágazások száma. A backend oldalán is jelentős átalakításokat eszközölt az ARM, az órajelenként kiadható eredmények száma háromról ötre nőtt, úgy tűnik, ez a terület szűk keresztmetszetnek bizonyult az első iterációban.
A teljesítmény mellett nagyon fontos szempont volt a méret és az energiahatékonyság optimalizálása is. Ennek megfelelően például az elágazásbecslő motor lekapcsol, ha a CPU olyan kódot futtat, ahol a becslések alacsony hatékonysága nem segíti a teljesítményt. Ugyanígy optimalizálta az ARM a dekódoló és végrehajtó fokozatokat is, a pufferek, gyorsítótárak, az adatfolyam és számtalan más ponton is sikerült azonosítani és kiiktatni pazarló egységeket. A memóriavezérlő is hatékonyabbá vált, szorosabban integrálódik a CPU-val. A fejlesztők számos ponton iktattak ki felesleges belső portokat és korlátozták az egyes funkcionális egységek belső elérését.
A fejlesztések eredményeképp a módosított architektúra számottevően hatékonyabb lett, IPC (instructions per clock, órajelenként végrehajtott utasítások) tekintetében 16-26 százalékos javulást mutat a Cortex-A72 az A57-hez képest, bizonyos különleges feladatok alatt pedig akár 50 százalékos is lehet a gyorsulás azonos órajelen. Az ARM által közzétett adatok szerint azonos feladat végrehajtása mellett a Cortex-A72 folyamatos terhelés alatt 1,85-szörös teljesítménynövekedést tud elérni, mivel lényegesen magasabban tudja tartani az órajelet – ezzel már biztosan meg tudja verni a két generációval korábbi lapkákat. Az újrarajzolt processzor területigényét is sikerült csökkenteni, a frissített magok mintegy 10 százalékkal kevesebb helyet foglalnak.
Telefonoktól a szerverekig
A Samsung és a TSMC 14, illetve 16 nanométeren dolgoznak majd a magokkal, a Cortex-A72 várhatóan 28 nanométerre is utat talál, amiről a Qualcomm és a Mediatek gondoskodik majd, igaz, a kevésbé modern gyártási eljárással kevésbé jelentősek az új magok előnyei. A fogyasztás csökkenése azonos órajel mellett ugyanakkor itt is meglátszik, a mag az A57-hez képest 20 százalékkal kevesebbet eszik 28 nanométeren is.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
Az ARM az új, licencelhető magokat a prémium okostelefonok CPU-i mellett táblagépekbe, sőt notebookokba, (ahogy a cég fogalmaz "nagyobb kijelzős mobileszközökbe) továbbá vállalati hálózati eszközökbe, digitális televíziókba, szerverekbe szánja, valamint az autóiparban is potenciális partnert lát. A gyártóknak most is lehetőségük van a licencelt mag mellé az ARM POP (Processor Optimization Packs) szolgáltatását is igénybe venni, amelynek keretei között a cég 28-tól egészen 16 nanométerig segít optimalizálni a terméket az adott gyártósorokra.
Újratervezés: előfordul
Az ilyen második kiadások készítése egyébként normális a félvezető-iparban, a jelentős mikroarchitektúra-változások után mindig érkezik egy finomhangolás. Ennek az az oka, hogy a processzorok tervezéséhez használt szoftverek és szimulátorok nem tökéletesek, a szilíciumba faragott áramkörök mindig kicsit másképp viselkednek, mint a tervezőasztalon, ezt azonban a fejlesztés első néhány évében a mérnökök nem tudhatják.
Az első tesztdarabok legyártását követően derül ki, hogy a koncepció mennyire válik be, milyen nem várt szűk keresztmetszetek alakulnak ki a CPU működésében. Ennek ellenkezője is igaz, az első prototípusok elemzésével derül ki, hogy hol van pazarló, fölös kapacitás, amely sokat fogyaszt, viszont cserébe a teljesítményhez nem tesz hozzá. Az architektúra jobb megismerésével a fejlesztők ezeket a pontokat azonosítani és módosítani tudják, ez történt most az ARM tervezőirodáiban is. Az ilyen félretervezések ellen az egyetlen védelem a tapasztalat és a fejlett szoftverek - ezek hiányában olyan katasztrofális zsákutcákba lehet futni, mint az Intel Netburst vagy az AMD Bulldozer. Az Intel egyébként erre a problémára találta ki a tick-tock modellt, amelyben a nagyobb mikroarchitektúra-váltásokat azonnal követi egy finomított kiadás, ráadásul a gyártástechnológia és az architektúra váltása szétválik, így legalább az egyiket kezelhetik konstansként a fejlesztők