Tovább maradnak gyorsak az ARM új processzormagjai
A hatékonyság növelésére fókuszált az új, Cortex-A72-es processzormagok fejlesztésénél az ARM, így folyamatos terhelés mellett is maradhat a nagyobb sebesség. Alaposan megújult az interconnect is, a sort pedig a 16 nanométerre portolt GPU zárja.
Bemutatta vadonatúj licencelhető termékeit az ARM Holdings, amelyekre az első 16 nanométeres mobilprocesszorok épülhetnek. A három építőkockát a Cortex-A72-es processzormagok, az új CCI-500-as interconnect és a Mali-T880-as GPU képezi, ezekből építkezhetnek a partnerek a jövőre megjelenő telefonos-tabletes processzorok megtervezésénél.
Cortex-A72
A csúcsmodellektől alapvető elvárás, hogy alacsonyabb fogyasztással magasabb teljesítmény hozzanak, mint az előd. Ezt az igényt igyekszik kiszolgálni az ARM új CPU-magja, amely egyúttal a cég új zászlóshajója is. A Cortex-A72 a vállalat szerint azonos sebesség mellett 75 százalékkal kevesebb energiát használ, mint a Cortex-A15, de a jelenlegi csúcsot jelentő A57-es magokhoz képest is duplázza a hatékonyságot. A teljesítményt tekintve az A15-höz képest mintegy 3,5-szörös, az A57-hez képest pedig 1,85-szörös előrelépést ígér az ARM, folyamatos működés közben.
A Gitlab mint DevSecOps platform (x) Gyere el Radovan Baćović (Gitlab, Data Engineer) előadására a november 7-i DevOps Natives meetupon.
A kulcskifejezés itt a folyamatos működés: az előző két generáció ugyanis a maximális teljesítményt csak viszonylag rövid időre tudja elérni, mivel a hatalmas, nagy teljesítményű magok hamar hőkorlátba ütköznek. Ez nem probléma, ha a tipikus mobilos felhasználást nézzük, amikor mondjuk egy weboldal görgetésének akadásmentes rendereléséhez pörög fel a processzor, a folyamatos terhelést jelentő feladatoknál (például játékok alatt) azonban a maximális sebességnek a töredékét sem érik el ezek a processzorok. Az új fejlesztés ezen változtat, a Cortex-A72 terhelés alatt lényegesen jobban teljesít majd, ezzel a potenciális túlmelegedés lehetőségét is minimalizálja az ARM.Az új processzormagok is elrendezhetőek big.LITTLE konfigurációban, vagyis az erős, de sokat fogyasztó Cortex-A72 klaszter mellé illeszthető kis, hatékony magokból álló processzorfürt. Ez most nem kapott frissítést, a kínálatban marad egyelőre a Cortex-A53, amely funkcionális és utasításkészlet-paritást mutat az új magokkal, így a feladatok transzparensen mozgathatóak a "nagy" és "kis" magok között. Az ARM ugyan nem jelentette ezt most expliciten be, de a magokat szintén portolja 16 nanométerre.
Az új magok belső felépítéséről az ARM gyakorlatilag semmit nem hozott most nyilvánosságra, így tippelni sem lehet, hogy a Cortex-A57-hez képest hogyan lépett tovább az ARM és hogyan érte el a lényegesen hatékonyabb működést. A magasabb hatékonyságban mindenesetre közreműködik, hogy az új magokat már a TSMC 16 nanométeres eljárásához optimalizálja az ARM, a fejlesztés végig szoros együttműködésben zajlott a tajvani bérgyártó mérnökeivel. Ennek eredményeképp a licencelő partnerek így vásárolhatnak készen implementált, gyártásra előkészített magokat is, amivel lényegesen csökkenthetik a piacra lépéshez szükséges időt és energiát.
CoreLink CCI-500 interconnect - az igazi újdonság
Az új magok etetéséhez már nem elegendő a három éve bemutatkozott CCI-400 (Cache Coherent Interconnect), azt teljesítményben és funkcióban is továbbfejlesztette az ARM, így jött létre a CCI-500. Az új interconnect felel a klaszterekbe rendezett processzorok, a GPU, a memóriavezérlő és számos más áramköri egység összekötéséért, elődjéhez képest pedig sebességben és képességekben is nagyot lépett előre.
Minden processzornál nagyon fontos az interconnect (emlékezzünk vissza az Intelt sokáig hátráltató FSB-architektúrára), a mobilprocesszoroknál azonban talán még fontosabb ezek szerepe. A gyors interconnect ugyanis rengeteget fogyaszt, az energiahatékony megoldások viszont a leggyorsabb magokat is brutálisan vissza tudják fogni. Az itt meghozott kompromisszum tehát az egész lapka teljesítményén és fogyasztásán tükröződni fog.
A CCI-400 fontos újítása volt a teljes körű hardveres cache-koherencia, ez gondoskodott arról, hogy minden processzormag azonos adatokkal dolgozzon, függetlenül attól, hogy az a gyorsítótárban vagy a rendszermemóriában van. Ezt korábban szoftveresen kellett megoldani, ami kegyetlen feladatot rótt a fejlesztőkre, a CCI-400 hardveres megoldása így nagy lépés volt előre.
Az ott alkalmazott megoldás szerint a magok folyamatosan monitorozzák egymás gyorsítótárainak tartalmát és ha egy mag olyan adatot módosít, ami egy másik magnál gyorsítótárazva van, akkor érvényteleníti az utóbbit. A megoldás azonban nem skálázódik jól, ráadásul az esetek nagy részében teljesen felesleges forgalommal terheli az interconnectet, mivel nagyon ritkán fordul elő a fent említett forgatókönyv. A snooping forgalom a gyorsítótárak számával (n-1) x (n-1) arányban nő, két vagy négy mag esetében ez még tolerálható, nyolc magnál azonban már komoly gátjává válik a teljesítménynek.
A fenti problémát természetesen már régen megoldotta a számítástechnika tudománya a központi címtár bevezetésével. Az alternatív megközelítésben (amelyet például a MIPS új csodaprocesszora is használ) a cache-koherenciáért egy központi címtár (directory) felel, amely figyeli az gyorsítótárak írásait. Ha egy mag olyan címre ír, amely egy másik magnál gyorsítótárazva van, akkor a központi egység kéri az utóbbinál az adat érvénytelenítését (az inkonzisztencia elkerülése végett). A megoldás hátránya a magasabb overhead, vagyis kevés magnál nem ideális.
Az új interconnect ezen felül megduplázza az ACE portok számát, vagyis az eddigi két processzorklaszter helyett akár négy is felfűzhető, ami egy újabb szabadságfok az ARM-ügyfelek számára és érdekes egyedi implementációkat tesz lehetővé. A megnövelt sávszélesség és a duplázott portok révén immár van értelme a négycsatornás memóriának is, amelyet immár saját fejlesztés nélkül implementálhatnak a partnerek. A CCI-500-ról az ARM blogján érdemes tovább olvasni.
Mali-T880
Az új processzormagokhoz illeszkedő új GPU-ról is lerántotta a leplet az ARM. A Mali-T880 a korábban már bejelentett (de piacon még nem elérhető) T860 továbbfejlesztett, 16 nanométeres eljárásra portolt változata, némileg megnövelt maximális órajellel (650-ről 850 MHz-re). A jelenleg piacon lévő csúcsmodellhez, a T760-hoz képest az ARM mintegy 80 százalékkal nagyobb teljesítményt és azonos sebesség mellett 40 százalékkal kisebb fogyasztást ígér, az előrelépés tehát jelentős.
Legkorábban 2016-ban
Az új megoldások az ARM várakozásai szerint leghamarabb 2016 folyamán tűnhetnek fel felhasználói végtermékekben, legalább egy évre van szükség ugyanis, amíg az ügyfelek implementálják azokat a saját processzoraikban - és ugye a TSMC 16 nanométeres eljárására is várni kell még. Ennek megfelelően várhatóan 2016 tavaszán jöhetnek ki az első csúcstelefonok és -tabletek, amelyekben már a Cortex-A72-es egységek dobognak.
Az új megoldások egy nagyon érdekesen alakuló piacra érkeznek, az ARM-os ökoszisztémát jelenleg ugyanis elképesztő káosz jellemzi. Egyik oldalon az Apple menetel a saját ütemterve szerint, amelyet egyelőre még a legnagyobb Qualcomm is képtelen követni: az almás gyártó már 2013-ban (!) piacon volt saját tervezésű 64 bites csúcsprocesszorával, ez még másfél év után is egyedülálló. Egyelőre ugyanis sem a Qualcomm (Snapdragon 810), sem az Nvidia (Tegra X1), sem más szereplő nem tudott letenni saját implementációt az asztalra, mindenki az ARM-tól licenceli a Cortex-A57-et, amelyet saját körítéssel lát el. (Megjegyzés: a Denver ugyan megjelent kereskedelmi forgalomban, például a Nexus 9 táblagépben, a magok versenyképességét egyelőre nem igazolja vissza a piac.)
Az ARM-os ökoszisztémának azonban lépnie kell, a másik oldalon ugyanis az Intel vet be mindent a piaci részesedés érdekében. A gyártó egyelőre fogatlan oroszlán, eddig csak az ingyen osztogatott Atomokkal sikerült tabletekbe kerülnie (okostelefonokba még így se), de a cég erősen fogadkozik, az új generációs, 14 nanométeren készülő Atomoktól pedig joggal tart minden piaci szereplő. Ilyen környezetben tehát az ARM Holdings feladata maradt, hogy az androidos gyártók számára versenyképes processzort biztosítson 2016-ra is, ez lesz a most bemutatkozott Cortex-A72-es magok igazi szerepe.