Itt az ARM új "gyenge" magja
Az ARM számára hosszútávon meghatározó lehet a tegnap leleplezett új Cortex-A35 mikroarchitektúra. A legújabb dizájn több szempontból is rendkívül hatékony, így idővel még akár az Cortex-A53-at is elhomályosíthatja.
Az ARM saját TechCon konferenciáját használta ki legújabb, ultra-magas energiahatékonyságú mikroarchitektúrájának bemutatására, mely az Cortex-A35 jelölést kapta. Ezzel gyakorlatilag teljessé vált az ARMv8-A utasításarchitektúrás portfólió, hisz a nagy számítási teljesítményre kihegyezett Cortex-A57 és -A72, illetve a magas hatékonyságú Cortex-A53 mellől már csak az ultra-magas hatékonyságú verzió hiányzott a 64 bites megoldások közül. Ennek megfelelően az Cortex-A35 szépen lassan át fogja venni az Cortex-A5 és -A7 helyét, hisz az új dizájn a két elődhöz hasonlóan a 125 mW alatti fogyasztási régiót célozza.
Machine recruiting: nem biztos, hogy szeretni fogod Az AI visszafordíthatatlanul beépült a toborzás folyamatába.
Az ARM kalkulációja alapján egyetlen, 28 nanométeres csíkszélességen legyártott, 1 GHz-es A35 mag 90 mW fogyasztást produkál. Mindez csupán tájékoztató jellegű, hisz a magok kisebb csíkszélesség mellett, több eltérő konfigurációban is legyárthatóak, valamint az órajelük is eltérhet, alacsonyabb vagy magasabb (2 GHz+) lehet, akárcsak az A53 esetében. Az új koncepció természetesen big.LITTLE konfigurációba is beilleszthető, sőt akár egy háromklaszteres, A72+A53+A35 lapka kiépítésére is elképzelhető, ha ebben bármelyik cég lát majd potenciált.
Az áprilisban kiszivárgott dián még Mercury kódnévvel szerepelt a Cortex-A35
Az A35 mikroarchitektúráját tekintve néhány alapvető ponton hasonlít az az A53-ra. A végrehajtás ennek megfelelően in-order működésű, 2 utasítás széles (dual-issue), a futószalag pedig 8 fokozatú. A változások a front-endnél kezdődnek, melynek hatékonyságát növelték a tervezők. Áttervezték az utasításbetöltő egységet (IFU), amivel javítottak az elágazásbecslés pontosságán. Az utóbb említett IFU sávszélességét, illetve az utasítások előolvasási bufferének méretét kisebb mértékben csökkentették az energiahatékonyság, valamint a helytakarékosság jegyében.
A memória-alrendszer nagyban hasonlít az A53-ban található megoldáshoz, aminek köszönhetőn az A35 erős lehet a különféle, memóriát érintő műveletekben. Az L1I és L1D gyorsítótárak méretet 8 és 64 kB között konfigurálható. Az előbetöltés már képes az úgynevezett automatikus multi-streamingre, mely csökkentheti a betöltések késleltetését. Emellé társult be még egy, az írási adatfolyamokat monitorozó eljárás, mely a streamek buffer igényét figyeli, illetve dönti el az egyes bejegyzések által igényelt kapacitás szükségességét. Az L2 cache mérete 128 kB és 1 MB között variálható. A másodszintű gyorsítótár bufferelő kapacitása nőtt, illetve javítottak a koherencia mechanizmuson is, ami több mag esetén sarkalatos, hisz az adott kapacitáson akár négy egységnek is osztoznia kellhet.
A lebegőpontos műveleteket végző NEON és FP utasításokért felelős feldolgozót érte a legnagyobb átalakítás, ezek szinte teljesen megújultak. Ez mostantól fully-pipelined működést jelent, ergo a részfeladatok egyidejűleg, órajelenként elvégezhetőek, ráadásul dupla pontosság mellett. Ezen felül a tároló műveletek sebességét is növelték, miközben a feldolgozók által igényelt terület csökkent az A53-höz képest.
Az energiagazdálkodás sem maradt érintetlenül, ugyanis az egyes magok, illetve az azokban található NEON feldolgozók önálló tápellátás-disztribúcióval rendelkeznek, ezzel pedig terheléstől függően, külön-külön lekapcsolhatóak. Ennek vezérléséről egy a klaszteren belül található független áramkör gondoskodik, mely eldöntheti, hogy épp melyik egységet kell le-, vagy visszakapcsolni. Ez azt jelenti, hogy a teljes mag felébresztése nélkül végezhetőek NEON-utasítások - amire például akkor van szükség, ha a telefon titkosított háttértárához szeretnénk gyorsan és magas hatékonyság mellett hozzáférni.
A fejlesztések hatására az A35 az A7-nél 10%-kal alacsonyabb fogyasztásból 6-40%-kal nagyobb számítási teljesítményt képest kihozni. Tisztán integer műveletek esetében tapasztalható a legkisebb, 6%-os előrelépés, míg a NEON/FP végrehajtókat érintő komolyabb változtatások okán lebegőpontos végrehajtásnál 36%-os pluszt mértek a tervezők.
Egy A35 mag csupán az A53 területének 75%-át foglalja el, a kisebb méret mellett pedig már közvetlen rokona fogyasztásának 63%-ából is kijön az újdonság. A számítási teljesítményt tekintve az A35 a nagyobbik mag 80, vagy akár 100%-át is hozhatja, ami több szempontból is rendkívül hatékonnyá teszi az ARM legújabb mikroarchitektúráját. Mindez azt prognosztizálja, hogy az A35 még akár olyan helyekről is kigolyózhatja a nagyobb testvért, melyekkel a tervezők eredetileg nem biztos, hogy számoltak. A kisebb méret okán még azonos tempót és fogyasztást feltételezve is sokaknak kedvezőbb választás lehet az új dizájn, így nagy eséllyel big.LITTLE konfigurációkban is feltűnik majd az A72 mellett, aminél az ecsetelt változtatások okán amúgy mikroarchitektúráját tekintve fejlettebb.
A gyorsítótárak méretének tág intervallumban való konfigurálhatósága mellett akár a NEON, Crypto, ACP egységek elhagyhatóak, illetve akár az L2 cache is teljesen "kifelejthető", amennyiben úgy látják jónak az adott lapka tervezői. A legsoványabb konfiguráció mellett (8 kB L1 cache L2 nélkül) egyetlen 28 nanométeres A35 mag mindössze 0,4 mm²-t foglal el. Ezzel az ARM az eddigi legrugalmasabb, legjobban konfigurálható mikroarchitektúrájának kiáltotta ki az A35-öt. Mindez fényes jövőt jósol a vállalat által igen fontosnak titulált megoldásának, mivel olcsóbb és drágább okostelefonok mellett IoT eszközökbe, illetve viselhető vagy beágyazott termékekbe is remek választás lehet majd az új megoldás. Az ARM nagyjából egy év múlva számol az első, valamilyen formában A35-re alapozó termékekkel, azaz a piaci megjelenésre még körülbelül egy esztendőt várnunk kell.