Tripla gyorsítótár, dupla teljesítmény - jön az IBM processzorba ágyazott DRAM-ja
[EE Times.com/eWeek.com] A Power6 mellett az IBM olyan beágyazott DRAM-technológiát is prezentált a múlt héten lezajlott ISSCC-n, mely révén a jövőben minden korábbinál nagyobb gyorsítótárak integrálhatóak a processzorok köré anélkül, hogy az ehhez szükséges szilíciumterületnek nőnie kellene. A vállalat az új eDRAM kereskedelmi alkalmazását a 45 nanométeres csíkszélességű gyártástechnológiára tervezi. Az IBM termékei mellett a közös félvezetőgyártási eljárás következtében az AMD, a Sony és a Toshiba processzoraiban is megjelenhet eDRAM.
Elég kicsi, elég gyors
A beágyazott, vagyis egy logikai chip közelébe integrált (nagysebességű összeköttetéssel, közös tokozással, vagy azonos lapkán) DRAM átmenetet képez a processzorokon található villámgyors, de kisméretű SRAM-cache, és a nagy központi, de csigalassú memória között. Utóbbinál nemcsak fizikailag, hanem architekturálisan is sokkal közelebb esik a processzorhoz, miközben magasabb órajelen, széles és gyors buszon kommunikál azokkal, így egy nagyságrenddel nagyobb teljesítményt kínál a távoli központi memóriánál. Az SRAM-mal szembeni előnye, hogy a sokkal kisebb cellák révén nagy, több tíz megabájt méretben is gazdaságos gyártani, ugyanakkor annál továbbra is lassabb.
Az eDRAM egyáltalán nem újdonság, számos számítógép, köztük a Power5 multi-chip-modulok (L3 cache), a PlayStation 2 vagy az Xbox 360 grafikus processzora is alkalmaz ilyet gyorsítótárként. Az eDRAM-cellák a processzorral egy szilícium lapkára integrálása a jelentősen különböző gyártástechnológia következtében nehézségekbe ütközött, nem beszélve az eddig elégtelen sebességükről. Az IBM éppen itt ért el áttörést: képes megfelelően nagy sebességű, magas sűrűséggel bíró eDRAM-ot gyártani ugyanazon a félvezető eljáráson, mint amelyiken a processzorok is készülnek.
A múlt héten megrendezett ISSCC-n (International Solid State Circuits), mely a chipdesignerek éves világkonferenciája, az IBM bemutatta 65 nanométeres gyártástechnológiával készült eDRAM-ját, mely 2 nanoszekundumos ciklusidővel (500 megahertz), és 1,5 nanoszekundumos késleltetéssel rendelkezik, miközben sűrűsége háromszorosa az SRAM-énak. Viszonyításképpen a leggyorsabb, 3 gigahertzes Intel Woodcrest (Xeon 5160) 4 megabájtos másodszintű gyorsítótára 0,33 nanoszekundumos ciklusidővel, és 4,66 nanoszekundumos késleltetéssel bír,
Igaz, a cache felépítésétől (méret, busz szélessége, asszociativitás) jelentősen függnek az értékek, így az IBM által prezentáltak egy kisebb blokkra vonatkozhatnak, a vezérlő logika késleltetése nélkül -- a kisebb, de leggyorsabb L1 cache-ek ma már 1 nanoszekundum alatt vannak. A számok ugyanakkor azt jelzik, hogy az IBM új architektúrájú eDRAM-ja valóban készen áll arra, hogy hatalmas, processzorra integrált harmadszintű gyorsítótárak épüljenek belőle. A óriásvállalat konkrétan 24-48 megabájtról beszélt 45 nanométeres gyártástechnológián, miközben a lapka mérete a gazdaságilag ésszerű határokon belül marad.
Az Intel Montecito-magos Itanium 2 processzora akár 24 megabájtot is tartalmazhat, ami 1,55 milliárd tranzisztort és nagyjából 400 négyzetmillimétert emészt fel 90 nanométeren a közel 600 négyzetmilliméteres chipből -- ez hatalmasnak számít. Az IBM eDRAM-ja által biztosított háromszoros sűrűség a Montecito méretét a sokkal gazdaságosabb 300-330 négyzetmilliméterre szorítaná le, vagy ugyanekkora területen például 64-72 megabájt is elférne. Az eDRAM fogyasztási karakterisztikája is bíztató, ugyanis az IBM szerint sokkal alacsonyabb a szivárgás az alacsonyabb tranzisztorszám miatt.
Másfél-két éven belül felbukkanhat
Az IBM eDRAM elsőként a 45 nanométeres eljárással készült chipeken bukkanhat fel, a következő év második felében. Tekintve, hogy az IBM az AMD-vel, a Sonyval és a Toshibával közösen fejleszti nagyteljesítményű logikák termeléséhez szükséges gyártástechnológiáját, így ezek a vállalatok is profitálhatnak az új cache-technológiából. Az IBM állítása szerint a jövőbeni Power és Cell chipek egyaránt kapnak eDRAM-ot majd, és várhatóan az AMD is él majd a lehetőséggel, valószínűleg szerverprocesszorai esetében.
A processzor-teljesítmény növekedési ütemével a memóriatechnológia nem tudott, és továbbra sem tud lépést tartani, ami a probléma célzott kezelése nélkül a hatékonyság folyamatos, és drasztikus visszaesésével járna -- a processzorok egyszerűen idejük egyre nagyobb részét adatra várva töltik. Ennek orvoslására a fejlesztők számos technikát vetnek be, melyek közül az utasítás- és adatbetöltések dinamikus átütemezése (out-of-order), a spekulatív adatelőtöltők, a többszálú végrehajtás, valamint a processzorra integrált gyorsítótár hierarchia képezik a legjelentősebb fejlesztési területeket.
Mindezen erőfeszítések ellenére rengeteg alkalmazásterületen az egyre nagyobb teljesítményű processzorok továbbra is elpocsékolják idejük nagy, akár 60-80 százalékos részét. Az eDRAM, amennyiben beválik, ezen a problémán segít, nyeresége akár a több száz százalékot is elérheti extrém esetekben, a statisztikailag jellemző gyorsulás azonban vélhetően kétszámjegyűre tehető, amennyiben a nagyobb cellasűrűséget kapacitásra fordítják a tervezők, nem pedig a lapkaméret csökkentésére. Az IBM egyik vezető tervezője, Subramanian Iyer úgy fogalmazott, lényegében megduplázzák a processzor teljesítményét ezzel, azon a skálázódáson felül, amelyet egyéb fejlesztések hoznak majd.
Z-RAM, DRAM-szendvics
Processzorainak gyorsítótárának növelésére az AMD tavaly licencelt egy induló törpecég által kifejlesztett technológiát, mely Z-RAM névre hallgat. A Z-RAM még a hagyományos DRAM-nál is nagyobb sűrűséget képes elérni, mivel a SOI-félvezetőeljárás (silicon-on-insulator, szilícium-a-szigetelőn) egyik járulékos tulajdonsága, az úgynevezett lebegő test hatást saját javára fordítva 1 tranzisztorból építhető meg egy cella, míg a kondenzátort a vezető és a szigetelőréteg között keletkező töltés képezi -- innen a neve is: Zero capacitor RAM. Hogy a SOI-specifikus memória mikor kerül alkalmazásra, ha egyáltalán, egyelőre nem tudni. Az egyik akadályt az jelentheti, hogy a jelenleg ismert Z-RAM technológia nagy sűrűséget, vagy nagy sebességet képes elérni -- nem pedig a kettőt egyszerre.
Az Intel a memóriaproblémára hosszú távon szintén a beágyazott DRAM lehetőségét vázolta fel az ISSCC-n, 80-magos prototípus processzora kapcsán. A vállalat egy diszkrét DRAM-chipet fektetne közvetlenül a processzorlapka aljára, így a fizikai közelség miatt lehetővé válna a chipek közötti alacsony késleltetésű, magas sávszélességű és energiahatékony kommunikáció. A kísérleti fázisban tartó, processzorhoz rétegelt (stacked) DRAM-chip kapacitása viszonylag alacsony (vélhetően legfeljebb néhány száz megabájt) lenne, míg a nagyméretű, rugalmasan konfigurálható, ugyanakkor lassabb központi memória itt is megmaradna.