Hétmilliárd tranzisztort tartalmaz az új Tesla
Két új, Tesla-családba tartozó feldolgozó egységet mutatott be az NVIDIA. A K10 névre keresztelt egység a vállalat Kepler GPU-jára épül, a néhány hónap múlva érkező K20 azonban vadonatúj fejlesztés lesz, kifejezetten számításigényes GPGPU feladatokra.
Két szegmensre bontja a Tesla kártyák piacát az NVIDIA, egyrészt a termékek piaci elérhetőségének, másrészt az eltérő igényeknek betudhatóan. Ugyanis míg a "valódi" Tesla, a kifejezetten nagyteljesítményű számításokra tervezett K20 bemutatkozására még 5-6 hónapot várni kell, a kistestvér gyors piacra dobásával egyes szegmensek igényeit már ma ki tudja szolgálni a gyártó.
K10 - konzumer alapokon
A kisebbik Tesla az NVIDIA GK104 lapkájára épül, ezekből kettő található meg a kártyán. Ezzel a K10 gyakorlatilag egy módosított GTX 690-nek felel meg. A két lapkához négy-négy gigabájt GDDR5 memória tartozik, egyenként 256 bites szélességű memóriabuszon, az adatok áramlását pedig ECC figyeli. A kártya így kétszer 1536 CUDA-maggal rendelkezik majd, amelyekhez 2x128 textúrázó egység és 2x32 ROP tartozik. A magok órajele 745 megahertz, a memóriáé 5 gigahertz (effektív).
A kártya által megcélzott szegmenst alaposan behatárolja a dupla pontosságú lebegőpontos műveletek végrehajtásának sebessége, ez mindössze huszonnegyede az FP32 utasítások végrehajtásának. Ezzel a limitációval az NVIDIA is tisztában van, a K10-et így elsősorban képfeldolgozásra ajánlja, például olaj- és gázmezők után kutató cégeknek, valamint védelmi és kormányzati szervezeteknek kép- és videoelemzéshez, valamint jelfeldolgozáshoz. Ezekhez a számítási feladatokhoz magas FP32 sebesség és hatalmas memória-sávszélesség kell, a K10 pedig mindkettővel bőségesen rendelkezik.
Ugyan a GeForce GTX 680 (és GTX 690) általános célú számítási teljesítménye kifejezetten csalódást keltő, megfelelő feladatok alatt elő lehet csalni a kétchipes kártyából 4,58 teraflop számítási kapacitást és a memória-sávszélesség is 320 gigabájt másodpercenként. A kártya TDP-jét (tipikus hőkeret) az NVIDIA az előd M2090 szintjére, 225 wattra lőtte be, ahogy az eszköz ára is hasonló, 2500 dollár maradt. A K10 hivatalosan már kapható a piacon, az NVIDIA partnereinek késlekedése miatt azonban pár napot várni kell az általános elérhetőségig.
K20 - három és fél Tukwila
A K10 mellett az NVIDIA elkezdett beszélni a "valódi" új Tesláról, a K20 névre keresztelt monstrumról is. A kifejezés helytálló, az NVIDIA szerint a GK110-re épülő K20 lapkája mintegy 7,1 milliárd tranzisztort tartalmaz, ami számításaink szerint hozzávetőleg 1000 négyzetmilliméteres alapterületnek felel meg. Összehasonlításképpen az Intel legnagyobb processzora, a négymagos Tukwila Itanium mintegy kétmilliárd tranzisztort tartalmaz, mérete pedig (65 nanométeres eljáráson) mintegy 700 négyzetmilliméter.
A TSMC 28 nanométeres gyártástechnológiájával készülő lapka pontos specifikációit nem közölte az NVIDIA, a felépítésről és a várható funkcionalitásról azonban ejtett néhány szót. A majdani felhasználók számára az egyik legfontosabb, hogy a K10-zel ellentétben a K20 teljes ECC-védelmet élvez mind a memória, mind a gyorsítótár szintjén, a dupla pontosságú (FP64) számítási teljesítmény pedig többszöröse lesz mind az elődmodelleknek, mind a K10-nek.
2025: neked mennyi pénzt ér meg a home office? Itt vannak az IT munkaerőpiaccal kapcsolatos 2025-ös prognózisaink.
A K20 alapelemei is az SMX-re keresztelt számítási blokkok, ezek másfél megabájt másodszintű gyorsítótáron és a 384 bites memóriabuszon osztoznak. Egy SMX 192 CUDA-magból épül fel, ezekből 64 képes FP64 utasítások végrehajtására. A K10/GF104 ugyanennyi CUDA-magot tartalmaz blokkonként, ott az FP64-képes futószalagok száma azonban blokkonként 8. A változásnak köszönhetően az FP64 utasítások végrehajtási sebessége már egyharmada lesz az FP32 utasításokénak. Mivel a kártya még nem végleges, a pontos órajelekről, az aktivált SMX-ek számáról illetve a memória mennyiségéről az NVIDIA nem hozott még döntést.
A K20 a CPU tehermentesítésére és a GPU magasabb kihasználtságára is nagy hangsúlyt fektet, az NVIDIA két hasonló célú technológiát is bemutatott. A Hyper-Q képesség azt jelenti, hogy a Fermi egyetlen feladatával szemben a Kepler 32 feladatot képes egyszerre kezelni, így a lapka kihasználtsága számottevően megnő. A Dynamic Parallelism képesség keretében pedig a GPU-n futó kernelek képesek egymást meghívni, így csökkenthető a CPU-val való kommunikáció gyakorisága - egy központi processzor így több GPU-t tud kiszolgálni.