Túl forrófejű lett a Blackwell, az Nvidia a rackekre mutogat
Ismét gondok vannak az Nvidia legújabb, mesterséges intelligencia számításokat végző adatközpontokba szánt csúcsprocesszorával, a Blackwellel.
Bizonyos konfigurációkban hajlamosak a túlmelegedésre az Nvidia vadonatúj, Blackwell kódnéven érkező AI-gyorsítóprocesszorai - írja bennfentes forrásaira hivatkozva a The Information. A lap szerint a probléma komoly aggodalmat váltott ki az ügyfelekben, akik a lehető leghamarabb üzembe szeretnék állítani az új chipekkel ellátott szervereket, melyek beüzemelése a késve érkező processzorok miatt eleve csúszásban van.
A partnerek eddigi tapasztalatai szerint a Blackwellek a 72 chipet tartalmazó szerverkonfigurációkat fogadó rackekben főnek meg, vélhetően a nagy hőfejlődéssel nehezen birkózó szellőzés miatt. Az Nvidia többször is kérte beszállítóitól, hogy a rackek kialakítását változtassák meg, a cég szerint a nagy felhőszolgáltatókkal a hasonló egyeztetés és közös mérnöki munka gyakorlatilag mindennapos.
CI/CD-vel folytatódik az AWS hazai online meetup-sorozata! A sorozat december 12-i, ötödik állomásán bemutatjuk az AWS CodeCatalyst platformot, és a nyílt forráskódú Daggert is.
A márciusban bejelentett Blackwell-sorozatú chipek, a B200/GB200 páros a műveletek jellegétől függően - papíron legalábbis - legalább hétszer, de akár harmincszor nagyobb számítási teljesítménnyel rendelkezik, mint közvetlen elődje, a H100/GH100, miközben azoknál hatékonyabb működésre képesek..
A Blackwell chipek - melyek David Harold Blackwell matematikus után kapták a nevüket - elméletileg 20 petaflopsnyi FP4 számítási kapacitással rendelkeznek, ami ötszöröse a H100-as teljesítményének, a valójában két chipből "összeragasztott" B200 pedig összesen 208 milliárd tranzisztorból áll, szemben a H100-zal, mely 80 milliárd tranzisztorból épül fel.
Augusztusban reppent fel a hír, hogy a Blackwell sorozatú processzorok tömeges szállítása tervezési hiba miatt pár hónapot késhet, miután a chipet, illetve annak egy részét újra kellett tervezni. Nem egyértelmű, hogy az akkori problémáknak van-e, illetve volt-e köze a működés közbeni túlzott hőfejlődéshez, az Nvidia ugyanakkor többször is jelezte, hogy a tömegtermelés, illetve az első legyártott chipek szállítása nem késik számottevően.