:

Szerző: Bizó Dániel

2010. március 11. 12:50

Frissítve: Lesz végre magyar szuperszámítógépes centrum?

Magyarország legerősebb (ismert) szuperszámítógépes installációja a KFKI-ban üzemel és genetikai kutatásokat végez. A GENAGRID projekt fókusza a komplex genetikai hátterű népbetegségek kutatása, de jó pozícióban van ahhoz, hogy bioinformatikai szuperszámítógépes centrummá nője ki magát, amely a gyógyszeripart szolgálja ki.

Magyarország sajnos nem csak pálmafákban, de szuperszámítógépekben sem dúskál. Kérdés persze, hogy mit tekintünk szuperszámítógépnek, hogyan definiáljuk, hol húzzuk meg a határt, abban viszont kevesebb a vita, hogy hazánkban gyakorlatilag nem létezik HPC-piac, látszólag sem a hazai vállalatoknak, sem pedig a mindenkori kormányzatnak nincs ilyen irányú igénye. Pedig látható, hogy az akadémiai szektorral együttműködve bármekkora kapacitást le lehetne kötni, nem a jóléti hóbort magyarázza, hogy alig néhány száz kilométerre, Németországban petaflopsos (1 millió gigaflops) kapacitású rendszert is beüzemeltek már.

A GENAGRID projekt

Tavaly év elején indult a GENAGRID projekt, amelyet a Nemzeti Kutatási és Technológiai Hivatal is támogatott, és részt vesz benne a BME, az MTA KFKI RMKI (Részecske- és Magfizikai Kutató Intézet) és a SOTE, míg a biológiai berendezéseket a Csertex, a szuperszámítógépet pedig a Silicon Computers szállította. A projekt céljai közt szerepel, hogy néhány népbetegség, köztük az asztma és leukémia genetikai és genomikai hátterét felderítse, valamint hogy a projekt rendelkezésére álló biológiai, statisztikai és informatikai kompetenciát és erőforrásokat más biológiai kutatások számára is hasznosítsa.

Ez utóbbi nem jelent mást, minthogy gyógyszeripari vállalatok genetikai kutatásainak támogatását, amelyek cserébe fizetnek a szaktudásért és a számítógépes kapacitásért, így a projekt extra pénzt tud bevonni. A hasznosításhoz létrehoztak egy céget, az Abiomics Europe Kft.-t, amely igyekszik a GENAGRID projekttel összekapcsolni a külső szereplőket, mint amilyenek akár a hatalmas nemzetközi gyógyszergyártók.

Ezek köre természetesen szigorúan bizalmas, Temesi Gergely ügyvezető azonban közölte, hogy jelenleg már a számítógép teljes kapacitását le tudják kötni ilyen kívülről bevont kutatásokkal, mivel a vizsgált problémák rendkívül összetettek a kombinációk és variációk rendkívül maga száma miatt. Nagyjából 23 ezer gént definiáltak, és mintegy 18 millió pontot azonosítottak a DNS-szekvenciában a tudósok, amelyek különféle emberi tulajdonságokat befolyásolnak.

A problémát az adja, hogy ezek a kapcsolatok nem egy vagy néhány ilyen ponttól függnek, hanem a szekvenciában található egy kiterjedt mintázattól. Az emberi genom mintegy 3,2 milliárd nukleotidból épül fel egyébként, ennek egy része azonban eddigi ismereteinek szerint nem kódol semmit - vagy nem tudjuk, mit csinálnak, persze. Emiatt egyszerű kérdésekre biológiai kérdésekre statisztikailag és informatikailag rendkívül komplex lehet a válasz, és hetekig eltarthat a pontos módszer kidolgozása, és az elemzések lefuttatása, már ha rendelkezésre állnak adatok, vagyis a vizsgált genomok szekvenciája egy nagyobb populációjú mintavételben.

A vas: Altix ICE 8200XE

A GENAGRID részeként a csillebérci KFKI-ban tavaly nyáron üzemeltek be egy teljes rackszekrényt elfoglaló SGI Altix ICE 8200EX (IP-85 generáció) fürtöt, amely egy magas sűrűségű blade rendszer. A szabványos, teljes magasságú szekrénybe 64 kétutas, diszk nélküli blade szerver fér, összesen 128 foglalattal, és 512 processzormaggal, amelyet a GENAGRID rendszere teljesen ki is aknáz. A gépek egyenként 16 GB memóriával rendelkeznek (magonként 2 GB), vagyis összesen 1 TB kapacitású a rendszer. A blade keretekbe integrált DDR Infiniband összeköttetéseknek köszönhetően minimális a kábelezés, a forgalmat négy darab 20 Gbps sebességű switch blade kezeli.

A szervereken Red Hat Enterprise Linux fut az SGI-féle ProPack kiegészítésekkel, amely a hatékony fürtözést támogatja. A futtatott kódok optimalizálásához az Intel Cluster Toolkit, OpenMP, C++ és Fortran fordítóeszközöket, ThreadChecker és VTune elemzőket használják a fejlesztők, amelyekkel a kód agresszív tuningolását lehet végezni az Intel saját processzoraira.

\"\" A rendszer 128 darab 3 gigahertzes, négymagos Intel Xeon X5365 processzort használ. Ezek még 65 nanométeres csíkszélességgel készültek, vagyis a Merom generációhoz tartoznak. A teoretikus csúcsteljesítmény így 6,14 teraflops, és a közlés szerint ebből az iparágban elfogadott Linpack teszt alatt 5 teraflops 64 bites pontosságú mátrixműveleti teljesítményt ad le a GENAGRID. Ez negyede annak, mint amivel fel lehetne kerülni a jelenlegi Top500 szuperszámítógépes listára.

Magától adódik a kérdés, hogyan lehet az, hogy 2009 nyarán egy 2007-ben megjelent chipet használnak, hiszen akkor már elérhetőek lettek volna a Nehalem mikroarchitektúrájú Xeonok is, amelyek a magasabb memóriasávszélesség, gyorsabb interprocesszor-kommunikáció, a többszálú végrehajtás és erőteljesebb felépítés révén jelentősen nagyobb teljesítményt mutatnak valódi feladatokat végző kódok alatt.

A válasz prózai: 2008 végén a válság hatására meggyengült a forint, így a büdzsé dollárban kifejezett értéke drámaian lecsökkent, mondta el Skorutyák János, az SGI kizárólag hazai disztribúcióját végző Silicon Computers kereskedelmi képviselője. Emiatt az eredetileg tervezetthez képest engedni kellett az igényekből, így esett a választás a 65 nanométeres chipekre, amelyekhez, révén kifutó modellekről van szó, jelentősebb árkedvezménnyel lehetett hozzájutni. A büdzsé miatt az SGI Altix Ultraviolet szóba sem jöhetett, amely képes lett volna SMP működést és osztott memóriát biztosítani akár ekkora rendszerhez is.

A szekrény vízhűtéses ajtókkal rendelkezik, aminek köszönhetően a gépterembe kiáramló levegő hőmérséklete már nem igényel további erőteljes légcserélést, így nincs szükség a rack előtt az álpadlózaton keresztüli hideg levegős befúvására sem, más jelentős hőforrás hiányában a teremben lévő levegő megfelelően hűvös marad a processzorok léghűtéséhez.

Pedig erre szükség van, a 65 nanométeres eljárás miatt, ugyanis a processzorok egyenként akár 150 watt hőt is disszipálhatnak tartósan, például a GENAGRID által futtatott számításintenzív statisztikai analízisekkel. Ez azt jelenti, hogy csak a processzorok mintegy 19 kilowattnyi hőt generálhatnak csúcsterhelésen, ráadásul az FB-DIMM-ek további kilowattokkal növelik a hőfejlődést, vagyis a rack teljes hőteljesítménye bőven 20 kilowatt felett van . A GENAGRID teljes fogyasztása 30 kilowatt feletti, november óta szinte folyamatosan csúcson jár.

Az energiatakarékosság érdekében a vízhűtő kört a KFKI túlméretezte az SGI eredeti ajánlásához képest, valamint felkészítették arra is, hogy a téli hidegben a környezeti hőmérséklettel hűtse magát. Ezzel töredékére lehetett csökkenteni azt az időt, amikor a kompresszoroknak be kell kapcsolniuk, valamint a hűtőrendszer láthatóan képes volna további rackeket is lehűteni.

Mi leszel, ha valaha nagy leszel?

Hogy lesznek-e további rackek, és létrejön Magyarország első valóban szuperszámítógépes centruma, jelenleg inkább csak álom, semmint valóságos közelségben lévő terv. Lényegében minden azon múlik, hogy az Abiomics mennyire sikeresen tud bevonni további forrásokat, amelyekből finanszírozni lehetne a bővítéseket.

A GENAGRID vonzereje ugyanakkor elsősorban nem pusztán a számítási kapacitás értékesítésében rejlik, hiszen ahhoz máshol is könnyedén hozzájuthatnak a gyógyszercégek és más laborok kutatói. A kemény dió a biológusok, statisztikusok és informatikusok összekapcsolása, mondta el az Abiomics ügyvezetője, mivel teljesen más nyelvet beszélnek, más fogalmakat használnak. Mint meséli, a biológusnak van egy kérdése, amihez nagyjából tudja, milyen méréseket kell végeznie, a létrejött hatalmas adattömeggel viszont nem tudna mihez kezdeni, még akkor sem, ha van elképzelése arról, milyen összefüggéseket is keres.

Ehhez kell olyan statisztikus, aki képes a kérdésre felállítani egy vizsgálati modellt, amely hatékonyan, eredményesen és megbízhatóan azonosítja a mintázatokat. A probléma számítási tömegének és várható lefutási idejének meghatározásához kell az informatikus is, aki végül a rendszerbe történő betáplálásért is felelős, vagyis felparaméterezi a megfelelő szoftvert, menedzseli annak futását. Temesi szerint ez a GENAGRID-ben lévő hármas kompetencia az, amellyel vonzóak mások számára, mivel teljes folyamatában tudják támogatni a genetikai, genomikai és fehérjékre irányuló biológiai alapkutatásokat és gyógyszeripari fejlesztéseket. A GENAGRID biológusai értik a problémát és szót tudnak érteni a statisztikusokkal és informatikusokkal, akik szintén tapasztaltak már az ilyen irányú elemzések végzésében.

A jelek szerint tehát minden adott ahhoz, hogy a GENAGRID által nyújtott génkutatási szolgáltatás kinője magát, az eddigi eredmények felülmúlták a résztvevők várakozásait. Átütő sikerek esetén a projekt által a KFKI-ban üzemeltetett ICE rack mellé újabbak kerülhetnének - a terembe szemmel láthatóan legalább további három rack férne el, ami már éppen elegendő lehetne a jelenlegi Top500-ba kerüléshez, bár ez a küszöb gyorsan emelkedik.

Aspiránsok: OMSZ, NIIF HBONE+

A vezető szuperszámítógépes centrum címére egy másik aspiráns lehet az Országos Meterológiai Szolgálat, ahol hamarosan újabb szuperszámítógépet üzemelnek majd be, amelyet az IBM szállít, a rendszer részleteiről azonban lényegében egyelőre semmit nem tudni, valószínűleg x86 fürtről van szó. Az OMSZ korábban már vásárolt IBM pSeries 690 \"Regatta\" rendszert, amihez később SGI Altix 4700 gép csatlakozott.

Cikkünk megjelenését követően felvette lapunkkal a kapcsolatot az HBONE+ projekt vezetője, Mohácsi János, aki arra hívta fel figyelmünket, hogy a Nemzeti Információs Infrastruktúra Fejlesztési Intézetnél (NIIF) 2001-ben létrehoztak már egy szuperszámítógépes centrumot, amely a hazai akadémiai és kutatási intézeteket összekötő HBONE gerincre csatlakozik Budapesten, a Victor Hugo utcában.

Az itt telepített Sun Ultra Enterprsie rendszer előbb 96 processzorral rendelkezett, majd egy bővítést követően 128 UltraSPARC processzorral 110 Gflopsot adott le. Akkor, 2002 elején bekerült volna az aktuális a Top500 listára, azonban következő, 2002 közepi aktualizálásnál ez már kevésnek bizonyult. Későbbi fejlesztésekkel kettő SunFire 15k és egy kisebb gép került a NIIF-hez, amelyek összesen 148 processzorral 300 Gflopsot produkálnak - ezt egy kicsi, négy darab kétfoglalatos blade gépből álló x86 fürt képes ma produkálni.

Ezek a számok már évek óta nem számítanak szuperszámítógépes szintnek, a HBONE+ projekt keretén belül ugyanakkor három végponton, vidéki egyetemekre egyenként nagyjából 10 Tflops kapacitású gépet telepítenek várhatóan még 2010 során, vagyis a grid kapacitása 30 Tflops fölé emelkedik majd. A HBONE+ céljai közt szerepel ráadásul, hogy összekapcsolja a hazai akadémiai installációkat, köztük a KFKI-ban telepítettet is, valamint rákapcsolódjon a nemzetközi hasonló szuperszámítógépes gridekre is, hogy a kutatócsoportok könnyebben hozzáférhessenek a megosztott kapacitásokhoz.

November 25-26-án 6 alkalmas K8s security és 10 alkalmas, a Go és a cloud native szoftverfejlesztés alapjaiba bevezető képzéseket indítunk. Az élő képzések órái utólag is visszanézhetők, és munkaidő végén kezdődnek.

a címlapról