Minden eddiginél nagyobb tárolót épít az IBM
Egyelőre nem tudni, hogy melyik vállalat vagy állami szerv számára építette a világ legnagyobb, 120 petabájtos kapacitású tárolórendszerét az IBM.
Az IBM kaliforniai, Almadenben található kutatóközpontjában épülő 120 petabájtos tároló mintegy tízszer nagyobb minden eddigi egységes tárolórendszernél és a nyilvános adatok szerint mintegy 200 ezer hagyományos merevlemezt tartalmaz.
Az egyelőre fejlesztési fázisban lévő projekt megrendelője ismeretlen, csupán annyit tudni, hogy a tárolórendszer egy szuperszámítógépet fog majd kiszolgálni és egy valós világban megtalálható jelenség részletes szimulációjának adatait fogja tartalmazni. Az IBM azonban sietett azt is a bejelentéshez hozzátenni, hogy a rendszer fejlesztésekor megszerzett tapasztalatokat és technológiákat később a kereskedelmi forgalomba kerülő tárolóknál is fel kívánják majd használni.
Nagy.
"Ez a 120 petabájt fantasztikusan soknak számít ma, azonban néhány éven belül ilyen tárolók adhatják a felhő-alapú rendszerek alapjait." - nyilatkozta Bruce Hillsberg, a projekt vezetője, az IBM tárolókkal kapcsolatos kutatásokért felelős vezetője. "Csak a metaadatok tárolása (a tárolt fájlok nevei, tulajdonságai és egyéb jellemzői) mintegy 2 petabájt kapacitást igényelnek majd" - tette hozzá a méretek érzékeltetése végett Hillsberg.
Az elemzők szerint az IBM által megcélzott 120 petabájt nagyobb minden eddigi rendszernél. A most elérhető legnagyobb tárolók mintegy 15 petabájtos kapacitással rendelkeznek, azonban könnyedén elképzelhetőek olyan mérnöki-tudományos szimulációk, amelyeknek ennél egy nagyságrenddel nagyobb tárolóra van szükségük. A szimuláció pontosságának növelésével ugyanis nem csak a szükséges számítási kapacitás, hanem a keletkező adatok mennyisége is drámaian emelkedik.
Az IDC HPC-elemzője, Steve Conway szerint a 120 petabájtos tárolót számos célra, így időjárási modellezéshez, szeizmológia-alapú kőolajkutatáshoz, vagy akár molekuláris (genetikai vagy fehérje-tárgyú) kutatásokhoz is fel lehet használni. Tovább növeli a kapacitásigényt az iteratív szimuláció, amikor kissé módosított kezdeti paraméterekkel újra és újra lefuttatják az adott modellt, akár több ezerszer is. A kimeneti adatok tárolása mellett pedig a hosszas szimulációk esetén sokszor lementik a köztes állapotokat is - nem csoda, ha a HPC területén hatalmas tárhelyigény alakult ki az elmúlt években.
A tízszeres kapacitásnövekedés eléréséhez az IBM-nek számos új technológiát is ki kellett fejlesztenie. Természetesen a legfontosabb szempont a minél magasabb kapacitássűrűség elérése volt, ennek érdekében a mérnökök a hagyományosnál jóval szélesebb rack-ekbe építették a merevlemezeket, a hasznos terület aránya így magasabb lett. A tárolórendszer vízhűtést is kapott, a hagyományos léghűtés az ilyen merevlemezsűrűség mellett már nem volt elég.
Szoftver, szoftver
A kutatók szerint a merevlemezek terén az innováció sajnálatos módon a méretre korlátozódott, sem a sebesség, sem a megbízhatóság nem nő már érezhetően. Szerencsére a rendszer teljesítménye és megbízhatósága függetleníthető az egyes alkotóelemektől, köszönhetően a párhuzamosság szoftveres implementációjának. A fejlesztők szerint így a szoftveres megoldásoknak kell garantálniuk a magas rendszerszintű teljesítményt, illetve a magas megbízhatóságot.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
Hillsberg szerint hatalmas kihívást jelentett a rendszeresen meghibásodó merevlemezek okozta problémák megoldása is. A mechanikus egységek között így az adatok egyszerre több lemezen is megtalálhatóak, az innovációt itt az jelenti, hogy az egyes lemezek kiesése nem befolyásolja érdemben a tárolórendszer sebességét. Ennek érdekében a cserelemezre nem azonnal, hanem fokozatosan replikálja a rendszer a megfelelő adatokat, így nem csökken érdemben a teljesítmény. A rendszer figyeli a meghibásodó merevlemezek minden jellemzőjét és ennek alapján hoz döntéseket a replikáció felgyorsításáról, beleértve fizikai helyüket is, így az egymáshoz közel meghibásodó merevlemezeket esetén a teljes szekrényt gyorsított ütemben menti át más merevlemezekre, elkerülendő az adatvesztést.
A tárolórendszer a házon belül kifejlesztett GPFS (General Parallel File System) fájlrendszert használja, amelyet az almadeni laboratórium pontosan a szuperszámítógépes igénybevétel számára tervezett. A fájlrendszer sajátossága, hogy beépített RAID-szerű funkciókkal is rendelkezik, így a duplikált fájlokat képes párhuzamosan beolvasni, ezzel nő az átviteli sebesség. A GPFS a fájlindexelést is nagyon felgyorsítja, a rendszer 10 milliárd fájlot képes végigkeresni mindössze 43 perc alatt (az előző rekord 1 milliárd fájl 3 óra alatt).