Háromszor is leállt a Google Drive a múlt héten
Két, egymástól független szoftverhiba miatt háromszor, hétfőn, kedden és csütörtökön is akadozott a Google Drive szolgáltatása. A harmadik, hosszabb részleges kiesés ráadásul órákig tartott, mostanra azonban az összes hibát sikerült kijavítani.
Súlyos kiesések voltak a Google Drive és a hozzá kapcsolódó szolgáltatások működésében az elmúlt héten. A Drive-on hétfőn és kedden (magyarországi idő szerint) éjfél körül is fennakadások voltak, amelyek a felhasználói kör egyharmadát érintették, ezt tetézte a csütörtöki, majdnem 12 órán át tartó üzemzavar. A kiesések folyamán a felhasználók egy része számára akadozott a szolgáltatás, a Drive webes interfésze időtúllépést mutatott vagy csak részlegesen töltődött be. A hibák nem érintették a dokumentumok elérését, amennyiben azokhoz közvetlen linkkel el tudott a felhasználó jutni.
Egymást erősítő hibák
A problémát a Google hálózati szoftverében található hiba okozta, amely miatt a belső hálózat egy része működésképtelenné vált. Az új hiba egy tervezett részleges leállás során jött elő és megbénította a Google belső, adatközponti hálózatának egy szeletét. A tervezett viselkedésnek megfelelően a forgalom másodpercek alatt átterelődött a hiba által nem érintett infrastruktúrára, erősen leterhelve azt. A Google szerint kritikus túlterhelés nem lépett fel, csak helyenként megnövekedett válaszidővel kellett számolni - tehát a rendszer működésében nem lett volna zavar.
A magas válaszidőket azonban a Drive sessionkezelője a tervezett viselkedéstől eltérően nem tolerálta, hanem nagy számban bontotta időtúllépés miatt a lassú kapcsolatokat. Ezzel pedig a felhasználók egy része számára részben vagy egészen elérhetetlenné vált a rendszer. A Google szolgáltatásai jellemzően nagy hibatűrést mutatnak a felhasználói oldalon jelentkező problémás hálózati kapcsolatra, a belső hálózat hibája azonban kifogott a rendszeren.
Ígérik, ezután jobb lesz
A Google a hibát követően megkezdte a hibás hálózati vezérlő kijavítását és a terheléselosztó rendszert is alaposan áttervezik, hogy a jövőben a kiesés miatt megnövekedő terhelést jobban tudja kezelni, ennek keretében tartalék eszközökkel jóval a tervezhető csúcsterhelés fölötti forgalmat is megfelelően el tudják látni. A szoftvercég ígérete szerint ugyanilyen figyelemben részesül a Drive szessziókezelője is, a rendszer sokkal erősebb hibatűrést kap a kapcsolati hibákat és a magasabb válaszidőket tekintve. A Drive oldalán a figyelmeztető és ellenőrző alrendszer is fejlesztést kap, így könnyebben felderíthetőek lesznek az ehhez hasonló problémák.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
A Google Apps Status Dashboard szerint az első incidens mintegy három órán keresztül tartott, a második, azonos okok miatti kiesést már 35 perc alatt sikerült feloldani. Mindez azonban csak előkészítés volt a csütörtöki, mintegy 12 órán keresztül tartó masszív kieséshez, magyarországi idő szerint 21-én délután fél háromtól hajnali háromnegyed egyig tartott a szolgáltatás teljeskörű visszaállítása. A csütörtöki kiesést a HWSW is tapasztalta, a Drive felülete nem töltődött be többszöri próbálkozásra sem, ennek hiányában pedig az alkalmazások megnyitása is lehetetlenné vált.
Helyben sem jobb
A szoftverszolgáltatások (SaaS - software as a service) kiesései rendszeresen szerepelnek a hírekben, mivel egyszerre akár több millió vagy több tízmillió felhasználót is érinthet egy-egy üzemzavar. Ezzel szemben a belső céges rendszerek leállása jóval kevesebb publicitást kap, és hacsak nem érint külső ügyfeleket, általában semmilyen kívülről látható jelentés nem is készül róla. Ennek fényében kialakulóban van egy nézet, miszerint a felhős rendszerek kevésbé megbízhatóbbak lennének - ez azonban jobbára a hírértékből származó torzulás eredménye.