:

Szerző: Gálffy Csaba

2012. március 1. 10:57

A szökőév döntötte be a Windows Azure-t

Hosszas zavart okozott a Microsoft platformszolgáltatásában a szökőév, az észleléstől számítva több mint 24 órába került elhárítani a hibát, kisebb, nem kritikus fennakadások pedig még jelen pillanatban is tapasztalhatóak. Sötét napja volt az Azure-nek 2012. február 29.

Nem kezelte helyesen a szökőévet az egyik időszámoló algoritmus, ennek nyomán fokozatosan egyre több rendszer állt le a Windows Azure-ben. A hibát földrajzilag sem sikerült elszigetelni, a leállás az adatközpontok között is gyorsan átterjedt, így két amerikai és egy európai központ is leállásokkal nézett szembe. A rendszer kezelőfelülete, a Service Management szolgáltatás szenvedte el a legsúlyosabb kiesést, világszerte elérhetetlenné vált. Ennek megfelelően a tegnapi nap folyamán a windows.azure.com (a kezelőfelület) gyakorlatilag folyamatosan állt, a windowsazure.com pedig hosszabb megszakításokkal élt. A problémát súlyosbította, hogy ez utóbbi rendszer szolgálja ki a Dashboardot, ahol a Microsoft az Azure műszaki problémáival kapcsolatos friss információkat közölte, a leállás nyomán pedig ehhez sem lehetett hozzáférni.

A Microsoft első tájékoztatásaival ellentétben nem csupán a menedzsmentfelület dőlt be, hanem a felhőben futó alkalmazások is szenvedtek kieséseket - a felhasználó szervezetek egymás után jelentették be, hogy alkalmazásaik elérhetetlenné váltak. A Microsoft később pontosította tájékoztatását és értesítette a felhasználókat, hogy egyes adatközpontokban leállt az SQL Azure Data Sync, SQL Azure Management Portal, a Service Bus és az Access Control szolgáltatás is, a kívülről érkező kapcsolatok pedig számos szolgáltatást nem értek el.. A cég máig fenntartja, hogy a tárolórendszerek működésében nem volt fennakadás, így adatvesztéssel biztosan nem kell számolni.

Ünnepi mix a bértranszparenciától a kódoló vezetőkig

Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.

Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.

Bill Laing, a Microsoft szerverekért és felhős rendszerekért felelős alelnöke ma rövid blogposztban részletezte a leállás körülményeit. Eszerint az üzemeltető részleg tegnap (magyarországi idő szerint) éjfél után vette észre, hogy több régióban problémák keletkeztek az Azure működésében. A csapat gyorsan felmérte a problémát, amelyet egy szoftverhiba okozott. A gyorsjavítás hamar elkészült, ennek tesztelése azonban reggelig húzódott, fokozatos telepítése pedig további hosszú órákat vett igénybe. A poszt szerint a hiba felmérésétől a javítás széleskörű telepítéséig több mint 21 óra telt el, a rendszer egyes részei pedig továbbra sem működnek, ami továbbra is elérhetetlen alkalmazásokat jelent egyes felhasználóknak.

A leállás pontos részleteivel és a helyreállítás folytatásáról a Microsoft további tájékoztatást ígért, a már ismert részletek azonban rendkívül rossz színben tüntetik fel a céget. Egyrészt a szökőév egy kiválóan szimulálható körülmény, így a rendszer tesztje során ennek a hibának mindenképp ki kellett volna jönnie. Úgy tűnik azonban, hogy a szoftvert tesztelő automatizált hibakeresők egy elemre biztosan nem terjedtek ki, ez pedig képes volt magával rántani a rendszert. A másik súlyos konklúzió, hogy a hiba megtalálása, a javítás tesztelése és rolloutja felhős mércével mérve túl sok időbe került. Bár a szolgáltatások jelentős része a hiba ellenére is működőképes maradt, ez nem vigasztalja azokat, akiknek elérhetetlenné vált az Azure-ön futó alkalmazása.

a címlapról