:

Szerző: Gálffy Csaba

2014. június 30. 16:18

Ezért állt egy napot az Exchange Online

A dominó-effektus újabb klasszikus esete a múlt heti Exchange Online-leállás. Egy akadozva elérhető directory szerepkörű szerver magával rántotta a partícióját, az pedig egy szoftverhiba nyomán a szélesebb levélkézbesítő rendszert is megakasztotta. A javítás rendkívül sokáig, egy teljes munkanapon át tartott, az amerikai ügyfelek tomboltak.

Múlt héten egy teljes munkanapra leállt az Exchange Online, a Microsoft szolgáltatásként kínált email-rendszere, . A mintegy 9 órás leállás az amerikai keleti parti munkaidő egészére kiterjedt, Európában azonban viszonylag csekély hatása volt az időeltolódás miatt. A Microsoft most rövid bejegyzésben ismertette a hiba okait és azt, hogy a jövőben mit tesznek az ilyen problémák elkerülésére.

Dominó a felhőben

A postmortem (incidens utáni felmérés) szerint az Exchange Online mintegy 9 órás részleges, a kimenő és bejövő emailt egyaránt érintő kiesését egy viszonylag kis hibát követő dominó-effektus okozta. "Az Exchange Onlne esetében az egyik directory szerepkört ellátó szerver akadozása miatt egy directory partíció nem szolgálta ki a hitelesítési kéréseket, emiatt az előfizetők egy kisebb hányada elvesztette a hozzáférést az emailhez" - mondja a poszt. "Az eset egyedi természete miatt a visszaállítás elhúzódott, de a hibát továbbra is csak a felhasználók egy kis hányada tapasztalta" - folytatódik a leírás. "Sajnos a hiba természete miatt egy váratlan probléma akadt a szélesebb email-kézbesítő rendszerben egy korábban ismeretlen kódhiba miatt, ami a felhasználók nagyobb hányada számára okozott késést a levélfolyam kézbesítésében."

A hibakezelés két szinten zajlott, egyrészt a meghibásodott directory partícióról a szakemberek leválasztották az levélkézbesítési rendszert, másrészt az eredeti hiba gyökerét igyekeztek orvosolni és visszaállítani a meghibásodott directory szolgáltatást. Néhány óra alatt mindkét folyamat lezajlott, a hosszas leállást követően pedig minden Exchange-szolgáltatás zavartalanul üzemel.

Az Exchange mellett a Lync azonnali üzenetkezelő rendszer is leállt az előző napon (június 23), egy teljesen különálló incidens nyomán. A poszt szerint a Lync Online leállását a külső, a Microsoft adatközpontját bekötő hálózat hibája okozta. Ezt a hibát gyorsan, mindössze percek alatt elhárították a szakemberek, a helyreállítást követő forgalomcunami azonban elsodorta a szolgáltatást, emiatt egyes felhasználó számára hosszabb időn keresztül is elérhetetlenné vált a rendszer.

Machine recruiting: nem biztos, hogy szeretni fogod

Az AI visszafordíthatatlanul beépült a toborzás folyamatába.

Machine recruiting: nem biztos, hogy szeretni fogod Az AI visszafordíthatatlanul beépült a toborzás folyamatába.

Az Exchange-hiba nyomán derült ki, hogy az Microsoft Service Health Dashboard (SHD), amely a felhős szolgáltatás monitorozásában segít, nem működött megfelelően, több órával a részleges leállást követően is zöld, vagyis minden rendben státuszt mutatott a felhasználóknak. Emiatt egyes felhasználó szervezetek csak jelentős késéssel kaptak értesítést a kiesésről, sokan pedig hosszasan keresték a hibát a saját rendszereikben, dühüket pedig Twitteren illetve a Microsoft fórumain vezették le. A hiba okát a Microsoft mára szintén javította - állítja a bejegyzés.

Lassan beérik

Általánosan megfogalmazható, hogy minél kevésbé triviális egy felhős rendszer leállását okozó hiba, annál érettebb a platform. A Microsoft híres, szökőév hibás kezeléséből fakadó Azure-leállása óta sokat fejlődött a vállalat szoftverplatformja, az érett komponenseket összekötő, viszonylag friss elemek azonban még mindig tartalmaznak hibákat. Az Exchange Online leállása most hosszú ideig szolgáltat muníciót azoknak, akik ellenzik (esetünkben) a céges levelezés kiszervezését a Microsoft felhős rendszerébe. A kritikának van helye, a 9 órás, a teljes munkanapra kiterjedző leállás igen súlyos probléma, amelyre a Microsoftnak megfelelő választ kell találnia. Nem érdemes persze azt sem elfelejteni, hogy a leállás a házon belül üzemeltetett email-szerver esetében sem feltétlenül ritkább, a hibaelhárítás és a szolgáltatás visszaállítása pedig esetenként el is húzódhat.

Eleged van az eltérő környezetekből és az inkonzisztens build eredményekből? Frusztrál, hogy órákat kell töltened új fejlesztői környezetek beállításával? Többek között erről is szó lesz az AWS hazai online meetup-sorozatának ötödik, december 12-i állomásán.

a címlapról