Ezért állt egy napot az Exchange Online
A dominó-effektus újabb klasszikus esete a múlt heti Exchange Online-leállás. Egy akadozva elérhető directory szerepkörű szerver magával rántotta a partícióját, az pedig egy szoftverhiba nyomán a szélesebb levélkézbesítő rendszert is megakasztotta. A javítás rendkívül sokáig, egy teljes munkanapon át tartott, az amerikai ügyfelek tomboltak.
Múlt héten egy teljes munkanapra leállt az Exchange Online, a Microsoft szolgáltatásként kínált email-rendszere, . A mintegy 9 órás leállás az amerikai keleti parti munkaidő egészére kiterjedt, Európában azonban viszonylag csekély hatása volt az időeltolódás miatt. A Microsoft most rövid bejegyzésben ismertette a hiba okait és azt, hogy a jövőben mit tesznek az ilyen problémák elkerülésére.
Dominó a felhőben
A postmortem (incidens utáni felmérés) szerint az Exchange Online mintegy 9 órás részleges, a kimenő és bejövő emailt egyaránt érintő kiesését egy viszonylag kis hibát követő dominó-effektus okozta. "Az Exchange Onlne esetében az egyik directory szerepkört ellátó szerver akadozása miatt egy directory partíció nem szolgálta ki a hitelesítési kéréseket, emiatt az előfizetők egy kisebb hányada elvesztette a hozzáférést az emailhez" - mondja a poszt. "Az eset egyedi természete miatt a visszaállítás elhúzódott, de a hibát továbbra is csak a felhasználók egy kis hányada tapasztalta" - folytatódik a leírás. "Sajnos a hiba természete miatt egy váratlan probléma akadt a szélesebb email-kézbesítő rendszerben egy korábban ismeretlen kódhiba miatt, ami a felhasználók nagyobb hányada számára okozott késést a levélfolyam kézbesítésében."
A hibakezelés két szinten zajlott, egyrészt a meghibásodott directory partícióról a szakemberek leválasztották az levélkézbesítési rendszert, másrészt az eredeti hiba gyökerét igyekeztek orvosolni és visszaállítani a meghibásodott directory szolgáltatást. Néhány óra alatt mindkét folyamat lezajlott, a hosszas leállást követően pedig minden Exchange-szolgáltatás zavartalanul üzemel.
Az Exchange mellett a Lync azonnali üzenetkezelő rendszer is leállt az előző napon (június 23), egy teljesen különálló incidens nyomán. A poszt szerint a Lync Online leállását a külső, a Microsoft adatközpontját bekötő hálózat hibája okozta. Ezt a hibát gyorsan, mindössze percek alatt elhárították a szakemberek, a helyreállítást követő forgalomcunami azonban elsodorta a szolgáltatást, emiatt egyes felhasználó számára hosszabb időn keresztül is elérhetetlenné vált a rendszer.
Machine recruiting: nem biztos, hogy szeretni fogod Az AI visszafordíthatatlanul beépült a toborzás folyamatába.
Az Exchange-hiba nyomán derült ki, hogy az Microsoft Service Health Dashboard (SHD), amely a felhős szolgáltatás monitorozásában segít, nem működött megfelelően, több órával a részleges leállást követően is zöld, vagyis minden rendben státuszt mutatott a felhasználóknak. Emiatt egyes felhasználó szervezetek csak jelentős késéssel kaptak értesítést a kiesésről, sokan pedig hosszasan keresték a hibát a saját rendszereikben, dühüket pedig Twitteren illetve a Microsoft fórumain vezették le. A hiba okát a Microsoft mára szintén javította - állítja a bejegyzés.
Lassan beérik
Általánosan megfogalmazható, hogy minél kevésbé triviális egy felhős rendszer leállását okozó hiba, annál érettebb a platform. A Microsoft híres, szökőév hibás kezeléséből fakadó Azure-leállása óta sokat fejlődött a vállalat szoftverplatformja, az érett komponenseket összekötő, viszonylag friss elemek azonban még mindig tartalmaznak hibákat. Az Exchange Online leállása most hosszú ideig szolgáltat muníciót azoknak, akik ellenzik (esetünkben) a céges levelezés kiszervezését a Microsoft felhős rendszerébe. A kritikának van helye, a 9 órás, a teljes munkanapra kiterjedző leállás igen súlyos probléma, amelyre a Microsoftnak megfelelő választ kell találnia. Nem érdemes persze azt sem elfelejteni, hogy a leállás a házon belül üzemeltetett email-szerver esetében sem feltétlenül ritkább, a hibaelhárítás és a szolgáltatás visszaállítása pedig esetenként el is húzódhat.