:

Szerző: Koi Tamás

2021. október 5. 10:19

3,5 milliárd ember maradt Facebook-szolgáltatások nélkül

Gyakorlatilag az egész Facebookot újra kellett indítaniuk egy tegnap magyar idő szerint valamivel este hat előtt bekövetkező rendszerhiba miatt a mérnököknek - a leállás a cég összes szolgáltatását érintette és mintegy 3,5 milliárd felhasználóra lehetett hatással.

A hivatalos közlemény szerint egy hibás beállítás miatt tegnap magyar idő szerint 18 órától csaknem hat órán keresztül elérhetetlenné vált a Facebook teljes online szolgáltatásportfóliója, vagyis a közösségi oldal mellett az Instagram és a WhatsApp platformok egyaránt. Bár nem ez volt a cég fennállásának eddigi leghosszabb ideig tartó leállása, amellett, hogy nagyjából 3,5 milliárd felhasználót érintett, azt is megmutatta, hogy a cég mennyire rá van utalva a saját rendszereinek használatára a mindennapi folyamatok - beleértve a hibajavítást - során.

AMIKOR KIZÁROD MAGAD AZ AUTÓDBÓL

Utóbbi folyamatot nagy mértékben nehezítette, hogy a Facebook alkalmazottai is a hálózat egy speciális, belső kommunikációra fejlesztett verzióját használják az egymással való kapcsolattartásra, ám a nyilvános szolgáltatással egy időben ez is leállt, ezzel rendkívüli módon megnehezítve az elhárítási munkálatok megszervezését. Médiaértesülések szerint a cég alkalmazottai jobb híján e-mailekkel kommunikáltak egymással, a külvilágot azonban így sem lehetett elérni, miután a hiba kiterjedt a levelezőrendszerek működésére is. 

zuck_fb_worldmap

A Gitlab mint DevSecOps platform (x)

Gyere el Radovan Baćović (Gitlab, Data Engineer) előadására a november 7-i DevOps Natives meetupon.

A Gitlab mint DevSecOps platform (x) Gyere el Radovan Baćović (Gitlab, Data Engineer) előadására a november 7-i DevOps Natives meetupon.

Egyes dolgozói beszámolók szerint a tegnap esti leállás a Facebook saját irodáinak használatát is kvázi ellehetetlenítette, legalábbis több alkalmazott arról számolt be, hogy nem tudnak bejutni tárgyalókba, a belépőkártyájuk nem nyitja az ajtókat, az autentikációs folyamatok pedig általában véve nem működnek.

A kommunikációs nehézségek mellett a helyzetet súlyosbította, hogy a rendszermérnökök nem tudták kívülről elérni a Facebook szervereit, így a hibaelhárítást helyben kellett megkezdeni, amihez a szakembereknek olykor több száz kilométert kellett utazniuk, hogy a helyszínen elvégezhessék a szükséges munkálatokat.

Bár a cég a hiba pontos okát nem hozta nyilvánosságra, Mike Schroepfer a Facebook műszaki igazgatója egy kiszivárgott belső levelezésben arról írt, hogy a Facebook adatközpontjait összekötő forgalomirányító rendszer meghibásodása okozta a hat órán át tartó kiesést. A rendszer lába alól egy hibás konfigurációs beállítás miatt csúszott ki teljesen a talaj, ám hogy ez a hálózat mely elemét érintette pontosan, az nem derül ki a levelezésből.

A Facebook hatórás leállását más szolgáltatók is megérezték a konkurensektől kezdve a telekommunikációs cégekig. Így a Twitter és a Viber forgalma az adott időszakban a többszörösére nőtt, emellett a Google keresőjében is tömegesen jelentek meg az arra vonatkozó kérdések, hogy miként lehet hirdetéseket indítani más platformokon. Utóbbi nem véletlen, a Facebook ugyanis a Google után a második legnagyobb, online hirdetés-értékesítő a világon, mely becslések szerint csak a mostani leállás miatt nagyjából 3,2 millió dollárnyi árbevételtől esett el.

MINDENKIT MEGRENGETETT

A leállást a nagyobb, globális DNS-kiszolgálók is megérezték, melyekre szintén a megszokottnál nagyobb terhet rótt, hogy a Facebook szerverei kvázi eltűntek az internetről. A leállás a mobilszolgáltatók hálózataiban is jól kimutatható hatással járt, így pl. jelentősen nőtt az SMS-forgalom - a Magyar Telekom hálózatában a cég szerint kétszer annyi SMS-t küldtek az érintett időszakban, mint egy átlagos hétköznap este. A cégnél a vezetékes adatforgalom ezzel párhuzamosan jelentősen visszaesett.

Hogy sokan mennyire az internettel azonosítják a Facebookot, arra jó példa, hogy a szolgáltató szerint az adatkapcsolatok (újra)aktiválási gyakorisága is jelentősen, mintegy 40%-kal nőtt, ami azt feltételezi, hogy sokan a készülék újraindításával vagy a repülőgép üzemmód ki-be kapcsolásával próbálták megoldani a problémát.

Az üzemeltetői szakmát számos nagyon erős hatás érte az elmúlt években. A történet pedig messze nem csak a cloudról szól, hiszen az on-prem világ is megváltozott.

a címlapról