Felhős hibatűrés-tesztelő eszköz a Netflixtől
Megnyitotta a saját fejlesztésű, hibatűrést tesztelő eszközének forráskódját a Netflix. A filmes szolgáltató ezzel a szoftverrel teszteli az Amazon Web Services felhőjében futó alkalmazásait.
Elérhető a Chaos Monkey forráskódja, a Netflix "majomhadseregének" első tagja így immár szélesebb körben is használható. A Chaos Monkey szoftver a Netflix saját fejlesztése, feladata a kialakított rendszerek hibatűrésének vizsgálata véletlenszerű leállások generálásával. A szoftver az Amazon Web Services (AWS) felhős platformon fut.
Véletlenszerű kikapcs
A Chaos Monkey működése meglehetősen egyszerű, véletlenszerűen kapcsol le virtuális gépeket az automatikusan skálázódó csoportokon belül (ASG), így egy rendszer hibatűrése ellenőrzött körülmények között vizsgálható. A Chaos Monkey működése részletekbe menően konfigurálható, a Netflix például folyamatosan futtatja munkaidőben, így a kialakult problémákra azonnal tud a személyzet reagálni.
A Netflix elmondása szerint a Chaos Monkey célja, hogy a programozók és üzemeltetők folyamatosan készen álljanak a problémák elhárítására, így hatékonyan tudják megoldani a felmerülő gondokat. "Kiesések elkerülhetetlenül történnek, általában akkor, amikor a legkevésbé szeretnénk vagy várnánk. Ha az alkalmazásunk nem tűri egy instance kiesését, akkor erről inkább szeretnénk munkaidőben értesülni, mint hajnali háromkor" - mondja a Netflix közleménye.
Kontrollált hibák
A filmes szolgáltató már hosszú ideje használja ezt a megközelítést, a Chaos Monkey a cég adatai szerint tavaly mintegy 65 ezer virtuális gépet kapcsolt le az Amazon felhőjében. A legtöbb esetben az AWS és az ASG-k automatikusan helyreállították a rendszer működését, a felhasználók a fennakadást nem érzékelik. Néha azonban előjönnek programozási vagy rendszertervezési problémák, amelyeket a csapat manuálisan hárít el, majd kiküszöbölik az okot is.
Ünnepi mix a bértranszparenciától a kódoló vezetőkig Négy IT karrierrel kapcsolatos, érdekes témát csomagoltunk a karácsonyfa alá.
Annak érdekében, hogy a gépek leállása kevésbé legyen kellemetlen, a Chaos Monkey széles keretek között konfigurálható, a futó alkalmazásokra pedig egyenként beállítható az eszköz viselkedése. Ezzel a szervezetek úgy tesztelhetik a szoftvert, hogy csak az infrastruktúra egy részén aktív a Chaos Monkey, így nem fenyegeti leállás az éles szolgáltatást.
A Chaos Monkey forráskódja a GitHubon érhető el, Apache 2.0 licenc szerint. További információ az eszköz dokumentációs wikijében olvasható. A "hadsereg" következő nyílt forráskódúvá váló tagja a Janitor Monkey lehet, amely a nem használt erőforrásokat figyeli és kapcsolja le automatikusan, így számottevően tudja csökkenteni az AWS havi számláját.