A Gmail élt, él és élni fog...

Vértes János Andor, 2011. március 1. 08:18

Ben Treynor Google elnökhelyettes ma hajnalban a Google blogjában összefoglalta a Google Mail tegnapi megingásának okát: ez egy hibás szoftverfrissítés volt. A leveleket eltároló programrészben cseréltek egy modult, ám ebben volt egy szoftverhiba, ami miatt a felhasználók 0,02 százaléka (ez a korábbi becslések negyede) nem tudott hozzáférni fiókjához. Amikor felfedezték a hibát, azonnal leállították az új szoftvert, és visszaállították a régi változatot, majd az elmúlt másfél napban azon dolgoztak keményen, hogy a hiba által okozott rést a levélforgalomban betömjék, mindenkinek visszaállítsák a fiókját. Ez ma reggelre javarész sikerült, de még mindig keményen dolgoznak a 100 százalékért.

A közleménynek a fenti sorok csupán 10 százalékát teszik ki, emellett van még 90 %, amely rész némiképp a szocialzmus évtizedeinek katasztrófa-híradásaira emlékeztet: amikor valami baj történt, akkor fontos volt megtudnunk, hogy alapvetően minden jó, és magát a bajt a híradás igyekezett bagatelizálni. A Google is a megnyugtatással kezdi: az adatok több példányban őrződnek több adatközpontban, a Google-nél levél soha nem veszett el, és nem is fog. (Lenin élt, él és élni fog.) "Bár lehet, hogy a küzdelem kicsit tovább tartott, mint ahogy az eredetileg várható volt, mi jól haladunk, és a dolgok mindenki szára hamarosan visszakerülnek a megszokott kerékvágásba".

A magyarázkodás némiképp érthető, hisz a felhasználók, akik nagy valószínűséggel nem foglalkoznak szoftverfejlesztéssel, nem tudják azt, hogy egy ekkora programrendszer szinte bizonyosan tartalmaz hibát, még akkor is, ha egy akkora szoftvergyárban, mint a Google, bizonyosan el tudják érni, hogy ezen hibák nagyon nagy valószínűséggel ne okozzanak galibát, a rendszer majdnem száz százalékos biztonsággal működjön. A gond csak az, hogy amikor egy modult újra cserélnek, hiába tesztelték agyon az új részt ezerféleképp, az, hogy miképp kapcsolódik majd ez a modul a többihez, mi lesz, ha bekerül a sok millió felhasználó terhelése alá, már csak "élesben" próbálható ki, és ilyenkor megnő a valószínűsége a gikszernek. Az is természetes, hogy a bajt felfedezve először azzal foglalkoznak a mérnökök, hogy az ne eszkalálódjon, gyorsan álljon vissza a korábbi állapot, majd jöhet a kárfelmérés, és az érintett postfiókok restaurálása. Ez a több adatközpontoban őrzött mentésekből történi, az egész rendszer automatikus működésével szemben egy sziszifuszi manuális munka, érthető tehát, hogy tegnap a határidők folyamatosan tolódtak.

Pánikra tehát nincs ok, az egyetlen gond, hogy néhány tízezer felhasználónak a fiókja 10-20-30 órán keresztül nem fogadott leveleket, ám ilyen esetben a feladó mindig értesítést kap arról, hogy levele nem jutott célba, így azt meg tudja ismételni.

Rossz hír - bár ez már nincs a blogbejegzésben - csupán az, hogy most akkor nem korszerűsödött az adattárolási modul, ám előbb utóbb fog, vagyis a hiba kijavítása után a Google mérnökei nagy lélegzetet vesznek, és újból jöhet az "éles teszt".