Životnost pevných disků dle Google
Kapitoly článků
Řada z vás jistě ví, že Google staví celou svoji technologii pomocí statisíců (no, možná již miliónů, těžko říci) běžných počítačů, takže jeho analýza se netýká nějakých špičkových SCSI/SAS disků, ale právě běžných IDE a SATA modelů. Mezi nimi bylo „několik modelů velkých výrobců“ (jak sám Google uvádí) s datem výroby 2001 a pozdějším. Jednalo se jak o 7 200otáčkové, tak, dnes již prakticky vymizelé, 5 400otáčkové disky, a to s kapacitami v rozmezí 80 až 400 GB. Data pro zveřejněnou analýzu pocházela ze sběru v období od prosince 2005 až srpna 2006.
Metodika
Google používá nad svými servery tzv. System Health Infrastructure. Tato softwarová technologie běží nad všemi firemními servery a slouží k nepřetržitému shromažďování všech možných dat. Mezi nimi tak figurují nejen údaje ze SMARTu, ale také okolní provozní podmínky (zejména teplota), aktuální zátěž daného disku, využití zdrojů v celém serveru, chybová hlášení, konfigurační informace a mnohé další aspekty. Na každém serveru pro tyto účely běží malý daemon, který je navržen jako velmi lehký s minimálním (doslova zanedbatelným) výkonovým vlivem na celý systém. Ten shromažďuje klíčové údaje v řádu několika minut, méně důležité a nepříliš často se měnící (například zmiňované informace o konfiguraci stroje) pak s větším intervalem. Vše přitom využívá firemní Google File System (GFS).
Nad každým zhruba tisícem serverů pak běží „sběrná vrstva“, která shromažďuje tyto údaje a uchovává je v databázi pro další zpracování. Sběrných vrstev je více typů, pro každý typ serverů jiná, specializovaná. Nad databází System Health jsou pak provozovány samotné analyzační nástroje, vše samozřejmě probíhá automaticky pomocí firemního Mapreduce frameworku. Pro něj byly napsány (v Sawzall jazyce) právě speciální úlohy extrahující nasbíraná data ze SMART monitoringu pevných disků.
Výsledky analýzy
„Úmrtnost“
První graf ukazuje „úmrtnost“ disků v jednotlivých obdobích od nasazení do provozu. Sami vidíte, že první rok to celkem jde, odpadávání disků se drží, řekněme v rozumných mezích. Teprve až po dvou letech provozu (kdy spoustě disků končí/končila záruka) roste selhávání na vyšší hodnoty.
Google přímo uvádí, že se rozhodli v tomto ohledu nezveřejňovat konkrétní statistiky pro jednotlivé výrobce, neboť tyto údaje nejsou dostatečně reprezentativní s ohledem na to, že se vztahují pouze na úzkou skupinku konkrétních modelů disků. A je faktem, že by toto pak mohlo svádět k obecnému hodnocení značky na základě analýzy pět let starých pevných disků, což jistě sami uznáte, není s ohledem na dnešní o několik generací novější modely příliš relevantní. Každopádně jistá obecná výpovědní hodnota se bezesporu hodí.
Druhý graf již ukazuje podrobněji úmrtnost disků v daných časových obdobích roztříděnou podle jejich záteže za běhu. Roztřídění disků do tří skupin podle zátěže bylo provedeno na základě týdenních obejmů čtení/zápisu. Nejnižší skupina pak zahrnuje relativní rozmezí kolem 25 %, střední mezi 50 a 75 % a nejvyšší zátěž pak více než 75 %. Sice toto rozmezí nemusí na první pohled dávat smysl, ale skokové přechody mezi kategoriemi přisuďme rozkládání zátěže mezi diskovými poli. Přeci jen, točit plotnami disku, který vykazuje například 2% zátěž, je zbytečné, to je výhodnější jeho zátěž rozložit mezi několik jiných disků s 25% zátěží (na nichž se ty 2 % „ztratí“) a tento vypnout.
Významným faktorem zde zjevně je vysoká úmrtnost disků během prvních třech měsíců, pokud tyto byly vystaveny vysokému zatížení v provozu. Disky, které přežijí toto počáteční drsné období jsou zjevně odolné a v následujících letech se není třeba v porovnání s méně zatíženými disky obávat nějakého výraznějšího odcházení. Teprve až po pěti letech úmrtnost o něco vzrůstá, zatímco u dvou nižších kategorií naopak klesá.
Teplota
Teplota bývá obecně považována za jeden z klíčových atributů, který má významný vliv na životnost disků. Google uvádí, že dřívější existující studie uváděly, že rozdíly teplot kolísající v rozmezí 15 °C mohou až zdvojnásobit úmrtnost disků. Ale to je obecně známý fakt, ono i takové přenášení disků v zimě, kdy v kapse od bundy promrznou, a jejich okamžité připojení do PC u kamaráda nedělá dobře žádnému systému spoléhajícímu na magnetický záznam, pevnými disky počínaje a VHS kazetami konče.
Google analyzoval mnohé teplotní údaje, zahrnujíce maximální, minimální a průměrnou teplotu, počet událostí, kdy teplota překročila mezní hodnoty a také samozřejmě poslední hodnotu teploty před úmrtím disku.
Graf ukazuje míru selhávání disků ve vztahu k pracovní teplotě (jednotlivé sloupečky v grafu jsou odstupňovány po 1 °C, „puntíky“ jsou k nim příslušející míra selhávání). Krásně je vidět, že pevné disky není vhodné přiliš „podchlazovat“, neboť toto značně zvyšuje pravděpodobnost selhání. Optimální rozmezí pracovní teploty je zhruba mezi 37 až 43 °C, ale ani o pár dalších stupínků níže či výše se selhávání příliš nezvyšuje.
Druhý graf ukazuje prakticky totéž, jen se zaměřuje na selhávání disků v jednotlivých obdobích v provozu v rámci pěti skupin rozčleněných podle pracovních teplot. Asi netřeba více komentovat, snad jen, že je vhodné dlouhodobě držet disk mezi 30 až 40 °C.