Diit.cz - Novinky a informace o hardware, software a internetu

Životnost pevných disků dle Google

Google logo
Asi každý, kdo kdy kupoval pevný disk, se zamýšlel nad otázkou, zdali je lepší ten či onen model. Většinou lze vycházet buď z vlastních zkušeností z minula, lidí z nejbližšího okolí anebo třeba diskusních fór. Ale asi jen málokdo může říci, že jeho testovací vzorek byl tak velký, jako 100 000 disků, které prověřili inženýři Google v ostrém provozu na svých serverech za posledních 5 let. A právě na analýzu, která z tohoto vzešla, se nyní podíváme.

Kapitoly článků

1.  Úvod, použitá metodika, výsledky

Řada z vás jistě ví, že Google staví celou svoji technologii pomocí statisíců (no, možná již miliónů, těžko říci) běžných počítačů, takže jeho analýza se netýká nějakých špičkových SCSI/SAS disků, ale právě běžných IDE a SATA modelů. Mezi nimi bylo „několik modelů velkých výrobců“ (jak sám Google uvádí) s datem výroby 2001 a pozdějším. Jednalo se jak o 7 200otáčkové, tak, dnes již prakticky vymizelé, 5 400otáčkové disky, a to s kapacitami v rozmezí 80 až 400 GB. Data pro zveřejněnou analýzu pocházela ze sběru v období od prosince 2005 až srpna 2006.

Metodika

Google používá nad svými servery tzv. System Health Infrastructure. Tato softwarová technologie běží nad všemi firemními servery a slouží k nepřetržitému shromažďování všech možných dat. Mezi nimi tak figurují nejen údaje ze SMARTu, ale také okolní provozní podmínky (zejména teplota), aktuální zátěž daného disku, využití zdrojů v celém serveru, chybová hlášení, konfigurační informace a mnohé další aspekty. Na každém serveru pro tyto účely běží malý daemon, který je navržen jako velmi lehký s minimálním (doslova zanedbatelným) výkonovým vlivem na celý systém. Ten shromažďuje klíčové údaje v řádu několika minut, méně důležité a nepříliš často se měnící (například zmiňované informace o konfiguraci stroje) pak s větším intervalem. Vše přitom využívá firemní Google File System (GFS).

Nad každým zhruba tisícem serverů pak běží „sběrná vrstva“, která shromažďuje tyto údaje a uchovává je v databázi pro další zpracování. Sběrných vrstev je více typů, pro každý typ serverů jiná, specializovaná. Nad databází System Health jsou pak provozovány samotné analyzační nástroje, vše samozřejmě probíhá automaticky pomocí firemního Mapreduce frameworku. Pro něj byly napsány (v Sawzall jazyce) právě speciální úlohy extrahující nasbíraná data ze SMART monitoringu pevných disků.

Výsledky analýzy

„Úmrtnost“

Životnost pevných disků dle Google: selhávání disků

První graf ukazuje „úmrtnost“ disků v jednotlivých obdobích od nasazení do provozu. Sami vidíte, že první rok to celkem jde, odpadávání disků se drží, řekněme v rozumných mezích. Teprve až po dvou letech provozu (kdy spoustě disků končí/končila záruka) roste selhávání na vyšší hodnoty.

Google přímo uvádí, že se rozhodli v tomto ohledu nezveřejňovat konkrétní statistiky pro jednotlivé výrobce, neboť tyto údaje nejsou dostatečně reprezentativní s ohledem na to, že se vztahují pouze na úzkou skupinku konkrétních modelů disků. A je faktem, že by toto pak mohlo svádět k obecnému hodnocení značky na základě analýzy pět let starých pevných disků, což jistě sami uznáte, není s ohledem na dnešní o několik generací novější modely příliš relevantní. Každopádně jistá obecná výpovědní hodnota se bezesporu hodí.

Životnost pevných disků dle Google: selhávání disků podle zatíže

Druhý graf již ukazuje podrobněji úmrtnost disků v daných časových obdobích roztříděnou podle jejich záteže za běhu. Roztřídění disků do tří skupin podle zátěže bylo provedeno na základě týdenních obejmů čtení/zápisu. Nejnižší skupina pak zahrnuje relativní rozmezí kolem 25 %, střední mezi 50 a 75 % a nejvyšší zátěž pak více než 75 %. Sice toto rozmezí nemusí na první pohled dávat smysl, ale skokové přechody mezi kategoriemi přisuďme rozkládání zátěže mezi diskovými poli. Přeci jen, točit plotnami disku, který vykazuje například 2% zátěž, je zbytečné, to je výhodnější jeho zátěž rozložit mezi několik jiných disků s 25% zátěží (na nichž se ty 2 % „ztratí“) a tento vypnout.

Významným faktorem zde zjevně je vysoká úmrtnost disků během prvních třech měsíců, pokud tyto byly vystaveny vysokému zatížení v provozu. Disky, které přežijí toto počáteční drsné období jsou zjevně odolné a v následujících letech se není třeba v porovnání s méně zatíženými disky obávat nějakého výraznějšího odcházení. Teprve až po pěti letech úmrtnost o něco vzrůstá, zatímco u dvou nižších kategorií naopak klesá.

Teplota

Teplota bývá obecně považována za jeden z klíčových atributů, který má významný vliv na životnost disků. Google uvádí, že dřívější existující studie uváděly, že rozdíly teplot kolísající v rozmezí 15 °C mohou až zdvojnásobit úmrtnost disků. Ale to je obecně známý fakt, ono i takové přenášení disků v zimě, kdy v kapse od bundy promrznou, a jejich okamžité připojení do PC u kamaráda nedělá dobře žádnému systému spoléhajícímu na magnetický záznam, pevnými disky počínaje a VHS kazetami konče.

Google analyzoval mnohé teplotní údaje, zahrnujíce maximální, minimální a průměrnou teplotu, počet událostí, kdy teplota překročila mezní hodnoty a také samozřejmě poslední hodnotu teploty před úmrtím disku.

Životnost pevných disků dle Google: teplotní vliv

Graf ukazuje míru selhávání disků ve vztahu k pracovní teplotě (jednotlivé sloupečky v grafu jsou odstupňovány po 1 °C, „puntíky“ jsou k nim příslušející míra selhávání). Krásně je vidět, že pevné disky není vhodné přiliš „podchlazovat“, neboť toto značně zvyšuje pravděpodobnost selhání. Optimální rozmezí pracovní teploty je zhruba mezi 37 až 43 °C, ale ani o pár dalších stupínků níže či výše se selhávání příliš nezvyšuje.

Životnost pevných disků dle Google: teplotní vliv

Druhý graf ukazuje prakticky totéž, jen se zaměřuje na selhávání disků v jednotlivých obdobích v provozu v rámci pěti skupin rozčleněných podle pracovních teplot. Asi netřeba více komentovat, snad jen, že je vhodné dlouhodobě držet disk mezi 30 až 40 °C.

Zdroje: 
Kapitoly článků
1.  Úvod, použitá metodika, výsledky

David "David Ježek" Ježek

Bývalý zdejší redaktor (2005-2017), nyní diskusní rejpal.

více článků, blogů a informací o autorovi

Diskuse ke článku Životnost pevných disků dle Google

Pondělí, 5 Květen 2008 - 13:23 | Anonym | mirror ani jiny raid nezajisti to co zaloha....
Středa, 12 Září 2007 - 13:15 | Anonym | 2mindwarp: haha, TVŮJ nápad? :) génie
Pátek, 27 Duben 2007 - 07:51 | Anonym | a jaké disky že používá google? ;)
Sobota, 14 Duben 2007 - 13:49 | mindwarp | re: izap to je možné, že někdo něco omylem smaže...
Sobota, 14 Duben 2007 - 13:45 | mindwarp | Hele, já tohleto docela nechápu. Podle těchto...
Neděle, 4 Březen 2007 - 07:30 | Anonym | 2izap: akoze raid nenahradzuje zalohu ? vysvetli...
Pondělí, 26 Únor 2007 - 12:54 | Anonym | RAID nenahrazuje zálohu, to je nesmysl! Ve...
Pondělí, 26 Únor 2007 - 11:15 | Anonym | re:ztrnka To ja sem zas mel hdd IBM 120GB a mel...
Sobota, 24 Únor 2007 - 12:36 | Anonym | Proc by nemoh pocitat statistiku ze dvou vzorku?...
Pátek, 23 Únor 2007 - 21:27 | Anonym | Nappster> ty máš 2 disky a mluvíš o...

Zobrazit diskusi