Diit.cz - Novinky a informace o hardware, software a internetu

"Nekritické" SMART atributy, závěr

Google logo
Asi každý, kdo kdy kupoval pevný disk, se zamýšlel nad otázkou, zdali je lepší ten či onen model. Většinou lze vycházet buď z vlastních zkušeností z minula, lidí z nejbližšího okolí anebo třeba diskusních fór. Ale asi jen málokdo může říci, že jeho testovací vzorek byl tak velký, jako 100 000 disků, které prověřili inženýři Google v ostrém provozu na svých serverech za posledních 5 let. A právě na analýzu, která z tohoto vzešla, se nyní podíváme.

Kapitoly článků

3.  "Nekritické" SMART atributy, závěr

SMART nabízí i další atributy, které však již, narozdíl od dosud probraných, nebývají označovány za „kritické“ z hlediska predikce selhání disku.

  • Seek Error Rate: tento atribut čítá chybná vystavení hlaviček na požadovaný sektor. Značit může (ale nemusí) chybu servo mechanismu vystavujícího hlavičky na přílušné místo, případně teplotní roztažnost diskových ploten (ano, i plotny mohou měnit svoji velikost s teplotou, ale bavíme se samozřejmě o mikroskopických změnách, které však s ohledem na hustotu záznamu, dnes již kolmého, mohou mít za následek tuto chybu).
  • UltraDMA CRC Error Count: pomocí ICRC kontrolních součtů indikuje počet chyb v datových přenosech mezi diskem a okolím, obvykle (u PATA disků) indikuje překroucený kabel. I v Google zaznamenali souvislost vysokých hodnot CRC chyb spíše se špatnou kabeláží, než s problémovými disky.
  • Start/Stop Count: indikuje počet spuštění disku. V serverech Google, které běží nepřetržitě, tento atribut nemá nijaký dopad.
  • Spin-Up Time: doba po kterou disk roztočí plotny z klidového stavu na operační otáčky (typicky 7 200 za minutu). S vysokým věkem mívá tendenci se prodlužovat.
  • Power-On Hours: doba, po kterou je disk v provozu.
  • Spin Retry Count: indikuje počet opakovaných pokusů o roztočení ploten v případě, kdy první požadavek neuspěl. Osobně jsem zažil například u pět let starého disku Wester Digital, který již měl něco za sebou (a i Spin-Up Time se prodlužoval), že roztočil plotny po zapnutí PC až na druhý nebo dokonce třetí opakovaný požadavek. Cosi to již napovídá, byť tento atribut není považován za kritický, ani v Google nezaznamenali vztah mezi touto hodnotou a selháváním disků.
  • Temperature: asi netřeba nic dodávat, teplota je jedním z klíčových faktorů životnosti disku, její význam jsme si vysvětlili na začátku článku.

SMART atributů je pak ještě podstatně více, řadu navíc jich mají zejména notebookové disky. Záleží však na konkrétním výrobci, které z nich bude implementovat. V dobách, kdy SMART začínal, mívaly disky monitorovány třeba jen tři, čtyři SMART atributy, dnes jich bývá typicky kolem 20 až 25.

Závěr

SMART statistiky jsou poměrně ošemetná záležitost, neboť se nejedná o exatní vědu, spíše často některé dílčí prvky připomínají nějaké „mystické voodoo“ daného výrobce. Přesto jim, a analýza Google to opět jasně dokazuje, nelze upřít u klíčových prvků velmi silnou výpovědní hodnotu. Vše však závisí na preciznosti a vhodnosti nastavení analýzy těchto údajů. Disky samy na základě SMART hodnot nic nevyvozují, to je na obslužné aplikaci, jaký model predikce její autor zvolí, ať již jde o programy typu SpeedFan, ActiveSMART, HDD Health či systémového daemona, jehož nad svými diskovými poli provozují v Googlu.

Google k tomu na závěr dodává, že z klíčových skupin SMART parametrů, jež jsme si dnes na základě jejich analýzy popsali, pouze 56 % z disků, které jim za ty roky selhaly, vykazovalo změnu těchto parametrů k horšímu. Pokud mezi tyto atributy zahrnuli i další jmenované prvky (vyjma teploty), dostali se k hodnotě 36 % disků, které selhaly přesto, že vykazovaly nulové změny hodnot. Celkový závěr je tedy částečně zakalen tímto jednoznačně neprokázaným vztahem mezi SMART hodnotami a reálným selháním disku. Můžete mít disk, který se dle SMARTu tváří, že si pomalu balí svých pět švestek do věčných lovišť (a bude vás v tom utvrzovat i predikce v programech typu SpeedFan), ale disk může spokojeně běžet další řadu let. Naproti tomu nelze vyloučit, že dle SMARTu zdravý disk najednou během relativně krátké doby neodejde.

Zkrátka a dobře, na známé poučce „zálohovat, zálohovat, zálohovat“ se nic nemění. Přestože pevné disky jsou dnes zpravidla velice spolehlivé, nelze jim stoprocentně důvěřovat a ještě větší opatrnost je třeba mít například vůči diskům v RAID 0 poli. Na klíčová data se nadále doporučuje buď dělat pravidelné zálohy, nebo (ideálně současně s tím) mít tato dat na některém z bezpečných typů diskových polí, ať již RAID 1, RAID 5, nebo jiném.

Zdroje: 
Kapitoly článků
3.  "Nekritické" SMART atributy, závěr

David Ježek

Dlouholetý zdejší redaktor (2005-2017), příznivec open-source rád píšící i o ne-IT tématech. Odpůrce sw patentů a omezování občanských svobod ve prospěch korporací. Fanoušek Asimova, Kinga, Feynmana, Sudka, 70mm filmu, sf/vf filmu, Fomapanu 400, starých dobrých her, 99% čokolády, indické kuchyně, domácího kváskového chleba a řady dalších věcí.

více článků, blogů a informací o autorovi

Diskuse ke článku Životnost pevných disků dle Google

Pondělí, 5 Květen 2008 - 13:23 | Anonym | mirror ani jiny raid nezajisti to co zaloha....
Středa, 12 Září 2007 - 13:15 | Anonym | 2mindwarp: haha, TVŮJ nápad? :) génie
Pátek, 27 Duben 2007 - 07:51 | Anonym | a jaké disky že používá google? ;)
Sobota, 14 Duben 2007 - 13:49 | mindwarp | re: izap to je možné, že někdo něco omylem smaže...
Sobota, 14 Duben 2007 - 13:45 | mindwarp | Hele, já tohleto docela nechápu. Podle těchto...
Neděle, 4 Březen 2007 - 07:30 | Anonym | 2izap: akoze raid nenahradzuje zalohu ? vysvetli...
Pondělí, 26 Únor 2007 - 12:54 | Anonym | RAID nenahrazuje zálohu, to je nesmysl! Ve...
Pondělí, 26 Únor 2007 - 11:15 | Anonym | re:ztrnka To ja sem zas mel hdd IBM 120GB a mel...
Sobota, 24 Únor 2007 - 12:36 | Anonym | Proc by nemoh pocitat statistiku ze dvou vzorku?...
Pátek, 23 Únor 2007 - 21:27 | Anonym | Nappster> ty máš 2 disky a mluvíš o...

Zobrazit diskusi