Diit.cz - Novinky a informace o hardware, software a internetu

Analýza SMART údajů

Google logo
Asi každý, kdo kdy kupoval pevný disk, se zamýšlel nad otázkou, zdali je lepší ten či onen model. Většinou lze vycházet buď z vlastních zkušeností z minula, lidí z nejbližšího okolí anebo třeba diskusních fór. Ale asi jen málokdo může říci, že jeho testovací vzorek byl tak velký, jako 100 000 disků, které prověřili inženýři Google v ostrém provozu na svých serverech za posledních 5 let. A právě na analýzu, která z tohoto vzešla, se nyní podíváme.

Kapitoly článků

Scan Errors

Scan Errors, alias obecná hlášení chyb SMART monitoringu jsou také jedním z relevantních údajů pro analýzu poruchovosti disků. Pevné disky si obvykle ve volných chvílích provádějí vlastní analýzu (jistě znáte takové ty různé zvuky, co disky vydávají při nečinosti, to je právě ono) a na jejím základě se provádí predikce selhání disků. Vysoké hodnoty chyb mohou být indikací toho, že není něco v pořádku s povrchem ploten a proto jsou v Google následně považovány za indikaci faktu, že daný disk nebude oplývat zrovna vysokou životností.

Životnost pevných disků dle Google: scan errors

Na grafu je znázorněn vztah mezi „scan errors“ (tedy chybami nalezenými při autodiagnostice disku) a reálným selháním disku. Jednoznačně jest tímto prokázáno, že disky s nulovou chybovostí mají výrazně nižší poruchovost, než disky s byť jedinou nalezenou chybou. Tento vývoj sice v průběhu let kolísá, ale výsledek je bezesporu zcela zřejmý.

Životnost pevných disků dle Google: scan errors, následný vývojŽivotnost pevných disků dle Google: scan errors, následný vývojŽivotnost pevných disků dle Google: scan errors, následný vývoj

Tato trojice grafů ukazuje naměřený vývoj disků v závislosti na nalezených chybách. První graf ukazuje obecný průběh šance disku na přežití (tedy šance, že disk v následujících osmi měsících neselže) po nalezení první chyby na plotnách. Druhý graf již rozlišuje disky do skupin podle stáří (v měsících) od nalezení první chyby. Jasně tak je prokázána úměra mezi výrazněji klesající šancí disku na přežití s jeho rostoucím věkem, kdy u něj byla nalezena první chyba. To je koneckonců vyústění předcházejících výsledků o umírání disků s rostoucím věkem. Třetí graf pak rozlišuje šanci na přežití podle počtu nalezených chyb při prvním výskytu. Opět je zřejmé, že s rostoucím počtem chyb klesá šance výrazněji, což je koneckonců logické.

Google k tomu dodává, že svými meřeními zjistili, že nalezení první chyby (scan erroru) je klíčovým faktorem pro životnost disků. Po výskytu první chyby dle nich totiž vzrostla šance na selhání disku v nadcházejících 60 dnech 39×.

Realokované sektory

Na úvod si připomeňme, že žádný pevný disk nemá nikdy využit celý prostor na plotnách jakožto přístupný pro uživatelská data. Kromě jistých systémových oblastí je na plotnách určitá část vyhrazena jako záložní prostor. Pevný disk, pokud při autodiagnostice vyhodnotí některý sektor jako vadný, tento zablokuje pro další použití a data z něj realokuje do tohoto záložního prostoru (který však samozřejmě není nekonečný). Vývoj tohoto jevu lze ve SMARTu pozorovat na atributech s názvy jako Reallocated Sector Count, Reallocation Event Count či Current Pending Sector Count.

Životnost pevných disků dle Google: realokace

Graf opět dle očekávaní ukazuje, že u disků s byť jediným realokovaným sektorem je podstatně vyšší pravděpodobnost selhání, a to v podstatě hned od počátku jeho užívání. Tato šance je pak dle Google podstatně vyšší po celé sledované období.

Životnost pevných disků dle Google: realokace, následný vývojŽivotnost pevných disků dle Google: realokace, následný vývojŽivotnost pevných disků dle Google: realokace, následný vývoj

Opět tu máme trojici grafů hodnotící časový vývoj šancí disku na přežití s ohledem na první výskyt realokace sektorů. První graf znázorňuje pravděpodobnost pro osm měsíců po výskytu první realokační události. Druhý graf pak opět vývoj s ohledem na stáří disku v době první realokace. Opět zcela jasný důkaz, že stáří disku se na šanci projevuje výrazně negativně, byť graf ukazuje i zvláštní jev, kdy si lépe vedou po první realokaci disky 5 až 10 měsíců staré, než ty úplně nové. Poslední graf pak zobrazuje průběh pro disky s 1 až 4 a více než čtyřmi realokačními událostmi. Rozdíl nějaký je, ale uvědomme si současně, že všechny grafy se pohybují v rozmezí 0,6 až 1,0, pročež v absolutních hodnotách jsou rozdíly o něco menší. Závěrem Google dodává, že po první realokační události je průměrný disk zhruba 14× náchylnější k selhání než disky bez realokovaných sektorů.

Offline Realokace

Indikace takzvané „Offline realokace“ sektorů je poměrně ošemetná záležitost, nejprve si ale objasňeme, o co jde. Offline Reallocation je podmnožinou Rellocation Counts, přičemž tato položka indikuje počet realokačních událostí, ke kterým došlo následkem „offline scanování“, tedy při hledání poškozených oblastí v době nečinnosti disku. Indikují tedy počet, který nezahrnuje realokované sektory nalezené během standardních I/O operací. Tedy, tak by tomu alespoň mělo být, ale Google jedním dechem dodává, že zrovna s čítáním Offline realokací je problém. Někteří výrobci disků neimplementují tento SMART atribut korektně, takže jejich disky vykazují počet Offline realokací vyšší než celkový počet Reallocation Count. Těžko takto „od stolu“ ukázat prstem, koneckonců nerad bych byl prvním, kdož hodí kamenem. SMART u pevných disků není nijak závazně definován, na tomto místě mohu připomenout například další nesrovnalost, konkrétně u disků Seagate, které u některých položek (Seek Error Rate, ...) vykazují astronomické s realitou a tím pádem i predikcí selhání nekorespondující hodnoty.

Smutnější je tento stav u Offline realokací v tom, že v Google potvrdili, že i tento atribut má klíčový význam pro pravděpodobnost budoucího selhání disku. Pokud tedy vezmeme při hodnocení tohoto atributu v potaz, že nemá univerzální výpovědní hodnotu, lze říci následující. Mezi disky Google byly zhruba 4 %, která u Offline Reallocation vykazovaly nenulovou hodnotu, a tento počet byl z velké části zastoupen v úzkém množství modelů.

Životnost pevných disků dle Google: offline realokace

Na grafu je pak výrazně vidět, že disky s byť jedinou Offline realokační událostí mají v prvních třech letech mnohonásobně vyšší pravděpodobnost selhání a i v nadcházejících letech je tato zhruba dvojnásobná.

Životnost pevných disků dle Google: offline realokace, následný Životnost pevných disků dle Google: offline realokace, následný Životnost pevných disků dle Google: offline realokace, následný

Opět i u tohoto atributu nabízí Google trojici grafů k analýze. Konstatuje, že v případě výskytu byť jediné offline realokace je 21× vyšší šance, že disk v nadcházejících dvou měsících selže, tedy pravděpodobnost stoupající drastičtěji než v případě obecné realokace. S ohledem na popisovanou nesrovnalost nelze však závěr oběcně vztáhnout na celé spektrum, spíše je třeba tento atribut brát jako významný indikační prvek v rámci jedné modelové skupiny disků (tedy například pokud máte v PC tři shodné disky v RAIDu a jeden z nich vybočuje).

Probational Counts

Další analyzovaný aspekt Google nazývá, jak je vidět v nadpise. Žádný takový atribut samozřejmě ve SMART položkách nenaleznete, firma jím označuje „potenciálně vadné sektory“, které jsou vzaty „na pozorování“ tedy jsou sledovány, zdali v budoucnu skutečně selžou a stanou se z nich vadné sektory). Této definici ve SMARTu nejvíce odpovídá položka „Current Pending Sector Count“, pročež předpokládejme, že jde právě o ní. Tato položka ve SMARTu indikuje sektory, které byly vyhodnoceny jako nestabilní a zpravidla víceméně již jen čekají na přemapování do záložního prosotoru a následné označení za „vadné“ (tedy čekají na realokaci). Nicméně se může i stát, že elektronika stav tohoto sektoru napoprvé vyhodnotí chybně a tak po případném následném několikanásobném úspěšném čtení/zápisu může být zpětně přehodnocen jako zdravý a čítač této SMART hodnoty se patřičně sníží. Pokud následně dojde k opakovanému chybnému čtení, sektor není přemapován, tak je činěno pouze, pokud nelze do sektoru spolehlivě zapisovat. Samotným zápisem se pak samozřejmě nemyslí to, co vidí uživatel navenek v operačním systému (tedy možný zápis pouze v rámci diskové cache), ale fyzický zápis na daný sektor diskové plotny.

Životnost pevných disků dle Google: podezřelé sektory

Mezi disky u Google vykazovaly nenulovou hodnotu zhruba dvě procenta z celkového počtu. První graf opět ukazuje, že byť jediný podezřelý sektor výrazně zvyšuje šanci selhání disku.

Životnost pevných disků dle Google: podezřelé sektory, následný Životnost pevných disků dle Google: podezřelé sektory, následný Životnost pevných disků dle Google: podezřelé sektory, následný

Na šanci selhání disku pak má méně výrazný vliv, jak dlouho po zprovoznění disku se první podezřelý sektor objevil. Daleko zajímavější vývoj je však s ohledem na to, zdali je počet podezřelých sektorů do tří, nebo více. Google dodává, že již první výskyt podezřelého sektoru zvyšuje šanci na selhání disku v nadcházejících dvou měsících zhruba 16×.

Zdroje: 
Kapitoly článků

David Ježek

Dlouholetý zdejší redaktor (2005-2017), příznivec open-source rád píšící i o ne-IT tématech. Odpůrce sw patentů a omezování občanských svobod ve prospěch korporací. Fanoušek Asimova, Kinga, Feynmana, Sudka, 70mm filmu, sf/vf filmu, Fomapanu 400, starých dobrých her, 99% čokolády, indické kuchyně, domácího kváskového chleba a řady dalších věcí.

více článků, blogů a informací o autorovi

Diskuse ke článku Životnost pevných disků dle Google

Pondělí, 5 Květen 2008 - 13:23 | Anonym | mirror ani jiny raid nezajisti to co zaloha....
Středa, 12 Září 2007 - 13:15 | Anonym | 2mindwarp: haha, TVŮJ nápad? :) génie
Pátek, 27 Duben 2007 - 07:51 | Anonym | a jaké disky že používá google? ;)
Sobota, 14 Duben 2007 - 13:49 | mindwarp | re: izap to je možné, že někdo něco omylem smaže...
Sobota, 14 Duben 2007 - 13:45 | mindwarp | Hele, já tohleto docela nechápu. Podle těchto...
Neděle, 4 Březen 2007 - 07:30 | Anonym | 2izap: akoze raid nenahradzuje zalohu ? vysvetli...
Pondělí, 26 Únor 2007 - 12:54 | Anonym | RAID nenahrazuje zálohu, to je nesmysl! Ve...
Pondělí, 26 Únor 2007 - 11:15 | Anonym | re:ztrnka To ja sem zas mel hdd IBM 120GB a mel...
Sobota, 24 Únor 2007 - 12:36 | Anonym | Proc by nemoh pocitat statistiku ze dvou vzorku?...
Pátek, 23 Únor 2007 - 21:27 | Anonym | Nappster> ty máš 2 disky a mluvíš o...

Zobrazit diskusi