Datová analýza jako skládání puzzle

13. 3. 2012 | Jiří Molnár | Chytřejší IT

Na svých cestách mám možnost mluvit se spoustou manažerů, ředitelů a vůbec lidí na vedoucích pozicích. Valná většina z nich se mi, jistě i s ohledem na obor, kterým se zabývám, svěřuje s největší výzvou, které teď čelí. "Celý rozhodovací proces se neuvěřitelně dynamizuje," říkají, "rozhodovat se tak musíme čím dál rychleji". Aby byli úspěšní, potřebují aktuální a relevantní informace prakticky okamžitě. Potíž vězí v tom, že získat je z neustále stoupajícího množství dat je čím dál těžší.

Vzhledem k tomu, že v minulém roce jsem spal ve své vlastní posteli necelých deset dní, dá se můj malý osobní průzkum považovat za poměrně reprezentativní (data jsem pro něj sbíral na pěti kontinentech). Potvrdily mi ho také výsledky české verze IBM CEO Study. Čeští lídři si jsou podle ní vědomi informační exploze a pociťují potřebu záplavu dat efektivně zpracovávat a využít.

Každý den dnes vzniká zhruba stejné množství dat, jaké bylo vytvořeno od počátku lidstva do roku 2003, role analytických nástrojů je tak stále důležitější. Relevantní data se totiž skládají dohromady jako kousky puzzle. Z jednoho samotného kousku nic moc nevyčtete. Když ale dáte dohromady několik spolu souvisejících, máte najednou obrázek. Na takovéto úkoly však musí být připraveny IT systémy v organizacích – i ty se musí stát "chytřejšími".

$C:\Users\jome\Desktop\ibm$

Lidé se mě často ptají, jaký druh matematiky při tomhle "skládání", neboli vytváření velkých systémů akumulujících kontexty využívám. Na to vždy odpovídám: Matematiku nepoužívám, ale dokážu vysvětlit, jak to funguje, krok po kroku, je to skutečně jednoduché.

Uvedu jeden praktický příklad. Představte si, že před sebou máte dva osobní záznamy:

Jméno: Mark Smith
Datum narození: 05/12/1987
Daňové identifikační číslo: 555-00-1122

Jméno: Mark Smith
Datum narození: květen 1987
Číslo řidičského průkazu: 0099912334

Jde o tutéž osobu? To je docela možné. Za použití populační statistiky a matematiky by bylo možné vypočítat poměrně přesnou pravděpodobnost, že tomu tak je. Já bych se ale spíše ptal, kde v tomto případě můžeme hledat nějaké vodítko. Pomohl by nám například takovýto záznam:

Jméno: Mark K Smith
Datum narození: May 12, 1987
Číslo řidičského průkazu: 0099912334
Daňové identifikační číslo: 555-00-1122

Touhle ukázkou chci ilustrovat, že raději hledám důkazy, které hypotézu podpoří či vyvrátí. A pokud by takové tvrzení mělo přinést skutečně významný výsledek, pak bych se snažil najít další fakta, až by celá věc byla zcela jasná. Pokud již nemáte k dispozici žádná fakta a stále si nejste jisti, máte několik možností. Můžete lokalizovat a posbírat ten druh údajů, který potřebujete. Můžete také čekat, dokud se vám nepodaří narazit na nějaký fakt, který bude mít spojitost s vaším tvrzením, nebo můžete použít matematiku.

Mnoho lidí se zabývá složitými problémy a za celá desetiletí nejsou s to dosáhnout nějakého pokroku. Přitom jediné, co potřebují, je více dat. Obdobná je i má rada manažerům, kteří se na mě obrací. Když říkám více dat, rozhodně tím nemyslím větší objem stejného druhu dat. Mám na mysli ortogonální data – data z různých čidel, sdílející určité rysy dané domény či entity (v našem případě například jméno a číslo řidičského průkazu). Jak poznamenal Arthur Conan Doyle, je velká chyba pouštět se do teoretizování, dokud nemáme k dispozici údaje. Moje zkušenost mu dává za pravdu.

Autor: Jeff Jonas, IBM Distinguished Engineer, Chief Scientist – Entity Analytics

Jeff Jonas navštívil Prahu během minulých dvou let již několikrát. Jeho pohled na vytěžení maximum z dostupných dat vám přiblíži i rozhovory např. na Techrunch:

Zdroje:

Blog

nahlásit chybu

Jiří Molnár

Pracoval zde pět let jako šéfredaktor serverů CDR.cz, DIIT.cz a PCPoradenstvi.cz. Aktivně se podílel na tvorbě obsahu všech tří webů, primární rolí však bylo řízení redakčního týmu a prosazování marketingové strategie. Dnes pracuje jako IT konzultant a frontend vývojář na volné noze.

více článků, blogů a informací o autorovi

Diskuse ke článku Datová analýza jako skládání puzzle

Žádné komentáře.

Diit.cz - Novinky a informace o hardware, software a internetu

Datová analýza jako skládání puzzle

Jiří Molnár

Diskuse ke článku Datová analýza jako skládání puzzle

Komerční sdělení

CDR Hry

Epic rozdává zdarma hru, která potěší hráče simulátorů

Rusko chystá velkou misi na Venuši, která změní náš pohled na život ve vesmíru

Studenti spoléhají na AI víc než kdy dřív. Jenže si neuvědomují tyto skutečnosti

Tvůrci, zbystřete: Facebook spouští program, který obchází stará pravidla

NASA mění plán návratu na Měsíc. Přistání se odsouvá, ale ambice rostou

Soutěž

Redakce CDR rozdává 100 prémiových Steam klíčů k Velikonocům

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT