Datová analýza jako skládání puzzle
Vzhledem k tomu, že v minulém roce jsem spal ve své vlastní posteli necelých deset dní, dá se můj malý osobní průzkum považovat za poměrně reprezentativní (data jsem pro něj sbíral na pěti kontinentech). Potvrdily mi ho také výsledky české verze IBM CEO Study. Čeští lídři si jsou podle ní vědomi informační exploze a pociťují potřebu záplavu dat efektivně zpracovávat a využít.
Každý den dnes vzniká zhruba stejné množství dat, jaké bylo vytvořeno od počátku lidstva do roku 2003, role analytických nástrojů je tak stále důležitější. Relevantní data se totiž skládají dohromady jako kousky puzzle. Z jednoho samotného kousku nic moc nevyčtete. Když ale dáte dohromady několik spolu souvisejících, máte najednou obrázek. Na takovéto úkoly však musí být připraveny IT systémy v organizacích – i ty se musí stát "chytřejšími".

Lidé se mě často ptají, jaký druh matematiky při tomhle "skládání", neboli vytváření velkých systémů akumulujících kontexty využívám. Na to vždy odpovídám: Matematiku nepoužívám, ale dokážu vysvětlit, jak to funguje, krok po kroku, je to skutečně jednoduché.
Uvedu jeden praktický příklad. Představte si, že před sebou máte dva osobní záznamy:
Jméno: Mark Smith
Datum narození: 05/12/1987
Daňové identifikační číslo: 555-00-1122
Jméno: Mark Smith
Datum narození: květen 1987
Číslo řidičského průkazu: 0099912334
Jde o tutéž osobu? To je docela možné. Za použití populační statistiky a matematiky by bylo možné vypočítat poměrně přesnou pravděpodobnost, že tomu tak je. Já bych se ale spíše ptal, kde v tomto případě můžeme hledat nějaké vodítko. Pomohl by nám například takovýto záznam:
Jméno: Mark K Smith
Datum narození: May 12, 1987
Číslo řidičského průkazu: 0099912334
Daňové identifikační číslo: 555-00-1122
Touhle ukázkou chci ilustrovat, že raději hledám důkazy, které hypotézu podpoří či vyvrátí. A pokud by takové tvrzení mělo přinést skutečně významný výsledek, pak bych se snažil najít další fakta, až by celá věc byla zcela jasná. Pokud již nemáte k dispozici žádná fakta a stále si nejste jisti, máte několik možností. Můžete lokalizovat a posbírat ten druh údajů, který potřebujete. Můžete také čekat, dokud se vám nepodaří narazit na nějaký fakt, který bude mít spojitost s vaším tvrzením, nebo můžete použít matematiku.
Mnoho lidí se zabývá složitými problémy a za celá desetiletí nejsou s to dosáhnout nějakého pokroku. Přitom jediné, co potřebují, je více dat. Obdobná je i má rada manažerům, kteří se na mě obrací. Když říkám více dat, rozhodně tím nemyslím větší objem stejného druhu dat. Mám na mysli ortogonální data – data z různých čidel, sdílející určité rysy dané domény či entity (v našem případě například jméno a číslo řidičského průkazu). Jak poznamenal Arthur Conan Doyle, je velká chyba pouštět se do teoretizování, dokud nemáme k dispozici údaje. Moje zkušenost mu dává za pravdu.
Autor: Jeff Jonas, IBM Distinguished Engineer, Chief Scientist – Entity Analytics
Jeff Jonas navštívil Prahu během minulých dvou let již několikrát. Jeho pohled na vytěžení maximum z dostupných dat vám přiblíži i rozhovory např. na Techrunch:
Diskuse ke článku Datová analýza jako skládání puzzle