Jediný 44jádrový Xeon může být 3,5× rychlejší než 8 Tesel V100
Standardní metody strojového učení jsou postavené na násobení matic (matrix multiplication), pro které jsou vhodné grafické akcelerátory. Při úpravě architektury na míru (Tensor Cores) jsou pak ještě vhodnější a výkonnostně překonávají procesory. Na tom v podstatě stojí celý byznys s akcelerací AI. Ať už speciální akcelerátory nebo (GP)GPU jsou ne zrovna levným doplňkem, který ovšem umožňuje dosáhnout o tolik vyššího výkonu oproti procesorům, že se finančně i energeticky vyplatí.
Rice Univerzity ve spolupráci s Intelem se ale na celý problém strojového učení podívala z jiného hlediska a namísto maticového řešení přišla s vlastním konceptem, který označuje jako SLIDE. Jeho autoři (Beidi Chen, Tharun Medini, James Farwell, Sameh Gobriel, Charlie Tai a Anshumali Shrivastava) pojali problém strojového učení jako vyhledávání řešení pomocí hašovacích tabulek. To jde procesorům výrazně lépe a především díky tomu odpadá pro procesory nepraktická režie.
Tým autorů výsledek demonstroval na zátěži optimalizované pro klasický systém s osmi Teslami V100, který byl koncipovaný tak, aby se vešel do jejich paměti a dokázal je optimálně využít. Oproti tomu postavili jeden Xeon se 44 jádry (že by Cooper Lake s podporou BFLOAT16?) s použitím SLIDE. Systém s osmi Teslami V100 potřeboval na zpracování úlohy 3,5 hodiny, systému se 44jádrovým Xeonem stačila hodina.
Pokud by se potvrdilo, že tento přístup je běžně uplatnitelný (ne tedy pro velmi specifickou situaci, mimo níž funguje výrazně hůř), mohlo by to ve světě AI akcelerace znamenat solidní přeskupení sil - Intel by oproti Nvidii začal tahat za delší část provazu (AMD by se jen dál usmívala). Pokud tento koncept nějaké slabiny má, zajisté se o nich od Nvidie velmi brzy dozvíme.