Upřesnění: Xeony byly dva se 44 jádry/vlákny celkem, Tesla V100 jediná
Rice University s Intelem přišla s inovativním konceptem řešení strojového učení (deep learning), který označuje jako SLIDE. Namísto násobení matic, kterému lépe než klasické procesory vyhovují grafické a speciální akcelerátory, pojala strojové učení jako vyhledávání řešení pomocí hašovacích tabulek. Procesory ho zvládají výrazně lépe, což mělo být ilustrováno srovnáním konkrétních výsledků s akcelerátory Nvidia Tesla V100.
This radically reduces the computational overhead for SLIDE compared to back-propagation training. For example, a top-of-the-line GPU platform like the ones Amazon, Google and others offer for cloud-based deep learning services has eight Tesla V100s and costs about $100,000, Shrivastava said. “We have one in the lab, and in our test case we took a workload that’s perfect for V100, one with more than 100 million parameters in large, fully connected networks that fit in GPU memory,” he said. “We trained it with the best (software) package out there, Google’s TensorFlow, and it took 3 1/2 hours to train. “We then showed that our new algorithm can do the training in one hour, not on GPUs but on a 44-core Xeon-class CPU,” Shrivastava said. |
Tisková zpráva, která o srovnání informovala, však byla formulována značně nešťastně, neboť zmiňovala konfiguraci s osmi Teslami V100. Ve skutečnosti však srovnání bylo provedeno na jedné Tesle V100, oproti které stál dvousocketový systém se dvěma Xeony vybavenými 22 jádry bez HT (tedy 44 jader / 44 vláken celkem).
Jeden Xeon tedy nepřekonává osm Tesel 3,5×, ale dva Xeony (byť jde i tak o 44 jader) překonávají jednu Teslu 3,5×. Ačkoli jde o velmi významné zrychlení, takový zázrak, jaký z textu původně vyplýval, se nekoná. Teslám však zůstává jedna výhoda - zatíco se do jedné skříně obvykle vměstnají dva procesory, Tesel se vejde osm, díky čemuž jim zůstává jistá výhoda v podobě výkonu na jednotku. Druhou stranou mince je ovšem výrazně vyšší pořizovací cena a výrazně vyšší spotřeba.
Jestli Intel bude schopný dodávat i jednosocketové řešení s >40 jádry (které na letošní rok ohlásil), pak by i výpočetní denzita mohla převážit ve prospěch Intelu. Pokud ovšem Nvidia dříve nevydá novou generací akcelerátorů Ampere, která přinejmenším umožní zachovat status quo.