Herní GeForce: Za 3-6 měsíců, výpočetní modely: nejdříve koncem roku
Arun Demeure se světu 3D grafiky věnuje už hezkou řádku let. S jeho jménem jste se mohli setkat v souvislosti s někdejším autorským týmem webu Beyond 3D, dále působil jako hardwarový analytik, hardwarový inženýr a také jako grafický architekt společnosti Imagination Technologies. Při tom, kolik pozornosti a energie média věnují často zcela neopodstatněným diskusním klepům, je docela zvláštní, jak málo prostoru se dostává lidem, kteří k situaci skutečně mají co říct.
Demeure se po delší odmlce rozhodl zběžně podívat na stávající situaci Nvidie. Začal u architektury Volta - čipu GV100 použitého mj. na Nvidia Titan V - a skončil u výhledu na nadcházející produkty.
Volta / Titan V / GV100
Titan V má nižší geometrický výkon než Titan X. Zatímco pro Titan X vychází celkem 28 geometrických procesorů, Titan V pouze 21. Tento počet je poměrně zvláštní, neboť při jednom geometrickém procesoru na 4 SM (streaming multiprocessor) vychází, že přestože má z celkových 84 SM Titan V aktivních jen 80 SM, geometrické procesory zůstávají funkční všechny, tedy i ten, který by vycházel na čtyři neaktivní SM.
To je zajímavé i z důvodu, že (podle Nvidie) je jádro GV100 rozděleno na šest GPC (graphics processing cluster). 84 (SM) / 6 (GPC) = 14 GPC na každý SM. Jenže 14 není dělitelných čtyřmi (počet SM na geometrický procesor), takže se zdá, jakoby buďto geometrické procesory stály stranou této základní konfigurace, nebo ne každý SM má (exkluzivní?) přístup ke geometrickému procesoru.
Druhým bodem, na který se Demeure u GV100 zaměřil, jsou Tensor cores, jádra pro akceleraci specifických úloh především ve světě AI. Narazil na zajímavou energetickou anomálii; energetické nároky Tensor cores jsou vyšší než odpovídá jejich funkci, takže je zde značný prostor pro optimalizace a zlepšení. Působí to, jako by byly navrženy narychlo a nebyl čas pro jejich výraznější optimalizace. To docela koresponduje s faktem že Volta měl být původně nástupce Maxwellu, který byl pravděpodobně z důvodu zdržení nové generace pamětí odložen. Je možné, že Tensor cores byly do architektury doplněné dodatečně, využitím odkladu a nebyly součástí původního architektonického návrhu.
Výhled
Demeure vidí nadcházející grafickou i výpočetní architekturu Nvidie jako deriváty architektury Volta, což bychom mohli chápat asi jako vztah, který měl Pascal k Maxwellu. Rozdíl je samozřejmě v tom, že nyní navíc dochází k rozdělení návrhu na grafické produkty a výpočetní produkty.
GeForce / QuadroPro herní produkty očekává Demeure nasazení 12nm procesu a jejich reálnou dostupnost vidí v horizontu 3-6 měsíců. To je na jednu stranu o něco déle než předpokládají jiní, na druhou stranu by to neodporovalo tvrzení Nvidie, že dostupnost grafických karet se do podzimu nezlepší. Tato architektura by mohla podporovat rychlé FP16 a / nebo instrukce typu DP4A (inferencing) využitelné pro AI, které nijak významně nezvyšují počet tranzistorů a tedy výrobní náklady. Tato architektura by byla použitá pro herní grafické karty GeForce a profesionální grafické karty Quadro.
Tesla (HPC / AI)Výpočetní segment by počkal na 7nm proces. Demeure upozorňuje na činnost startupu groq, který založili bývalí TPU inženýři Googlu a kteří plánují dodávat vzorky 7nm produktů ve čtvrtém kvartálu letošního roku. To na jednu stranu ukazuje, že 7nm proces bude koncem roku pro tyto účely použitelný (vzorky 7nm Vega 20 plánuje do konce roku dodávat i AMD) a na stranu druhou tyto aktivity Nvidii motivují nezůstat s nabídkou pozadu a dodávat vlastní vzorky ne později a optimálně dříve než ostatní výrobci. Tyto čipy nebudou disponovat rasterizérem, geometrickými procesory a dalšími prvky spojenými s grafikou, takže nebudou plnohodnotně využitelné v grafickém segmentu.
Poslední zajímavost se týká přesnosti FP8. Stávající hardware disponuje FP64 (double-precision, specifické výpočetní nasazení), FP32 (single-precision, grafika), FP16 (half-precision, umělá inteligence, částečně grafika) a Int8 (umělá inteligence). Existuje ale i poptávka po FP8 a podle některých zdrojů by se podpora měla objevit na neupřesněném budoucím hardwaru, z čehož Demeure usuzuje, že by tento standard mohla ze dvou důvodů přijmout i Nvidia.
Prvním je samotná poptávka. Druhým záliba CEO společnosti Jen-Hsun Huanga v prezentaci velkých čísel. Vzpomeňte na jeho vystoupení před projekcí obřího slajdu s nápisem „Pascal 10× Maxwell“. Několikanásobný nárůst výkonu u výpočtů vyžadujících přesnost přinejmenším FP8 by mohl dát vznik další podobné prezentaci.