Nvidia Echelon: 10nm GPU pro rok 2017 s 2048 stream procesory?
Samotná prezentace pochází z přelomu října a listopadu, dokonce je veřejně dostupná, přesto se uvedené informace stále nestihly rozšířit. Šéfinženýr Nvidie během přednášky rozebíral docela zásadní problém, a to jak se vypořádat s Mooreovým zákonem, který podle Dallyho přestal efektivně fungovat v roce 2005. Jedním z problémů je spotřeba, kterou výrobní procesy neřeší tak rychle, jak by bylo k plnění Mooreova zákona třeba. To plánuje Nvidia řešit mimo jiné maximální možnou redukcí datových přesunů (které patří k energeticky náročným operacím) implementací koncepčně nového systému registrů a cache.
V tuto chvíli ale jako zajímavější lákadlo působí čip Echelon, který Dally zmínil jako ukázku toho, co nás čeká v roce 2017. Prvně jsme o tomto projektu slyšeli na podzim 2010, kdy měl nést zhruba 1024 výpočetních jednotek v 64 blocích a dosahovat výkonu 10 TFLOPS. Ale o tom již čip není - zkrátka a dobře, původně malý Echelonek nám za poslední rok docela povyrostl:
Nvidia Echelon
Ještě než přejdeme k samotným detailům, berte v potaz, že ačkoli následující informace pocházejí z nejpovolanějších úst, nikdo v tuto chvíli nemůže s jistotou říct, co bude zítra, natož v roce 2017 - může se proto leccos změnit. V současnosti je Echelon jen počítačovou simulací, existuje jen jak se říká na papíře
. Výše vyobrazená verze by byla vyráběná 10nm procesem, dosahovala velikosti 17×17 milimetrů (tedy zhruba 290 mm²). Bill Dally se podělil i o odhady vlastností 10nm procesu…
…takže můžeme předpokládat, že čip cílí na 2,5 GHz - zda celý, nebo pouze unifikované jádro, zatím není jasné. Samotné výpočetní jednotky by však touto rychlostí měly běžet v obou případech. Podívejme se na ně blíž:
Každý blok nese čtveřici SM (shader multiprocessor) a každý SM obsahuje 8 výpočetních jednotek - stream procesorů (na obrázku jako lane
). To nám dává 32 stream-procesorů na každý výpočetní blok. Těchto bloků nese celý čip 64 (~256 SM), což odpovídá 2048 stream-procesorům celkem. Na rozdíl od stávajících stream-procesorů (které zvládají 2 FLOPS za takt) budou navíc podporovat 4 FLOPS v taktu. Pokud by běžely na uváděných 2,5 GHz, dosahoval by celý čip výkonu 20,48 TFLOPS (single-precision). Pro srovnání: GeForce GTX 580: 1,58 TFLOPS, Radeon HD 7970: 3,79 TFLOPS.
Nvidia Echelon stream-procesor (lane)
Co ve schématu zcela chybí, jsou texturovací jednotky a ROP. Existují pouze dvě možnosti: Buďto je Nvidia nezakreslila, protože jsou z výpočetního hlediska (o kterém přednáška byla) irelevantní, nebo skutečně v čipu nejsou. Nepředpokládáme, že by již za 4 roky Nvidia chtěla emulovat funkci texturovacích jednotek a ROP (zvlášť filtrace textur je docela oříšek), a tak se nabízí pravděpodobnější možnost, že jde o produkt určený čistě pro výpočetní nasazení (podobně jako poslední verze Intel Larrabee).
Pokud bychom měli vypíchnout ještě další zajímavosti, mohlo by vás zaujmout, že v pořadí Tesla ⇒ Fermi ⇒ Kepler ⇒ Maxwell bude následovat Einstein (i když zatím není jisté, zda hned po prvním vtělení Maxwellu, nebo ještě s nějakým meziproduktem). Také je zajímavé, že ačkoli samotné výpočetní bloky fungují odlišně oproti architektuře AMD GCN, jejich řízení bude řešeno velmi podobným způsobem. Nakonec perlička na závěr: Čip Echelon by měl nést celkem neuvěřitelných 256 MB paměti (opravdu míníme čip, nikoli kartu).