Pascal GP100 naplňuje očekávání a překvapuje zároveň: čip pouze pro HPC?
Nvidia Pascal GP100 na uvedené Tesle P100 nese 3584 stream-procesorů, 4096bit HBM sběrnici, čtyři rozhraní NVLINK, 15,3 miliard tranzistorů a dosahuje plochy 610 mm². V podobě zcela konkrétní varianty, v jejíž podobě je uveden, nabízí takt 1328 MHz v základu, 1480 MHz pro boost, 16 GB HBM paměti a 300W TDP.
Už z tohoto krátkého úvodu je zjevných několik zvláštností. Počet stream-procesorů stoupl o 17 %, což s ohledem na posun ve výrobním procesu není velký rozdíl. Plocha čipu je i přes posun ve výrobním procesu o několik čtverečních milimetrů větší než u Maxwellu, počet tranzistorů je téměř dvojnásobný a 300W TDP tvoří nový rekord na poli jednočipových grafických karet. Je zřejmé, že touto konfigurací Nvidia necílí na hráče - pokud nesouhlasíte, čtěte dál.
Výpočetní bloky
Konfigurace GPU Pascal GP100 se liší už základními funkčními bloky - SM, shader-multiprocesory. U generace Kepler byl každý blok vybaven 192 (herní) či 128 (výpočetní) stream-procesory, u generace Maxwell 128. Pascal snižuje tento počet na polovinu (64), rovněž na polovinu snižuje počet texturovacích jednotek v rámci každého SM (4), ovšem zachovává počet vláken na SM (2048), zachovává počet osnov na SM (64), zachovává maximální počet 32bit registrů a přes poloviční počet stream-procesorů na SM je kapacita sdílené paměti každého SM snížena pouze o třetinu (z 96 na 64 KB).
Fermi | Kepler | Maxwell | Pascal | |
Tesla | M2090 | K40 | M40 | P100 |
GPU | GF110 3 mld. tr. | GK110 7,1 mld. tr. | GM200 8 mld. tr. | GP100 15,3 mld. tr. |
Plocha | 520 mm² | 551 mm² | 601 mm² | 610 mm² |
Proces | 40 nm TSMC | 28 nm TSMC | 28 nm TSMC | 16 nm TSMC |
Frekvence | 650 MHz 1300 MHz | 745 MHz 810 / 875 MHz | 948 MHz 1114 MHz | 1328 MHz 1480 MHz |
SPs | 512 | 2880 | 3072 | 3584 |
TMUs | 64 | 240 | 192 | 224 |
ROPs | 48 | 48 | 96 | ? |
výkon (FP32) | 1,33 TFLOPS | 4,29 TFLOPS | 5,82 TFLOPS | 9,52 TFLOPS |
výkon (FP64) | 0,67 TFLOPS | 1,43 TFLOPS | 0,18 TFLOPS | 4,76 TFLOPS |
paměti | 6 GB 384bit GDDR5 | 12 GB 384bit GDDR5 | 24 GB 384bit GDDR5 | 16 GB 4096bit HBM |
takt | 3,7 GHz | 6,0 GHz | 6,0 GHz | 1,4 GHz |
dat. prop. | 178 GB/s | 288 GB/s | 288 GB/s | 720 GB/s |
TDP | 250 W | 235 W | 250 W | 300 W |
dobová cena | ~$4499? | ~$5499? | ~$4999? | neuvedeno |
Pokud bychom Kepler (oproti Fermi) definovali jako architekturu, jejíž prioritou bylo maximální možné zvýšení počtu stream-procesorů a architekturu Maxwell bychom definovali jako snahu o efektivnější využitelnost dostupných stream-procesorů ve 3D grafice, pak by se Pascal dal označit jako snaha o efektivnější využitelnost dostupných stream-procesorů ve výpočetní sféře. Počet stream-procesorů téměř nestoupl, ale zmenšením SM bloků při plus mínus zachování obdobného zázemí (registrů a cache) znamená celkově:
- 2,5× vyšší kapacitu registrů
- 1,7× vyšší kapacitu sdílené paměti
To samo o sobě ještě nevysvětluje, proč GPU obsahuje prakticky ~2× více tranzistorů než Maxwell: Každý SM blok totiž krom 64 základních stream-procesorů nese ještě 32 stream-procesorů pro double-precision neboli FP64. Tím se Nvidii podařilo překvapit, protože dosavadní diskuse zvažovaly, zda Nvidia zůstane u samostatných FP64 jednotek v poměru 1:3 základním (FP32) jako u Kepleru, nebo Nvidia navrhne stream-procesory s nativní podporou FP64 při polovičním výkonu (jako např. AMD s Hawaii).
Nakonec tedy došlo na třetí možnost: samostatné FP64 jednotky v počtu polovičním oproti základním (FP32). GPU tedy nese 3584 FP32 stream-procesorů, 1792 FP64 stream-procesorů a 224 texturovacích jednotek.
V oficiálních specifikacích i v oficiálním schématu čipu ale marně budeme hledat ROP. Není uveden jejich počet, ani zákres, což může evokovat otázku, zda je jimi GPU vůbec vybaveno. Zatímco jádro pro 3D grafiku by se bez nich neobešlo, pro výpočetní čip nezbytné nejsou (pokud je propojení výpočetních bloků s L2 cache a paměťovým řadičem realizované jinak).
Paměťový systém a datové přenosy
Zásadní novinkou architektury Pascal je podpora HBM pamětí. GP100 přichází s 4096bit rozhraním (tj. stejná šířka jako u GPU Fiji), ale je osazené novějšími čipy („HBM2“) s vyšší kapacitou (zde konkrétně celkem 16 GB). Oproti očekávání nezvolila Nvidia 2Gb/s HBM čipy, ale 1,4Gb/s, což znamená, že datová propustnost oproti čipům použitým na GPU Fiji není dvojnásobná, ale „jen“ o 40 % vyšší, konkrétně 720 GB/s. S ohledem na koncepci čipu pro výpočetní nasazení jde o pochopitelné rozhodnutí; zde nejsou požadavky na datovou propustnost tak vysoké jako u hypotetického herního GPU, které by oproti předchozí generaci přišlo např. s dvojnásobným počtem ROP jednotek v kombinaci s navýšením taktovací frekvence o desítky procent.
Druhou novinkou je rozhraní NVLINK, jímž lze výpočetní čipy vzájemně sesíťovat, aby při zapojení osmi GPU byla v rámci každé čtveřice přímo spojena všechna GPU a každé z nich zároveň mohlo být přímo spojeno z jedním GPU z druhé čtveřice.
Pokud je rozhraním NVLINK vybaven i procesor, může být do sítě s grafickými čipy zahrnut i on. To se ale pravděpodobně bude týkat pouze procesorů IBM; není známo, že by společnosti Intel nebo AMD měly uvést x86 procesory s NVLINK.
Oficiální cestou nebyla cena ani dostupnost upřesněna. Předpokládá se, že by na ni mohlo dojít koncem roku. S ohledem na výpočetní orientaci tohoto roku lze očekávat, že top modelem pro desktop se stane čip GP102, který bude vyvážený odlišným způsobem. O herních čipech z generace Pascal prozatím Nvidia nehovořila.