Diit.cz - Novinky a informace o hardware, software a internetu

Pascal GP100 naplňuje očekávání a překvapuje zároveň: čip pouze pro HPC?

Nvidia oficiálně odhalila první GPU z řady Pascal. Je jím GP100, který se stává historicky největším GPU a zřejmě i grafickým čipem nejvíce orientovaným na výpočetní segment, jaký kdy byl vyroben.
Nvidia Pascal Gp 100 Tesla P 100

Nvidia Pascal GP100 na uvedené Tesle P100 nese 3584 stream-procesorů, 4096bit HBM sběrnici, čtyři rozhraní NVLINK, 15,3 miliard tranzistorů a dosahuje plochy 610 mm². V podobě zcela konkrétní varianty, v jejíž podobě je uveden, nabízí takt 1328 MHz v základu, 1480 MHz pro boost, 16 GB HBM paměti a 300W TDP.

Nvidia Gp 100 Diagram

Už z tohoto krátkého úvodu je zjevných několik zvláštností. Počet stream-procesorů stoupl o 17 %, což s ohledem na posun ve výrobním procesu není velký rozdíl. Plocha čipu je i přes posun ve výrobním procesu o několik čtverečních milimetrů větší než u Maxwellu, počet tranzistorů je téměř dvojnásobný a 300W TDP tvoří nový rekord na poli jednočipových grafických karet. Je zřejmé, že touto konfigurací Nvidia necílí na hráče - pokud nesouhlasíte, čtěte dál.

Výpočetní bloky

Konfigurace GPU Pascal GP100 se liší už základními funkčními bloky - SM, shader-multiprocesory. U generace Kepler byl každý blok vybaven 192 (herní) či 128 (výpočetní) stream-procesory, u generace Maxwell 128. Pascal snižuje tento počet na polovinu (64), rovněž na polovinu snižuje počet texturovacích jednotek v rámci každého SM (4), ovšem zachovává počet vláken na SM (2048), zachovává počet osnov na SM (64), zachovává maximální počet 32bit registrů a přes poloviční počet stream-procesorů na SM je kapacita sdílené paměti každého SM snížena pouze o třetinu (z 96 na 64 KB).

 FermiKeplerMaxwellPascal
TeslaM2090K40M40P100
GPUGF110
3 mld. tr.
GK110
7,1 mld. tr.
GM200
8 mld. tr.
GP100
15,3 mld. tr.
Plocha520 mm²551 mm²601 mm²610 mm²
Proces40 nm TSMC28 nm TSMC28 nm TSMC16 nm TSMC
Frekvence650 MHz
1300 MHz

745 MHz

810 / 875 MHz

948 MHz
1114 MHz
1328 MHz
1480 MHz
SPs512288030723584
TMUs64240192224
ROPs484896?
výkon (FP32)1,33 TFLOPS4,29 TFLOPS5,82 TFLOPS9,52 TFLOPS
výkon (FP64)0,67 TFLOPS1,43 TFLOPS0,18 TFLOPS4,76 TFLOPS
paměti6 GB
384bit
GDDR5
12 GB
384bit
GDDR5
24 GB
384bit
GDDR5
16 GB
4096bit
HBM
takt3,7 GHz6,0 GHz6,0 GHz1,4 GHz
dat. prop.178 GB/s288 GB/s288 GB/s720 GB/s
TDP250 W235 W250 W300 W
dobová cena~$4499?~$5499?~$4999?neuvedeno

Pokud bychom Kepler (oproti Fermi) definovali jako architekturu, jejíž prioritou bylo maximální možné zvýšení počtu stream-procesorů a architekturu Maxwell bychom definovali jako snahu o efektivnější využitelnost dostupných stream-procesorů ve 3D grafice, pak by se Pascal dal označit jako snaha o efektivnější využitelnost dostupných stream-procesorů ve výpočetní sféře. Počet stream-procesorů téměř nestoupl, ale zmenšením SM bloků při plus mínus zachování obdobného zázemí (registrů a cache) znamená celkově:

  • 2,5× vyšší kapacitu registrů
  • 1,7× vyšší kapacitu sdílené paměti

To samo o sobě ještě nevysvětluje, proč GPU obsahuje prakticky ~2× více tranzistorů než Maxwell: Každý SM blok totiž krom 64 základních stream-procesorů nese ještě 32 stream-procesorů pro double-precision neboli FP64. Tím se Nvidii podařilo překvapit, protože dosavadní diskuse zvažovaly, zda Nvidia zůstane u samostatných FP64 jednotek v poměru 1:3 základním (FP32) jako u Kepleru, nebo Nvidia navrhne stream-procesory s nativní podporou FP64 při polovičním výkonu (jako např. AMD s Hawaii).

Nvidia Gp 100 Sm Diagram

Nakonec tedy došlo na třetí možnost: samostatné FP64 jednotky v počtu polovičním oproti základním (FP32). GPU tedy nese 3584 FP32 stream-procesorů, 1792 FP64 stream-procesorů a 224 texturovacích jednotek.

V oficiálních specifikacích i v oficiálním schématu čipu ale marně budeme hledat ROP. Není uveden jejich počet, ani zákres, což může evokovat otázku, zda je jimi GPU vůbec vybaveno. Zatímco jádro pro 3D grafiku by se bez nich neobešlo, pro výpočetní čip nezbytné nejsou (pokud je propojení výpočetních bloků s L2 cache a paměťovým řadičem realizované jinak).

Paměťový systém a datové přenosy

Zásadní novinkou architektury Pascal je podpora HBM pamětí. GP100 přichází s 4096bit rozhraním (tj. stejná šířka jako u GPU Fiji), ale je osazené novějšími čipy („HBM2“) s vyšší kapacitou (zde konkrétně celkem 16 GB). Oproti očekávání nezvolila Nvidia 2Gb/s HBM čipy, ale 1,4Gb/s, což znamená, že datová propustnost oproti čipům použitým na GPU Fiji není dvojnásobná, ale „jen“ o 40 % vyšší, konkrétně 720 GB/s. S ohledem na koncepci čipu pro výpočetní nasazení jde o pochopitelné rozhodnutí; zde nejsou požadavky na datovou propustnost tak vysoké jako u hypotetického herního GPU, které by oproti předchozí generaci přišlo např. s dvojnásobným počtem ROP jednotek v kombinaci s navýšením taktovací frekvence o desítky procent.

Gp 100 8 Gpu Hybrid Cube Mesh

Druhou novinkou je rozhraní NVLINK, jímž lze výpočetní čipy vzájemně sesíťovat, aby při zapojení osmi GPU byla v rámci každé čtveřice přímo spojena všechna GPU a každé z nich zároveň mohlo být přímo spojeno z jedním GPU z druhé čtveřice.

Gp 100 4 Gpu Cpu Quad

Pokud je rozhraním NVLINK vybaven i procesor, může být do sítě s grafickými čipy zahrnut i on. To se ale pravděpodobně bude týkat pouze procesorů IBM; není známo, že by společnosti Intel nebo AMD měly uvést x86 procesory s NVLINK.

Oficiální cestou nebyla cena ani dostupnost upřesněna. Předpokládá se, že by na ni mohlo dojít koncem roku. S ohledem na výpočetní orientaci tohoto roku lze očekávat, že top modelem pro desktop se stane čip GP102, který bude vyvážený odlišným způsobem. O herních čipech z generace Pascal prozatím Nvidia nehovořila.

Tagy: 
Zdroje: 

Diskuse ke článku Pascal GP100 naplňuje očekávání a překvapuje zároveň: čip pouze pro HPC?

Středa, 6 Duben 2016 - 19:24 | franzzz | To trollovani ti jde vytecne.. smekam klobouk...
Středa, 6 Duben 2016 - 19:10 | HKMaly | Jasne, staci jen tablet, nezarusene wifi 802.11ac...
Středa, 6 Duben 2016 - 14:49 | TyNyT | Zatím ale nejsou a je otázka kdy budou a zda...
Středa, 6 Duben 2016 - 12:43 | franzzz | "takže diferenciálně roste grafický výkon...
Středa, 6 Duben 2016 - 11:37 | Gath G | Jenže ve hrách se snažíte o jednoduché shadery....
Středa, 6 Duben 2016 - 11:10 | knizmi | Tesla P 100? Já si počkám na Teslu P 100 D :)
Středa, 6 Duben 2016 - 10:38 | JoHnY3 | Pokud nebude hracum vadit kusova dostupnost, cena...
Středa, 6 Duben 2016 - 10:08 | Pavel Zoch | tohle je těžké říci, ale osobně si myslím, že AMD...
Středa, 6 Duben 2016 - 10:06 | no-X | Tohle jsou karty určené pro algoritmy strojového...
Středa, 6 Duben 2016 - 10:05 | Tiktak | Podobný stream-scénář je myslím ještě minimálně...

Zobrazit diskusi