Pascal GP100 naplňuje očekávání a překvapuje zároveň: čip pouze pro HPC?

6. 4. 2016 | no-X | Hardware, Novinky, Procesory, Grafiky

Nvidia oficiálně odhalila první GPU z řady Pascal. Je jím GP100, který se stává historicky největším GPU a zřejmě i grafickým čipem nejvíce orientovaným na výpočetní segment, jaký kdy byl vyroben.

Nvidia Pascal GP100 na uvedené Tesle P100 nese 3584 stream-procesorů, 4096bit HBM sběrnici, čtyři rozhraní NVLINK, 15,3 miliard tranzistorů a dosahuje plochy 610 mm². V podobě zcela konkrétní varianty, v jejíž podobě je uveden, nabízí takt 1328 MHz v základu, 1480 MHz pro boost, 16 GB HBM paměti a 300W TDP.

Už z tohoto krátkého úvodu je zjevných několik zvláštností. Počet stream-procesorů stoupl o 17 %, což s ohledem na posun ve výrobním procesu není velký rozdíl. Plocha čipu je i přes posun ve výrobním procesu o několik čtverečních milimetrů větší než u Maxwellu, počet tranzistorů je téměř dvojnásobný a 300W TDP tvoří nový rekord na poli jednočipových grafických karet. Je zřejmé, že touto konfigurací Nvidia necílí na hráče - pokud nesouhlasíte, čtěte dál.

Výpočetní bloky

Konfigurace GPU Pascal GP100 se liší už základními funkčními bloky - SM, shader-multiprocesory. U generace Kepler byl každý blok vybaven 192 (herní) či 128 (výpočetní) stream-procesory, u generace Maxwell 128. Pascal snižuje tento počet na polovinu (64), rovněž na polovinu snižuje počet texturovacích jednotek v rámci každého SM (4), ovšem zachovává počet vláken na SM (2048), zachovává počet osnov na SM (64), zachovává maximální počet 32bit registrů a přes poloviční počet stream-procesorů na SM je kapacita sdílené paměti každého SM snížena pouze o třetinu (z 96 na 64 KB).

	Fermi	Kepler	Maxwell	Pascal
Tesla	M2090	K40	M40	P100
GPU	GF110 3 mld. tr.	GK110 7,1 mld. tr.	GM200 8 mld. tr.	GP100 15,3 mld. tr.
Plocha	520 mm²	551 mm²	601 mm²	610 mm²
Proces	40 nm TSMC	28 nm TSMC	28 nm TSMC	16 nm TSMC
Frekvence	650 MHz 1300 MHz	745 MHz 810 / 875 MHz	948 MHz 1114 MHz	1328 MHz 1480 MHz
SPs	512	2880	3072	3584
TMUs	64	240	192	224
ROPs	48	48	96	?
výkon (FP32)	1,33 TFLOPS	4,29 TFLOPS	5,82 TFLOPS	9,52 TFLOPS
výkon (FP64)	0,67 TFLOPS	1,43 TFLOPS	0,18 TFLOPS	4,76 TFLOPS
paměti	6 GB 384bit GDDR5	12 GB 384bit GDDR5	24 GB 384bit GDDR5	16 GB 4096bit HBM
takt	3,7 GHz	6,0 GHz	6,0 GHz	1,4 GHz
dat. prop.	178 GB/s	288 GB/s	288 GB/s	720 GB/s
TDP	250 W	235 W	250 W	300 W
dobová cena	~$4499?	~$5499?	~$4999?	neuvedeno

Pokud bychom Kepler (oproti Fermi) definovali jako architekturu, jejíž prioritou bylo maximální možné zvýšení počtu stream-procesorů a architekturu Maxwell bychom definovali jako snahu o efektivnější využitelnost dostupných stream-procesorů ve 3D grafice, pak by se Pascal dal označit jako snaha o efektivnější využitelnost dostupných stream-procesorů ve výpočetní sféře. Počet stream-procesorů téměř nestoupl, ale zmenšením SM bloků při plus mínus zachování obdobného zázemí (registrů a cache) znamená celkově:

2,5× vyšší kapacitu registrů
1,7× vyšší kapacitu sdílené paměti

To samo o sobě ještě nevysvětluje, proč GPU obsahuje prakticky ~2× více tranzistorů než Maxwell: Každý SM blok totiž krom 64 základních stream-procesorů nese ještě 32 stream-procesorů pro double-precision neboli FP64. Tím se Nvidii podařilo překvapit, protože dosavadní diskuse zvažovaly, zda Nvidia zůstane u samostatných FP64 jednotek v poměru 1:3 základním (FP32) jako u Kepleru, nebo Nvidia navrhne stream-procesory s nativní podporou FP64 při polovičním výkonu (jako např. AMD s Hawaii).

Nakonec tedy došlo na třetí možnost: samostatné FP64 jednotky v počtu polovičním oproti základním (FP32). GPU tedy nese 3584 FP32 stream-procesorů, 1792 FP64 stream-procesorů a 224 texturovacích jednotek.

V oficiálních specifikacích i v oficiálním schématu čipu ale marně budeme hledat ROP. Není uveden jejich počet, ani zákres, což může evokovat otázku, zda je jimi GPU vůbec vybaveno. Zatímco jádro pro 3D grafiku by se bez nich neobešlo, pro výpočetní čip nezbytné nejsou (pokud je propojení výpočetních bloků s L2 cache a paměťovým řadičem realizované jinak).

Paměťový systém a datové přenosy

Zásadní novinkou architektury Pascal je podpora HBM pamětí. GP100 přichází s 4096bit rozhraním (tj. stejná šířka jako u GPU Fiji), ale je osazené novějšími čipy („HBM2“) s vyšší kapacitou (zde konkrétně celkem 16 GB). Oproti očekávání nezvolila Nvidia 2Gb/s HBM čipy, ale 1,4Gb/s, což znamená, že datová propustnost oproti čipům použitým na GPU Fiji není dvojnásobná, ale „jen“ o 40 % vyšší, konkrétně 720 GB/s. S ohledem na koncepci čipu pro výpočetní nasazení jde o pochopitelné rozhodnutí; zde nejsou požadavky na datovou propustnost tak vysoké jako u hypotetického herního GPU, které by oproti předchozí generaci přišlo např. s dvojnásobným počtem ROP jednotek v kombinaci s navýšením taktovací frekvence o desítky procent.

Druhou novinkou je rozhraní NVLINK, jímž lze výpočetní čipy vzájemně sesíťovat, aby při zapojení osmi GPU byla v rámci každé čtveřice přímo spojena všechna GPU a každé z nich zároveň mohlo být přímo spojeno z jedním GPU z druhé čtveřice.

Pokud je rozhraním NVLINK vybaven i procesor, může být do sítě s grafickými čipy zahrnut i on. To se ale pravděpodobně bude týkat pouze procesorů IBM; není známo, že by společnosti Intel nebo AMD měly uvést x86 procesory s NVLINK.

Oficiální cestou nebyla cena ani dostupnost upřesněna. Předpokládá se, že by na ni mohlo dojít koncem roku. S ohledem na výpočetní orientaci tohoto roku lze očekávat, že top modelem pro desktop se stane čip GP102, který bude vyvážený odlišným způsobem. O herních čipech z generace Pascal prozatím Nvidia nehovořila.

Tagy:

GP100, P100, Tesla, Nvidia, Pascal

Zdroje:

Nvidia

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku Pascal GP100 naplňuje očekávání a překvapuje zároveň: čip pouze pro HPC?

Středa, 6 Duben 2016 - 19:24 | franzzz | To trollovani ti jde vytecne.. smekam klobouk...

Středa, 6 Duben 2016 - 19:10 | HKMaly | Jasne, staci jen tablet, nezarusene wifi 802.11ac...

Středa, 6 Duben 2016 - 14:49 | TyNyT | Zatím ale nejsou a je otázka kdy budou a zda...

Středa, 6 Duben 2016 - 12:43 | franzzz | "takže diferenciálně roste grafický výkon...

Středa, 6 Duben 2016 - 11:37 | Gath G | Jenže ve hrách se snažíte o jednoduché shadery....

Středa, 6 Duben 2016 - 11:10 | knizmi | Tesla P 100? Já si počkám na Teslu P 100 D :)

Středa, 6 Duben 2016 - 10:38 | JoHnY3 | Pokud nebude hracum vadit kusova dostupnost, cena...

Středa, 6 Duben 2016 - 10:08 | Anonym | tohle je těžké říci, ale osobně si myslím, že AMD...

Středa, 6 Duben 2016 - 10:06 | no-X | Tohle jsou karty určené pro algoritmy strojového...

Středa, 6 Duben 2016 - 10:05 | Tiktak | Podobný stream-scénář je myslím ještě minimálně...

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

Pascal GP100 naplňuje očekávání a překvapuje zároveň: čip pouze pro HPC?

Výpočetní bloky

Paměťový systém a datové přenosy

Jiří "no-X" Souček

Diskuse ke článku Pascal GP100 naplňuje očekávání a překvapuje zároveň: čip pouze pro HPC?

Komerční sdělení

CDR Hry

Epic rozdává zdarma dvě hry, které potěší hráče RPG her a adventur

Copilot mizí z Edge jen na oko. Ve skutečnosti je teď úplně všude

Existují mimozemšťané? Tohle dnes říká věda, armády i astronomové

„Budu v pohodě?“ ptal se ChatGPT. Krátce poté zemřel

Falešný TikTok znovu útočí. Nový malware krade bankovní účty i kryptoměny

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT