Pascal razantně zvýší výkon v double-precision a vrátí i half-precision

27. 11. 2015 | no-X | Hardware, Novinky, Grafiky

Z oficiálních zdrojů přicházejí informace o architektuře Pascal, které nastiňují, že se Nvidia vrátí ke dvěma prvkům, které v minulých generacích vypustila: Rychlejší podpora pro FP64 a návrat k FP16…

Výpočty s dvojitou přesností (=double-precision / DP / FP64) asi není třeba představovat, používají se především v profesionální sféře, ale občas se s nimi může setkat i řadový uživatel (například v souvislosti s distribuovanými výpočty ap.). Jejich podpora na hardwaru, který v podstatě vznikl jako herní, může být implementována různě. Konkrétně v případě Nvidie je jako první uměl GT200 alias GeForce GTX 280. Tento 65nm čip byl ale s ohledem na výkon v DP spíše experimentální platformou, nesl pouze 30 samostatných výpočetních jednotek, které DP podporovaly.

První změna oproti tomuto přístupu nastala s generací Fermi, kdy Nvidia opustila samostatné DP jednotky a tyto výpočty realizovala na standardních (SP) výpočetních jednotkách, ale s polovičním výkonem. Poměr DP:SP byl tedy 1:2. S přechodem na architekturu Kepler ale Nvidia od tohoto konceptu upustila a vrátila se opět k samostatným DP jednotkám. V prvních článcích o Kepleru jste sice mohli narazit na jiné informace, ale ty byly později uvedeny na pravou míru. Různé modely Kepleru byly vybavené různým poměrem DP:SP; pouze top model určený pro HPC sféru dosahoval DP:SP 1:3; ostatní cílily níže.

S generací Maxwell došlo k výraznému snížení výkonu v DP. S ohledem na 28nm výrobu a ploše čipu blížící se maximu výrobních linek TSMC, už na DP jednotky nezbylo téměř žádné místo, a tak jich GM200 nese pouze 96 (namísto 960 u velkého Kepleru). Poměr DP:SP je 1:32. Nvidia z toho důvodu v profi sféře řešila požadavky na vyšší výkon v double-precision novou revizí Kepleru a duálními kartami na ní postavené.

Pascal opět bude zastávat i úlohu architektury určené pro výpočetní karty, takže se vrací k vyššímu DP výkonu. Prezentace Nvidie odhalila, že Pascal cílí na cca 4 TFLOPS v DP, přičemž další zdroje, na něž se podíváme níže, naznačují poměr DP:SP 1:2. Zda bude podpora pro DP nativní (realizovaná přes standardní aritmetické jednotky) nebo poběží na samostatných jednotkách, z dosavadních materiálů nelze spolehlivě odvodit. Vraťme se k hodnotě 4 TFLOPS v DP. Pokud bude poměr DP:SP skutečně 1:2, pak výkon v single-precision odpovídá 8 TFLOPS, což zase odpovídá přítomnosti 4096 stream-procesorů běžících na 1000 MHz. I když je řeč o kartě pro profi segment, kde jsou nižší taktovací frekvence standardem a i přes 16nm proces se takt 1000 MHz nijak nevymyká, je 4096 stream-procesorů poměrně konzervativní posun oproti Maxwellu, který je vybaven 3072. Jde tedy o třetinový nárůst. Můžeme ale předpokládat, že slajd Nvidie hovoří o prvním výpočetním modelu Pascalu, který bude vybavený částečně deaktivovaným jádrem (plně aktivní by mohlo nabídnout více, např. 4608 či 5120 stream-procesorů, nebo jiný pěkný násobek 128).

Tesla - GT200 (576 mm²): DP:SP = 1:8
Fermi - GF100 (529 mm²): DP:SP = 1:2
Kepler - GK110 (551 mm²): DP:SP = 1:3
Maxwell - GM100 (~600 mm²): DP:SP = 1:32
Pascal - GP100 (~500 mm²?): DP:SP = 1:2?

Nakonec se podíváme na half-precision. Výpočty s poloviční přesností (FP16) nejsou pro Nvidii premiérou, nechvalně jimi proslula generace GeForce FX, která neuměla specifikacemi DirectX 9 vyžadovaný formát FP24, podporu FP32 měla velmi pomalou, a tak se pro dosažení výkonu použitelného pro tehdejší hry uchylovala k přesnosti nižší než vyžadoval standard, k FP16. Ačkoli byla FP16 spojována právě s GeForce FX, reálně se k němu Nvidia ještě jednou vrátila a to s generacemi NV40 (GeForce 6000) a G70 (GeForce 7000) avšak teprve v době, kdy jim vůči konkurenčním produktům začal docházet dech. Počínaje G80 už FP16 v herním světě nevyužívala a jeho podporu na hardwaru vypustila.

V loňském roce, v souvislosti se snahou o snížení energetických nároků mobilních grafických jader, se opět o FP16 alias half-precision začalo mluvit. Nikoli jakožto nástroji pro cheating v herních benchmarcích (nu, sice není všem dnům konec, ale potřetí se snad už historie opakovat nebude). Cíle využití FP16 je energetická úspora pro multimediální záležitosti, které nevyžadují vyšší přesnost. Jako první se na moderních GPU objevila u GPU AMD Tonga (např. Radeon R9 285) a GPU integrovaném v SoC Nvidia Tegra X1. Právě Tegra je s podporou FP16 o něco dále - nepodporuje ji jen pro snížení energetických nároků, ale zároveň ji zvládá ve 2× vyšším výkonu oproti single-precision.

FP16 (HP) bude umět i architektura Pascal. Slajd Nvidie nastiňuje výkon 4× vyšší než u FP64 (DP), tedy 2× vyšší než pro FP32 (SP). Vzájemný poměr HP:SP:DP tedy u Pascalu by mohl být (až) 4:2:1.

Tagy:

Pascal, Nvidia, FP64

Zdroje:

Nvidia

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku Pascal razantně zvýší výkon v double-precision a vrátí i half-precision

Středa, 17 Únor 2016 - 19:49 | Gath G | Ono hlavně přinejmenším na CPU je často docela...

Úterý, 1 Prosinec 2015 - 16:50 | del42sa | zase jen plácáš Docente jako obvykle :( A jak...

Úterý, 1 Prosinec 2015 - 05:27 | Txy | Při potřebě s cenami skutečně počítat (1/3+1/3+1/...

Pondělí, 30 Listopad 2015 - 17:37 | Zenith | NVlink neni nic speciálního pro HPC. Je to nová...

Pondělí, 30 Listopad 2015 - 16:13 | JirkaK | Máte nějaký špatný přehled o cenách... 980tka se...

Pondělí, 30 Listopad 2015 - 15:41 | JirkaK | Je jasné že za highend se platí "exklusivní...

Pondělí, 30 Listopad 2015 - 08:20 | DavidM | Mimo toho že jsi se pochlubil:),by jsi se měl...

Neděle, 29 Listopad 2015 - 20:32 | trodas | <i>jestli budeš někdy chtít využít Kepler/...

Neděle, 29 Listopad 2015 - 20:21 | bigless | Pěkná ukázka. 970 za 10tis 32,7fps. 980 za 18tis...

Neděle, 29 Listopad 2015 - 20:01 | JirkaK | 20 tisíc mě stálo jen chlazení počítače, grafika...

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

Pascal razantně zvýší výkon v double-precision a vrátí i half-precision

Jiří "no-X" Souček

Diskuse ke článku Pascal razantně zvýší výkon v double-precision a vrátí i half-precision

Komerční sdělení

CDR Hry

Má AI svá temná zákoutí podobně jako Darkweb?

Kyslík nestačí. Nová studie ukazuje jiný způsob hledání života ve vesmíru

RAM krize dopadá na hráče. Microsoft mluví o 32 GB, internet reaguje ostře

Epic rozdává zdarma hru, která potěší hráče fantasy strategických her

Zákaz trollů, goblinů a holubů. Interní pravidla OpenAI zní jako pořádná satira

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT