Pascal razantně zvýší výkon v double-precision a vrátí i half-precision
Výpočty s dvojitou přesností (=double-precision / DP / FP64) asi není třeba představovat, používají se především v profesionální sféře, ale občas se s nimi může setkat i řadový uživatel (například v souvislosti s distribuovanými výpočty ap.). Jejich podpora na hardwaru, který v podstatě vznikl jako herní, může být implementována různě. Konkrétně v případě Nvidie je jako první uměl GT200 alias GeForce GTX 280. Tento 65nm čip byl ale s ohledem na výkon v DP spíše experimentální platformou, nesl pouze 30 samostatných výpočetních jednotek, které DP podporovaly.
První změna oproti tomuto přístupu nastala s generací Fermi, kdy Nvidia opustila samostatné DP jednotky a tyto výpočty realizovala na standardních (SP) výpočetních jednotkách, ale s polovičním výkonem. Poměr DP:SP byl tedy 1:2. S přechodem na architekturu Kepler ale Nvidia od tohoto konceptu upustila a vrátila se opět k samostatným DP jednotkám. V prvních článcích o Kepleru jste sice mohli narazit na jiné informace, ale ty byly později uvedeny na pravou míru. Různé modely Kepleru byly vybavené různým poměrem DP:SP; pouze top model určený pro HPC sféru dosahoval DP:SP 1:3; ostatní cílily níže.
S generací Maxwell došlo k výraznému snížení výkonu v DP. S ohledem na 28nm výrobu a ploše čipu blížící se maximu výrobních linek TSMC, už na DP jednotky nezbylo téměř žádné místo, a tak jich GM200 nese pouze 96 (namísto 960 u velkého Kepleru). Poměr DP:SP je 1:32. Nvidia z toho důvodu v profi sféře řešila požadavky na vyšší výkon v double-precision novou revizí Kepleru a duálními kartami na ní postavené.
Pascal opět bude zastávat i úlohu architektury určené pro výpočetní karty, takže se vrací k vyššímu DP výkonu. Prezentace Nvidie odhalila, že Pascal cílí na cca 4 TFLOPS v DP, přičemž další zdroje, na něž se podíváme níže, naznačují poměr DP:SP 1:2. Zda bude podpora pro DP nativní (realizovaná přes standardní aritmetické jednotky) nebo poběží na samostatných jednotkách, z dosavadních materiálů nelze spolehlivě odvodit. Vraťme se k hodnotě 4 TFLOPS v DP. Pokud bude poměr DP:SP skutečně 1:2, pak výkon v single-precision odpovídá 8 TFLOPS, což zase odpovídá přítomnosti 4096 stream-procesorů běžících na 1000 MHz. I když je řeč o kartě pro profi segment, kde jsou nižší taktovací frekvence standardem a i přes 16nm proces se takt 1000 MHz nijak nevymyká, je 4096 stream-procesorů poměrně konzervativní posun oproti Maxwellu, který je vybaven 3072. Jde tedy o třetinový nárůst. Můžeme ale předpokládat, že slajd Nvidie hovoří o prvním výpočetním modelu Pascalu, který bude vybavený částečně deaktivovaným jádrem (plně aktivní by mohlo nabídnout více, např. 4608 či 5120 stream-procesorů, nebo jiný pěkný násobek 128).
- Tesla - GT200 (576 mm²): DP:SP = 1:8
- Fermi - GF100 (529 mm²): DP:SP = 1:2
- Kepler - GK110 (551 mm²): DP:SP = 1:3
- Maxwell - GM100 (~600 mm²): DP:SP = 1:32
- Pascal - GP100 (~500 mm²?): DP:SP = 1:2?
Nakonec se podíváme na half-precision. Výpočty s poloviční přesností (FP16) nejsou pro Nvidii premiérou, nechvalně jimi proslula generace GeForce FX, která neuměla specifikacemi DirectX 9 vyžadovaný formát FP24, podporu FP32 měla velmi pomalou, a tak se pro dosažení výkonu použitelného pro tehdejší hry uchylovala k přesnosti nižší než vyžadoval standard, k FP16. Ačkoli byla FP16 spojována právě s GeForce FX, reálně se k němu Nvidia ještě jednou vrátila a to s generacemi NV40 (GeForce 6000) a G70 (GeForce 7000) avšak teprve v době, kdy jim vůči konkurenčním produktům začal docházet dech. Počínaje G80 už FP16 v herním světě nevyužívala a jeho podporu na hardwaru vypustila.
V loňském roce, v souvislosti se snahou o snížení energetických nároků mobilních grafických jader, se opět o FP16 alias half-precision začalo mluvit. Nikoli jakožto nástroji pro cheating v herních benchmarcích (nu, sice není všem dnům konec, ale potřetí se snad už historie opakovat nebude). Cíle využití FP16 je energetická úspora pro multimediální záležitosti, které nevyžadují vyšší přesnost. Jako první se na moderních GPU objevila u GPU AMD Tonga (např. Radeon R9 285) a GPU integrovaném v SoC Nvidia Tegra X1. Právě Tegra je s podporou FP16 o něco dále - nepodporuje ji jen pro snížení energetických nároků, ale zároveň ji zvládá ve 2× vyšším výkonu oproti single-precision.
FP16 (HP) bude umět i architektura Pascal. Slajd Nvidie nastiňuje výkon 4× vyšší než u FP64 (DP), tedy 2× vyšší než pro FP32 (SP). Vzájemný poměr HP:SP:DP tedy u Pascalu by mohl být (až) 4:2:1.