Diit.cz - Novinky a informace o hardware, software a internetu

Ampere nejspíš přinese smysluplnější poměr Int:FP než Volta a Turing

Herní verze architektury Ampere by mohla přinést zajímavou změnu ve výbavě výpočetních bloků. Oproti architekturám Volta a Turing by šlo sice o zařazení zpátečky, ale zároveň o cestu lepším směrem…

Srovnáme-li v rámci novodobé post-Fermi éry mezigenerační nárůst herního výkonu jednotlivých architektur Nvidie, nevychází oproti Kepleru, Maxwellu a Pascalu dvě poslední zrovna nejlépe. Volta i Turing významně zvýšily rozpočet tranzistorů, významně zvýšily spotřebu, ale posun herního výkonu nedosahoval mezigeneračních rozdílů u předchůdců. Existoval sice názor, že Nvidia spotřebovala rozpočet tranzistorů na podporu pro raytracing a nemohla zvyšovat obecný výkon. To však bylo záhy vyvráceno srovnáním modelů bez a s podporou této technologie. Ukázalo se totiž, že podpora pro raytracing nestála ani 3 % tranzistorů navíc, takže bez ní by byly čipy buďto o zanedbatelná <3 % plochy menší, nebo možná o <3 % rychlejší.

V souvislosti s herní verzí architektury Ampere se začalo proslýchat, že dojde (v důsledku změn, které zatím nemá smysl hlouběji rozebírat) k úpravě výbavy SM (Streaming Multiprocessors) bloků, který dává smysl a jde vstříc efektivitě.

Začněme trochou kontextu: Bloky obsahující výpočetní jednotky (stream-procesory) a texturovací jednotky (TMU) obsahují už dlouhá léta všechny architektury AMD i Nvidie. Stream-procesory v těchto blocích jsou tradičně vybaveny schopností počítat s plovoucí desetinnou čárkou (FP, Floating Point). Tak tomu je u AMD stále. U Nvidie tomu tak bylo do architektury Pascal. Poté přišla změna. Volta a Turing mají krom standardního setu FP(32) stream-procesorů i set Int32 stream-procesorů. Obojích je stejně, 4 skupiny po 16, tedy 64 v každém SM bloku.

Vysvětlení této změny by se dalo stručně shrnout tak, že Int (celočíselné) jednotky jsou menší (než FP). Celočíselného výpočty tedy mohou být prováděny na samostatných menších Int32 jednotkách a není potřeba kvůli tomu vytěžovat FP32 jednotky, které se pak mohou věnovat pouze FP výpočtům. Tím dojde k nárůstu efektivního FP32 výkonu a není potřeba výrazně zvyšovat počet FP32 jednotek, které stojí více křemíku / tranzistorů. Nvidia uváděla, že v přepočtu na FP32 jednotku tato změna umožňuje zvýšení výkonu až o 36 %.

Ve srovnání s Voltou zůstalo zachováno 4× 16 (tzn. 64) FP32 („stream-procesorů“, „CUDA jednotek“) na SM blok. Stejně tak i 4× 16 (tzn. 64) INT32 jednotek na SM blok. Byť to na schématu Volty není uvedeno, i jeho INT jednotky jsou INT32. Pokud bychom srovnávali s Pascalem, je to ještě obtížnější, protože ten existuje ve dvou architektonických mutacích - GP100 a ostatní (GP102, GP104 atd.), přičemž Volta a Turing jdou spíše ve šlépějích architektonické varianty GP100.


Nvidia uvádí INT32 jednotky jako novinku, což je pravda, pokud je srovnáváno s Pascalem, nikoli s Voltou. Turing umožňuje FP32 a INT32 jednotky využívat paralelně, což Nvidia (společně s několika dalšími změnami) prezentuje jako až o 36 % zvýšení výkonu v přepočtu na CUDA jednotku. Nesmíme ovšem zapomínat na to, že jde de facto o přidání další výpočetní jednotky, která jen není počítána mezi CUDA (FP32) jednotky. Mezi zmíněnými dalšími změnami je uveden upravený caching textur a upravená L1 cache, díky nimž má být celkový výkonnostní posun přepočtený na CUDA jednotku až 50 %. Není jasné, do jaké míry jde o změny oproti architektuře Pascal a do jaké míry oproti architektuře Volta. Rozdíl v cache by však mohl být i oproti druhé.

Když se nyní začalo proslýchat, že by Nvidia s herním Amperem mohla změnit poměr FP:Int z 1:1 na 2:1, vzbudilo to určitou a pozornost a teprve nyní se objevily první diskuze nad tím, jak to vlastně s přínosem celočíselných jednotek (Int32) v herní grafice je, když by nová generace hardwaru měla být upravena právě na jejich úkor. Uživatel Man from Atlantis z diskusního fóra Beyond 3D provedl analýzu využití prostředků architektury Turing ve čtyř hrách:

Poměr využití FP:Int (v tabulce FMA:ALU) v těchto čtyřech hrách na architektuře Turing je 2,5:1 - 1,7:1 - 3,2:1 a 2,8:1. V průměru tedy 2,6:1. Rozhodně velmi daleko od poměru 1:1, který přinesl do herního světa Turing. Upravení hardwarových prostředků na poměr 2:1 tedy dává smysl, efektivita využití hardwaru bude lepší.

Naskýtá se otázka, proč Nvidia vlastně do neefektivního poměru FP:Int 1:1 vlastně šla(?) Odpovědí nám může být již výpočetní generace Volta, která ho přinesla jako první: Právě kvůli výpočtům. Že poměr 1:1 dává ve výpočetním segmentu smysl, potvrzuje i výpočetní Ampere, který jej zachovává. V herním světě ale smysl nemá a pro Turing byl spíše dědictvím architektury Volta, ze které vznikl. Herní Ampere tak již nejspíš neponese množství Int32 jednotek, které je natolik vysoké, že přes 60 % zůstává po celou dobu herního vytížení nevyužito a v podstatě nepřináší užitek.

Diskuse ke článku Ampere nejspíš přinese smysluplnější poměr Int:FP než Volta a Turing

Úterý, 18 Srpen 2020 - 14:21 | Pavel Zoch | Já tam měl dvě wx7100
Úterý, 18 Srpen 2020 - 13:50 | spidsta | Pokial to bolo mozne, skusal (tusim to slo len na...
Úterý, 18 Srpen 2020 - 13:24 | skaven | skusal si aj tie drivery Radeon Pro Software for...
Úterý, 18 Srpen 2020 - 13:15 | spidsta | Nuz, ako som pisal, uzil som si a uzivam dost od...
Úterý, 18 Srpen 2020 - 13:06 | VoDa | Uzij si to, a zazij realitu jmenem Nvidia......
Úterý, 18 Srpen 2020 - 12:26 | hajčus | Njn, budu si muset k RTX koupit Porsche...
Úterý, 18 Srpen 2020 - 11:55 | spidsta | Mal som Radeon VII, nebolo to zle, ale hlucne jak...
Úterý, 18 Srpen 2020 - 11:38 | Pavel Zoch | Osobně se mi v resolve lépe chová AMD
Úterý, 18 Srpen 2020 - 11:27 | spidsta | Zaujimave. NVIDIA tvrdila, ze pri Ampere...
Úterý, 18 Srpen 2020 - 11:26 | Matess | ROFL, ale jako jo... nvidia má ceny jako poměr...

Zobrazit diskusi