Diit.cz - Novinky a informace o hardware, software a internetu

Rozbor: Architektura Turing a jádro TU106 odhaleny

S předstihem před oficiálním vydáním se můžeme podívat na novinky architektury Turing…

Redakce webu VideoCardz si od některého subjektu, který je pod NDA, opatřila prezentaci architektury Nvidia Turing. Lze předpokládat, že daná prezentace je překrytá logy onoho subjektu, kterému byla adresována, takže se VideoCardz rozhodla klíčové prvky věrně překreslit, aby jej zveřejněním slajdů s logy nekompromitovala. Díky tomu se dozvídáme první podrobnější informace o Turingu.

Turing SM

SM blok Turing

Co vidíte výše, je SM blok architektury Turing. Abychom měli lepší srovnání, následuje SM blok architektury Volta:

SM blok Volta

Nenechte se zmást odlišnými barvami nebo tvary, jde v obojím případě jen o schémata. Na první pohled je vidět, že schéma zveřejněné pro Turing je zjednodušené oproti schématu zveřejněnému pro Voltu, takže srovnání není snadné (a u některých prvků není ani možné, protože nejsou znázorněné).

Ve srovnání s Voltou zůstalo zachováno 4× 16 (tzn. 64) FP32 („stream-procesorů“, „CUDA jednotek“) na SM blok. Stejně tak i 4× 16 (tzn. 64) INT32 jednotek na SM blok. Byť to na schématu Volty není uvedeno, i jeho INT jednotky jsou INT32. Pokud bychom srovnávali s Pascalem, je to ještě obtížnější, protože ten existuje ve dvou architektonických mutacích - GP100 a ostatní (GP102, GP104 atd.), přičemž Volta a Turing jdou spíše ve šlépějích architektonické varianty GP100.

Nvidia uvádí INT32 jednotky jako novinku, což je pravda, pokud je srovnáváno s Pascalem, nikoli s Voltou. Turing umožňuje FP32 a INT32 jednotky využívat paralelně, což Nvidia (společně s několika dalšími změnami) prezentuje jako až o 36 % zvýšení výkonu v přepočtu na CUDA jednotku. Nesmíme ovšem zapomínat na to, že jde de facto o přidání další výpočetní jednotky, která jen není počítána mezi CUDA (FP32) jednotky. Mezi zmíněnými dalšími změnami je uveden upravený caching textur a upravená L1 cache, díky nimž má být celkový výkonnostní posun přepočtený na CUDA jednotku až 50 %. Není jasné, do jaké míry jde o změny oproti architektuře Pascal a do jaké míry oproti architektuře Volta. Rozdíl v cache by však mohl být i oproti druhé.

Samotná schémata SM Turing a SM Volta se dále liší absencí FP64 jednotek a L0 cache. Protože některé prvky na schématu SM Turing kvůli zjednodušení chybějí, nelze jednoznačně odvodit, do jaké míry jde o rozdíl v architektuře a do jaké míry o rozdíl v prezentaci. Je zřejmé, že Turing (alespoň ve stávající podobě) nepodporuje rychlé FP64 (double-precision), ale bylo by neobvyklé (nikoli však nemožné), kdyby jej - jak naznačuje schéma - nepodporovala vůbec. Naopak co bez debat přibylo jak oproti architektuře Pascal, tak oproti Volta, je RT Core pro ray tracing. O jeho výbavě se prozatím nedozvídáme.

Paměti, komprese

Turing přichází jako první produkt Nvidie s podporou pamětí GDDR6. Pro další zrychlení datových přenosů došlo ke zvýšení efektivity bezztrátové komprese. Nvidia hovoří o 50% efektivním zvýšení datových přenosů Turingu oproti Pascalu.

Co se týče vylepšené komprese, jde pravděpodobně o prvek, kterým disponuje již Volta. To vede k myšlence, že se toto číslo týká jedné specifické situace a to komprese 10bit textur, která Pascalu - řekněme - příliš nešla (existují názory, že šlo o bug návrhu). Ta je používána především pro HDR, což je důvodem, proč u her limitovaných paměťovou propustností docházelo u Pascalu při použití HDR k výraznějšímu propadu výkonu. Dalo by se předpokládat, že tato slabina byla u nástupců Pascalu vyřešena a komprese 10bit textur snižuje objemy dat až o třetinu, jinými slovy zvyšuje datovou propustnost.

Shading

  • Mesh Shading - nový model pro teselaci, vertex- a geometry shading, který umožňuje realizovat vyšší počet objektů ve scéně; bližší informace zatím nejsou k dispozici, ale na první pohled to vypadá, že by mohlo jít o alternativu k technologii Primitive Shader architektury Vega (snad funkční ;-)
  • Variable Rate Shading (VRS) - vývojář může určit přesnost; snížením přesnosti tam, kde to nemá dopady na vizuální stránku, lze zvýšit výkon; jakási alternativa k Rapid Packed Math Vegy
  • Texture-Space Sharing - uložení výsledků v paměti bez potřeby duplikace
  • Multi-View Rendering (MVR) - rozšíření podpory o Pascalu ze stereo single-pass na multi-view single-pass; není nám známo, na jaké úrovni byla podpora MVR u Volty

 Video a obraz

  • DisplayPort 1.4a (umí 8k při 60 Hz, GPU zvládne 2× 8k displej při 60 Hz přes DP či USB-C)
  • vylepšený NVENC zvládá komprimovat h.265 při 8k a 30 FPS
  • vylepšený NVDEC zvládá HEVC YUV444 10bit / 12bit HDR, h.264 8K a VP9 10bit / 12 bit HDR

NVLINK aneb konec 3-way / 4-way SLI

  • GeForce RTX 2080 Ti - 2× x8 2nd Gen NVLINK
  • GeForce RTX 2080 - 1× x8 2nd Gen NVLINK
  • GeForce RTX 2070 - nepodporuje

Je možné propojit dvě karty, podpora pro třícestné a čtyřcestné SLI byla odstraněna.

TU102, TU104 a překvapení: TU106

Turing TU106

Podoba jádra TU102 použitého na GeForce RTX 2080 Ti byla zhruba známa. Diagram potvrzuje až 4608 stream-procesorů a až 96 ROP (GeForce nemá všechny jednotky aktivní). GPU dosahuje 754 mm²

Turing TU104

Jádro TU104 použité na GeForce RTX 2080 disponuje fyzicky 3072 stream-procesory a 64 ROP. V případě GeForce je opět část neaktivní. Novinka: GPU dosahuje 545 mm² (což je slušně blízko našemu odhadu o 560 mm²)

Turing TU106

Překvapení: GeForce RTX 2070 není oproti původním předpokladům postavená na ořezaném jádru TU104, ale na plně aktivním jádře TU106. Přestože Nvidia „šestku“ tradičně používá ke značení mainstreamových čipů, které disponují zhruba polovinou stream-procesorů oproti „čtyřkovému“ čipu, tentokrát se věci mají jinak. TU106 není mainstreamová ani počtem stream-procesorů, který je poloviční oproti TU102 (a nikoli proti TU104), ani sběrnicí, která je stejná jako u TU104, tzn. 256bit (a nikoli poloviční oproti větším GPU), ani plochou, která dosahuje 445 mm² (to je zcela nová informace), ani cenou výsledného produktu $599. Zajímavostí je, že jde o (zatím?) jedinou GeForce RTX, která nese plně aktivní jádro, což tentokrát znamená 2304 stream-procesorů, 64 ROP a 256bit sběrnici.

V souladu s novými informacemi upravuji i naší tabulku:

 GeForce
RTX 2070
GeForce
RTX 2080
GeForce
RTX 2080 Ti
GPUTU106
10,6 mld. tr.
TU104
13,6 mld. tr.
TU102
18,6 mld. tr.
Plocha445 mm²545 mm²754 mm²
Proces12 nm TSMC
Zákl. takt1410 MHz1515 MHz1350 MHz
Boost1620 / 1710 MHz1710 / 1800 MHz1545 / 1635 MHz
SPs230429444352
Tensor288368544
RT Cores364668
TMUs144184272
ROPs646488
tens. Int4??420 / 445(?)
tens. FP16??105 / 111
FP16 (TFLOPS)???
FP32 (TFLOPS)7,5 /  7,910,1 / 10,613,4 /  14,2
FP64 (TFLOPS)???
RT6 GR/s8 GR/s10 GR/s
RTX-OPS45 T60 T78 T
paměti8 GB
256bit
GDDR6
8 GB
256bit
GDDR6
11 GB
352bit
GDDR6
takt14 GHz14 GHz14 GHz
dat. prop.448 GB/s448 GB/s616 GB/s
napájení8 pin8+6 pin8+8 pin
TDP175 / 185 W215 / 225 W250 / 260 W
vydáníQ4 201820. září 201820. září 2018
dob. cena$499 / $599$699 / $799$999 / $1199

To je prozatím vše, co bylo možné z uniklých útržků vyžmuňkat.

Diskuse ke článku Rozbor: Architektura Turing a jádro TU106 odhaleny

Pátek, 14 Září 2018 - 10:01 | Marek Moravčík | Na druhej strane nemôže byť zasa AMD kvôli tomu...
Pátek, 14 Září 2018 - 09:13 | tombomino | ..tohle mi ale nepasuje na konzole..pokud budou...
Pátek, 14 Září 2018 - 07:30 | del42sa | vždyť to píšu hned v příspěvku na tím tvým...
Čtvrtek, 13 Září 2018 - 22:28 | Peter Fodrek | Navi je GCN https://en.m.wikipedia.org/wiki/...
Čtvrtek, 13 Září 2018 - 15:41 | del42sa | GCN je už v podstatě mrtvá záležitost (téměř 8...
Čtvrtek, 13 Září 2018 - 14:02 | Peter Fodrek | >A nebo ze v tom mate nejake financni/karierni...
Čtvrtek, 13 Září 2018 - 11:21 | Mali | AMD mam rad, ale takovehle bludy se musi potirat...
Čtvrtek, 13 Září 2018 - 10:24 | Waffer47 | Autorovi dekuji za startovni recenzi architektury...
Čtvrtek, 13 Září 2018 - 08:43 | Tom | ""Ono by to také bylo nejrozumnější....
Čtvrtek, 13 Září 2018 - 07:28 | Tomason | Redmarxi, ty tvoje články už se opravdu nedají...

Zobrazit diskusi