Rozbor: Architektura Turing a jádro TU106 odhaleny

12. 9. 2018 | no-X | Hardware, Novinky, Grafiky

S předstihem před oficiálním vydáním se můžeme podívat na novinky architektury Turing…

Redakce webu VideoCardz si od některého subjektu, který je pod NDA, opatřila prezentaci architektury Nvidia Turing. Lze předpokládat, že daná prezentace je překrytá logy onoho subjektu, kterému byla adresována, takže se VideoCardz rozhodla klíčové prvky věrně překreslit, aby jej zveřejněním slajdů s logy nekompromitovala. Díky tomu se dozvídáme první podrobnější informace o Turingu.

Turing SM

SM blok Turing

Co vidíte výše, je SM blok architektury Turing. Abychom měli lepší srovnání, následuje SM blok architektury Volta:

SM blok Volta

Nenechte se zmást odlišnými barvami nebo tvary, jde v obojím případě jen o schémata. Na první pohled je vidět, že schéma zveřejněné pro Turing je zjednodušené oproti schématu zveřejněnému pro Voltu, takže srovnání není snadné (a u některých prvků není ani možné, protože nejsou znázorněné).

Ve srovnání s Voltou zůstalo zachováno 4× 16 (tzn. 64) FP32 („stream-procesorů“, „CUDA jednotek“) na SM blok. Stejně tak i 4× 16 (tzn. 64) INT32 jednotek na SM blok. Byť to na schématu Volty není uvedeno, i jeho INT jednotky jsou INT32. Pokud bychom srovnávali s Pascalem, je to ještě obtížnější, protože ten existuje ve dvou architektonických mutacích - GP100 a ostatní (GP102, GP104 atd.), přičemž Volta a Turing jdou spíše ve šlépějích architektonické varianty GP100.

Nvidia uvádí INT32 jednotky jako novinku, což je pravda, pokud je srovnáváno s Pascalem, nikoli s Voltou. Turing umožňuje FP32 a INT32 jednotky využívat paralelně, což Nvidia (společně s několika dalšími změnami) prezentuje jako až o 36 % zvýšení výkonu v přepočtu na CUDA jednotku. Nesmíme ovšem zapomínat na to, že jde de facto o přidání další výpočetní jednotky, která jen není počítána mezi CUDA (FP32) jednotky. Mezi zmíněnými dalšími změnami je uveden upravený caching textur a upravená L1 cache, díky nimž má být celkový výkonnostní posun přepočtený na CUDA jednotku až 50 %. Není jasné, do jaké míry jde o změny oproti architektuře Pascal a do jaké míry oproti architektuře Volta. Rozdíl v cache by však mohl být i oproti druhé.

Samotná schémata SM Turing a SM Volta se dále liší absencí FP64 jednotek a L0 cache. Protože některé prvky na schématu SM Turing kvůli zjednodušení chybějí, nelze jednoznačně odvodit, do jaké míry jde o rozdíl v architektuře a do jaké míry o rozdíl v prezentaci. Je zřejmé, že Turing (alespoň ve stávající podobě) nepodporuje rychlé FP64 (double-precision), ale bylo by neobvyklé (nikoli však nemožné), kdyby jej - jak naznačuje schéma - nepodporovala vůbec. Naopak co bez debat přibylo jak oproti architektuře Pascal, tak oproti Volta, je RT Core pro ray tracing. O jeho výbavě se prozatím nedozvídáme.

Paměti, komprese

Turing přichází jako první produkt Nvidie s podporou pamětí GDDR6. Pro další zrychlení datových přenosů došlo ke zvýšení efektivity bezztrátové komprese. Nvidia hovoří o 50% efektivním zvýšení datových přenosů Turingu oproti Pascalu.

Co se týče vylepšené komprese, jde pravděpodobně o prvek, kterým disponuje již Volta. To vede k myšlence, že se toto číslo týká jedné specifické situace a to komprese 10bit textur, která Pascalu - řekněme - příliš nešla (existují názory, že šlo o bug návrhu). Ta je používána především pro HDR, což je důvodem, proč u her limitovaných paměťovou propustností docházelo u Pascalu při použití HDR k výraznějšímu propadu výkonu. Dalo by se předpokládat, že tato slabina byla u nástupců Pascalu vyřešena a komprese 10bit textur snižuje objemy dat až o třetinu, jinými slovy zvyšuje datovou propustnost.

Shading

Mesh Shading - nový model pro teselaci, vertex- a geometry shading, který umožňuje realizovat vyšší počet objektů ve scéně; bližší informace zatím nejsou k dispozici, ale na první pohled to vypadá, že by mohlo jít o alternativu k technologii Primitive Shader architektury Vega (snad funkční ;-)
Variable Rate Shading (VRS) - vývojář může určit přesnost; snížením přesnosti tam, kde to nemá dopady na vizuální stránku, lze zvýšit výkon; jakási alternativa k Rapid Packed Math Vegy
Texture-Space Sharing - uložení výsledků v paměti bez potřeby duplikace
Multi-View Rendering (MVR) - rozšíření podpory o Pascalu ze stereo single-pass na multi-view single-pass; není nám známo, na jaké úrovni byla podpora MVR u Volty

Video a obraz

DisplayPort 1.4a (umí 8k při 60 Hz, GPU zvládne 2× 8k displej při 60 Hz přes DP či USB-C)
vylepšený NVENC zvládá komprimovat h.265 při 8k a 30 FPS
vylepšený NVDEC zvládá HEVC YUV444 10bit / 12bit HDR, h.264 8K a VP9 10bit / 12 bit HDR

NVLINK aneb konec 3-way / 4-way SLI

GeForce RTX 2080 Ti - 2× x8 2nd Gen NVLINK
GeForce RTX 2080 - 1× x8 2nd Gen NVLINK
GeForce RTX 2070 - nepodporuje

Je možné propojit dvě karty, podpora pro třícestné a čtyřcestné SLI byla odstraněna.

TU102, TU104 a překvapení: TU106

Turing TU106

Podoba jádra TU102 použitého na GeForce RTX 2080 Ti byla zhruba známa. Diagram potvrzuje až 4608 stream-procesorů a až 96 ROP (GeForce nemá všechny jednotky aktivní). GPU dosahuje 754 mm²

Turing TU104

Jádro TU104 použité na GeForce RTX 2080 disponuje fyzicky 3072 stream-procesory a 64 ROP. V případě GeForce je opět část neaktivní. Novinka: GPU dosahuje 545 mm² (což je slušně blízko našemu odhadu o 560 mm²)

Turing TU106

Překvapení: GeForce RTX 2070 není oproti původním předpokladům postavená na ořezaném jádru TU104, ale na plně aktivním jádře TU106. Přestože Nvidia „šestku“ tradičně používá ke značení mainstreamových čipů, které disponují zhruba polovinou stream-procesorů oproti „čtyřkovému“ čipu, tentokrát se věci mají jinak. TU106 není mainstreamová ani počtem stream-procesorů, který je poloviční oproti TU102 (a nikoli proti TU104), ani sběrnicí, která je stejná jako u TU104, tzn. 256bit (a nikoli poloviční oproti větším GPU), ani plochou, která dosahuje 445 mm² (to je zcela nová informace), ani cenou výsledného produktu $599. Zajímavostí je, že jde o (zatím?) jedinou GeForce RTX, která nese plně aktivní jádro, což tentokrát znamená 2304 stream-procesorů, 64 ROP a 256bit sběrnici.

V souladu s novými informacemi upravuji i naší tabulku:

	GeForce RTX 2070	GeForce RTX 2080	GeForce RTX 2080 Ti
GPU	TU106 10,6 mld. tr.	TU104 13,6 mld. tr.	TU102 18,6 mld. tr.
Plocha	445 mm²	545 mm²	754 mm²
Proces	12 nm TSMC
Zákl. takt	1410 MHz	1515 MHz	1350 MHz
Boost	1620 / 1710 MHz	1710 / 1800 MHz	1545 / 1635 MHz
SPs	2304	2944	4352
Tensor	288	368	544
RT Cores	36	46	68
TMUs	144	184	272
ROPs	64	64	88
tens. Int4	?	?	420 / 445(?)
tens. FP16	?	?	105 / 111
FP16 (TFLOPS)	?	?	?
FP32 (TFLOPS)	7,5 / 7,9	10,1 / 10,6	13,4 / 14,2
FP64 (TFLOPS)	?	?	?
RT	6 GR/s	8 GR/s	10 GR/s
RTX-OPS	45 T	60 T	78 T
paměti	8 GB 256bit GDDR6	8 GB 256bit GDDR6	11 GB 352bit GDDR6
takt	14 GHz	14 GHz	14 GHz
dat. prop.	448 GB/s	448 GB/s	616 GB/s
napájení	8 pin	8+6 pin	8+8 pin
TDP	175 / 185 W	215 / 225 W	250 / 260 W
vydání	Q4 2018	20. září 2018	20. září 2018
dob. cena	$499 / $599	$699 / $799	$999 / $1199

To je prozatím vše, co bylo možné z uniklých útržků vyžmuňkat.

Tagy:

Turing, architektura, TU102, TU104, TU106, RTX 2080, RTX 2080 Ti, RTX 2070, GeForce, Nvidia

Zdroje:

VideoCardz

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku Rozbor: Architektura Turing a jádro TU106 odhaleny

Pátek, 14 Září 2018 - 10:01 | Marek Moravčík | Na druhej strane nemôže byť zasa AMD kvôli tomu...

Pátek, 14 Září 2018 - 09:13 | tombomino | ..tohle mi ale nepasuje na konzole..pokud budou...

Pátek, 14 Září 2018 - 07:30 | del42sa | vždyť to píšu hned v příspěvku na tím tvým...

Čtvrtek, 13 Září 2018 - 22:28 | Peter Fodrek | Navi je GCN https://en.m.wikipedia.org/wiki/...

Čtvrtek, 13 Září 2018 - 15:41 | del42sa | GCN je už v podstatě mrtvá záležitost (téměř 8...

Čtvrtek, 13 Září 2018 - 14:02 | Peter Fodrek | >A nebo ze v tom mate nejake financni/karierni...

Čtvrtek, 13 Září 2018 - 11:21 | Mali | AMD mam rad, ale takovehle bludy se musi potirat...

Čtvrtek, 13 Září 2018 - 10:24 | Waffer47 | Autorovi dekuji za startovni recenzi architektury...

Čtvrtek, 13 Září 2018 - 08:43 | Tom | ""Ono by to také bylo nejrozumnější....

Čtvrtek, 13 Září 2018 - 07:28 | Tomason | Redmarxi, ty tvoje články už se opravdu nedají...

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

Rozbor: Architektura Turing a jádro TU106 odhaleny

Turing SM

Paměti, komprese

Shading

Video a obraz

NVLINK aneb konec 3-way / 4-way SLI

TU102, TU104 a překvapení: TU106

Jiří "no-X" Souček

Diskuse ke článku Rozbor: Architektura Turing a jádro TU106 odhaleny

Komerční sdělení

CDR Hry

Vědci ukázali robota, který zvládne Mars rychleji než dnešní mise

Kvantová baterie z Austrálie mění pravidla hry. Nabíjení může trvat vteřiny

86 % phishingu už řídí AI. Útoky míří mimo e-mail a jsou rychlejší než kdy dřív

Má AI svá temná zákoutí podobně jako Darkweb?

Kyslík nestačí. Nová studie ukazuje jiný způsob hledání života ve vesmíru

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT