Nvidia odhalila Turing: tensor-cores, ray tracing cores a GDDR6

14. 8. 2018 | no-X | Hardware, Novinky, Grafiky

Dnešek je „dnem D“, po roce spekulací a hypotéz máme oficiální odpovědi: Nová architektura Nvidie se jmenuje Turing a je nadstavbou generace Volta…

Hned v úvodu je třeba ujasnit, k čemu došlo. Nvidia neuvedla žádné herní produkty, nevydala žádný konkrétní hardware, pouze odhalila základní prvky nové architektury a avizovala vydání tří karet řady Quadro na čtvrtý kvartál (říjen-prosinec letošního roku). Tyto informace ale poměrně jasně nastiňují rámcovou podobu herních produktů, jejichž ohlášení se chystá. I je Nvidia naťukla, byť jen zlehka a nepřímo.

Tři Quadra, dvě GPU

Nvidia zmínila Quadro RTX 5000, Quadro RTX 6000 a Quadro RTX 8000. Postavená jsou na architektuře Turing, ale dostupné specifikace naznačují použití dvou různých GPU. Jejich jména nebyla odhalena, ale můžeme jim pracovně říkat Turing 104 (Quadro RTX 5000) a Turing 102 (Quadro RTX 8000). Turing 104 je jádro s 256bit sběrnicí osazené 16 GB 14GHz GDDR6. Turing 102 má 384bit sběrnici doplněnou 24 nebo 48 GB 14 GHz GDDR6 (podle toho, zda jde o Quadro RTX 6000 nebo Quadro RTX 8000).

	Pascal		Volta	Turing
model	Tesla P100	Titan Xp	Quadro GV100	Quadro RTX 5000	Quadro RTX 8000
GPU	GP100 15,3 mld. tr.	GP102 12 mld. tr.	GV100 21 mld. tr.	?	18,6 mld. tr.
Plocha	610 mm²	471 mm²	815 mm²	?	754 mm²
Proces	16 nm TSMC		12 nm TSMC	12 nm TSMC?
Frekv.	1328 MHz 1480 MHz	1485 MHz 1582 MHz	? ~1445 MHz	?	~1730 MHz
SPs	3584	3840	5120	3072	4608
Tensor	-	-	640	384	576
TMUs	224	240	320	192?	288?
ROPs	?	96	?	64?	96?
tens. Int4	-	-	-	?	500
tens. FP16	-	-	118,5	?	125
FP16	19,0	-	29,6	?	26
FP32	9,5	12,1	14,8	?	13
FP64	4,8	0,38	7,4	?	?
RT	?	?	?	6 GR/s	10 GR/s
paměti	16 GB 4096bit HBM(2)	12 GB 384bit GDDR5X	32 GB 4096bit HBM(2)	16 GB 256bit GDDR6	24-48 GB 384bit GDDR6
takt	1,4 GHz	11,4 GHz	1,7 GHz	14 GHz	14 GHz
dat. prop.	720 GB/s	547 GB/s	870 GB/s	448 GB/s	672 GB/s
TDP	300 W	250 W	250 W	?	?
dob. cena	neuvedeno	$1200	$8999	$2300	$10000

Více se mluvilo o výkonnějším z modelů, takže o něm víme malinko více. Jádro Turing G102 dosahuje plochy 754 mm², což je historicky největší stodvojkové („ne-HBM“) GPU Nvidie a vlastně vůbec. Konkrétně v provedení Quadro RTX 8000 bude disponovat 4608 stream-procesory (CUDA Cores), pravděpodobně 96 ROP jednotkami a taktovací frekvencí kolem 1730 MHz.

Oficiální specifikace Quadro RTX 5000, patrně však s překlepem v počtu stream-procesorů

Quadro RTX 5000 disponuje 3072 stream-procesory. Specifikace na webu uvádí 3702, ale půjde o překlep, tento údaj totiž nekoresponduje ani s uvedeným počtem tensor-cores ani nejde o hodnotu dělitelnou 64. 3072 stream-procesorů by mohlo odpovídat plně aktivnímu jádru a reflektovat podobu desktopové GeForce.

Specializované obvody

Po Voltě (či Voltovi, jak je vám libo) podědil Turing tensor-cores, která se ale dočkala vylepšení. Krom FP16 podporují nově i přesnost Int8 a Int4. Možná si říkáte, že Int8 uměl již Volta, což je pravda, ale nešlo o podporu na úrovni tensor-cores ale o jednotky na úrovni klasických SP / CUDA. Nyní tedy tensor-cores umějí i Int8 a - co je úplná novinka - Int4. Jak je zvykem, FP16 je podporováno 2× rychleji než FP32, Int8 4× rychleji než FP32 a Int4 adekvátně tomu 8× rychleji než FP32. Praktického zdvojnásobení výkonu ovšem nebude dosahováno, protože i v oboru umělé inteligence (inference) je přesnost Int4 příliš nízká pro obecné použití, takže k využití tohoto potenciálu dojde jen ve velmi specifických situacích. Poměr tensor-cores ke standardním SP / CUDA zůstává zachován na 1:8.

Novinkou Turingu jsou tzv. RT Cores (ray tracing cores), jejichž účel je zřejmý z názvu - akcelerace raytracingu. Žádné bližší informace o jejich hardwarové podobě ani způsobu implementace nejsou známé. Nelze tudíž ani říct, zda jde o fyzicky zcela separované samostatné jednotky, nebo o více či méně sdílený hardware. RT Cores většího Turingu („102“) jsou schopné dosahovat výkonu 10 GR/s (giga rays / s, miliard paprsků za sekundu), čímž mají 25× překonávat výkon nespecifikovaného Pascalu, který RT Cores nedisponoval. Tato jádra jsou schopna akcelerovat ray-triangle intersection checks (testy průniků paprsků / trojúhelníku) a BVH manipulaci.

Standardní výpočty

Nvidia hovoří o podpoře tzv. variable-rate shading, což patrně nebude nic jiného než obdoba k AMD Rapid Packed Math, tedy možnosti kombinace přesnosti FP32, FP16 a případně Int8. Další novinkou Turingu je „unified cache architecture“, což je změna spočívající ve sloučení L1 cache a sdílené paměti (shared memory), která by měla zaručit 2× vyšší datovou propustnost cache oproti předchozí generaci. Nvidia opět zůstala jen u této vágní formulace, takže lze říct jen tolik, že jde o stejnou nebo obdobnou změnu jakou přinesla Volta GV100 pro výpočetní segment. Není ovšem jasné, jestli ono srovnání s předchozí generací je míněno jako srovnání s předchozí grafickou generací, tedy Pascalem (a jde tedy o tutéž změnu, k jaké došlo s Voltou), nebo je srovnání míněno s Voltou a jde tedy o další zdvojnásobení datové propustnosti cache. To se snad dozvíme časem.

GDDR6

Ve vztahu k pamětem nás už nic nečekaného nečeká. Avizované modely disponují 14GHz GDDR6, takže loňské avizo Hynixu, že se na začátek roku 2018 chystá 384bit GPU vybavené 16GHz GDDR6, definitivně bere za své. Kdo ví, jestli se někdy dozvíme, zda mělo jít o zrušený projekt postavený na architektuře Volta, nebo už tehdy bylo rozhodnuto, že Volta zůstane jen ve výpočetním segmentu jako GV100 a na začátek roku 2018 se chystal Turing, který však postihl odklad o 2-3 kvartály.

GDDR6 oproti GDDR5 dělí každý čip na dva samostatné kanály. Namísto jednoho 32bit jsou tak k dispozici dva 16bit. Z hlediska uživatele (jakéhokoli typu) to nehraje roli, jde o transparentní řešení. Lze očekávat, že herní modely nabídnou standardně poloviční kapacitu paměti, než jakou disponují Quadra. Tedy 8-12 GB. Nebo možná 11 GB v případě deaktivace dvou 16bit kanálů sběrnice a odpovídajícího bloku ROP.

Rozhraní a multimedia

Karty budou vybavené rozhraním NVLINK známým již z předchozích generací výpočetních karet. Vypadá to, že jím bude nahrazen dosluhující (pomalý) SLI konektor, ale to Nvidia zatím explicitně nepotvrdila. Další novinkou je již avizovaný VR Link, tedy USB-C konektor rozšířený o čtyři linky DisplayPort. Oproti USB-C je povinnou součástí specifikace napájení pro min. 15 wattů a volitelnou součástí napájení pro až 27 wattů (standardní USB-C má volitelných až 100 wattů).

Prezentace v několika situacích zmínila zkratku „8k“. Ve věci obrazového výstupu však nejde o novinku, 8k rozlišení umožňuje již DisplayPort 1.3 / 1.4. Novinkou je spíše podpora pro encoding 8k HEVC videa, podpora přehrávání (decoding) samozřejmě nechybí. Pokud mi něco neuniklo, nepadla žádná zmínka o verzi HDMI.

Článek byl a může být průběžně aktualizován.

Tagy:

Turing, Quadro, GDDR6, Nvidia

Zdroje:

Nvidia, Anandtech

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku Nvidia odhalila Turing: tensor-cores, ray tracing cores a GDDR6

Čtvrtek, 16 Srpen 2018 - 11:48 | mike | Jestli tvoje normální firma provádí výkopové...

Středa, 15 Srpen 2018 - 07:51 | VŠK | KB4343909 opravuje i novou slabinu intelu L1...

Úterý, 14 Srpen 2018 - 23:46 | 8BBS | Windows 10 patch KB4343909 addresses high CPU...

Úterý, 14 Srpen 2018 - 22:29 | ovadisko | https://topdocumentaryfilms.com/four-horsemen/

Úterý, 14 Srpen 2018 - 22:00 | Jaroslav Crha | na to nepotřebuješ zvuk. je tam: 0:40 - RoyTeX: :...

Úterý, 14 Srpen 2018 - 21:58 | Jaroslav Crha | Sice z tvého odkazu nic nevidím, ale našel jsem...

Úterý, 14 Srpen 2018 - 21:54 | Jaroslav Crha | je to místo kde bude to odhalení pojmenovaná jako...

Úterý, 14 Srpen 2018 - 21:11 | Alarik | Tak už jen počkat do pondělí na oficiální...

Úterý, 14 Srpen 2018 - 20:40 | Docik | Teď se mi tak trochu potvrdilo, čím jsem nebyl...

Úterý, 14 Srpen 2018 - 20:39 | Docik | Je to relativní kousek od Gamesconu, bydlet...

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

Nvidia odhalila Turing: tensor-cores, ray tracing cores a GDDR6

Tři Quadra, dvě GPU

Specializované obvody

Standardní výpočty

GDDR6

Rozhraní a multimedia

Jiří "no-X" Souček

Diskuse ke článku Nvidia odhalila Turing: tensor-cores, ray tracing cores a GDDR6

Komerční sdělení

CDR Hry

Google vylepšuje Android: Circle to Search odhalí podvodný obsah na displeji

File Explorer po poslední aktualizaci Windows 11 nepříjemně problikává

Nový AI model pomůže chránit satelity a energetické sítě před slunečními bouřemi

Podivná chyba v přihlašování Windows 11: Microsoft radí lovit neviditelné ikony

Vědci objevili materiál, který může změnit fungování počítačů

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT