Diit.cz - Novinky a informace o hardware, software a internetu

Nvidia odhalila Turing: tensor-cores, ray tracing cores a GDDR6

Dnešek je „dnem D“, po roce spekulací a hypotéz máme oficiální odpovědi: Nová architektura Nvidie se jmenuje Turing a je nadstavbou generace Volta…

Hned v úvodu je třeba ujasnit, k čemu došlo. Nvidia neuvedla žádné herní produkty, nevydala žádný konkrétní hardware, pouze odhalila základní prvky nové architektury a avizovala vydání tří karet řady Quadro na čtvrtý kvartál (říjen-prosinec letošního roku). Tyto informace ale poměrně jasně nastiňují rámcovou podobu herních produktů, jejichž ohlášení se chystá. I je Nvidia naťukla, byť jen zlehka a nepřímo.

Tři Quadra, dvě GPU

Nvidia zmínila Quadro RTX 5000, Quadro RTX 6000 a Quadro RTX 8000. Postavená jsou na architektuře Turing, ale dostupné specifikace naznačují použití dvou různých GPU. Jejich jména nebyla odhalena, ale můžeme jim pracovně říkat Turing 104 (Quadro RTX 5000) a Turing 102 (Quadro RTX 8000). Turing 104 je jádro s 256bit sběrnicí osazené 16 GB 14GHz GDDR6. Turing 102 má 384bit sběrnici doplněnou 24 nebo 48 GB 14 GHz GDDR6 (podle toho, zda jde o Quadro RTX 6000 nebo Quadro RTX 8000).

 PascalVoltaTuring
modelTesla P100Titan XpQuadro
GV100
Quadro
RTX 5000

Quadro
RTX 8000

GPUGP100
15,3 mld. tr.
GP102
12 mld. tr.
GV100
21 mld. tr.
?18,6 mld. tr.
Plocha610 mm²471 mm²815 mm²?754 mm²
Proces16 nm TSMC12 nm TSMC12 nm TSMC?
Frekv.1328 MHz
1480 MHz
1485 MHz
1582 MHz
?
~1445 MHz
?~1730 MHz
SPs35843840512030724608
Tensor--640384576
TMUs224240320192?288?
ROPs?9664?96?
tens. Int4---?500
tens. FP16--118,5?125
FP1619,0-29,6?26
FP329,512,114,8?13
FP644,80,387,4??
RT???6 GR/s10 GR/s
paměti16 GB
4096bit
HBM(2)
12 GB
384bit
GDDR5X

32 GB
4096bit
HBM(2)

16 GB
256bit
GDDR6

24-48 GB
384bit
GDDR6
takt1,4 GHz11,4 GHz1,7 GHz 14 GHz14 GHz
dat. prop.720 GB/s547 GB/s870 GB/s448 GB/s672 GB/s
TDP300 W250 W250 W??
dob. cenaneuvedeno$1200$8999 $2300$10000

Více se mluvilo o výkonnějším z modelů, takže o něm víme malinko více. Jádro Turing G102 dosahuje plochy 754 mm², což je historicky největší stodvojkové („ne-HBM“) GPU Nvidie a vlastně vůbec. Konkrétně v provedení Quadro RTX 8000 bude disponovat 4608 stream-procesory (CUDA Cores), pravděpodobně 96 ROP jednotkami a taktovací frekvencí kolem 1730 MHz.

Oficiální specifikace Quadro RTX 5000, patrně však s překlepem v počtu stream-procesorů

Quadro RTX 5000 disponuje 3072 stream-procesory. Specifikace na webu uvádí 3702, ale půjde o překlep, tento údaj totiž nekoresponduje ani s uvedeným počtem tensor-cores ani nejde o hodnotu dělitelnou 64. 3072 stream-procesorů by mohlo odpovídat plně aktivnímu jádru a reflektovat podobu desktopové GeForce.

Specializované obvody

Po Voltě (či Voltovi, jak je vám libo) podědil Turing tensor-cores, která se ale dočkala vylepšení. Krom FP16 podporují nově i přesnost Int8 a Int4. Možná si říkáte, že Int8 uměl již Volta, což je pravda, ale nešlo o podporu na úrovni tensor-cores ale o jednotky na úrovni klasických SP / CUDA. Nyní tedy tensor-cores umějí i Int8 a - co je úplná novinka - Int4. Jak je zvykem, FP16 je podporováno 2× rychleji než FP32, Int8 4× rychleji než FP32 a Int4 adekvátně tomu 8× rychleji než FP32. Praktického zdvojnásobení výkonu ovšem nebude dosahováno, protože i v oboru umělé inteligence (inference) je přesnost Int4 příliš nízká pro obecné použití, takže k využití tohoto potenciálu dojde jen ve velmi specifických situacích. Poměr tensor-cores ke standardním SP / CUDA zůstává zachován na 1:8.

Novinkou Turingu jsou tzv. RT Cores (ray tracing cores), jejichž účel je zřejmý z názvu - akcelerace raytracingu. Žádné bližší informace o jejich hardwarové podobě ani způsobu implementace nejsou známé. Nelze tudíž ani říct, zda jde o fyzicky zcela separované samostatné jednotky, nebo o více či méně sdílený hardware. RT Cores většího Turingu („102“) jsou schopné dosahovat výkonu 10 GR/s (giga rays / s, miliard paprsků za sekundu), čímž mají 25× překonávat výkon nespecifikovaného Pascalu, který RT Cores nedisponoval. Tato jádra jsou schopna akcelerovat ray-triangle intersection checks (testy průniků paprsků / trojúhelníku) a BVH manipulaci.

Standardní výpočty

Nvidia hovoří o podpoře tzv. variable-rate shading, což patrně nebude nic jiného než obdoba k AMD Rapid Packed Math, tedy možnosti kombinace přesnosti FP32, FP16 a případně Int8. Další novinkou Turingu je „unified cache architecture“, což je změna spočívající ve sloučení L1 cache a sdílené paměti (shared memory), která by měla zaručit 2× vyšší datovou propustnost cache oproti předchozí generaci. Nvidia opět zůstala jen u této vágní formulace, takže lze říct jen tolik, že jde o stejnou nebo obdobnou změnu jakou přinesla Volta GV100 pro výpočetní segment. Není ovšem jasné, jestli ono srovnání s předchozí generací je míněno jako srovnání s předchozí grafickou generací, tedy Pascalem (a jde tedy o tutéž změnu, k jaké došlo s Voltou), nebo je srovnání míněno s Voltou a jde tedy o další zdvojnásobení datové propustnosti cache. To se snad dozvíme časem.

GDDR6

Ve vztahu k pamětem nás už nic nečekaného nečeká. Avizované modely disponují 14GHz GDDR6, takže loňské avizo Hynixu, že se na začátek roku 2018 chystá 384bit GPU vybavené 16GHz GDDR6, definitivně bere za své. Kdo ví, jestli se někdy dozvíme, zda mělo jít o zrušený projekt postavený na architektuře Volta, nebo už tehdy bylo rozhodnuto, že Volta zůstane jen ve výpočetním segmentu jako GV100 a na začátek roku 2018 se chystal Turing, který však postihl odklad o 2-3 kvartály.

GDDR6 oproti GDDR5 dělí každý čip na dva samostatné kanály. Namísto jednoho 32bit jsou tak k dispozici dva 16bit. Z hlediska uživatele (jakéhokoli typu) to nehraje roli, jde o transparentní řešení. Lze očekávat, že herní modely nabídnou standardně poloviční kapacitu paměti, než jakou disponují Quadra. Tedy 8-12 GB. Nebo možná 11 GB v případě deaktivace dvou 16bit kanálů sběrnice a odpovídajícího bloku ROP.

Rozhraní a multimedia

Karty budou vybavené rozhraním NVLINK známým již z předchozích generací výpočetních karet. Vypadá to, že jím bude nahrazen dosluhující (pomalý) SLI konektor, ale to Nvidia zatím explicitně nepotvrdila. Další novinkou je již avizovaný VR Link, tedy USB-C konektor rozšířený o čtyři linky DisplayPort. Oproti USB-C je povinnou součástí specifikace napájení pro min. 15 wattů a volitelnou součástí napájení pro až 27 wattů (standardní USB-C má volitelných až 100 wattů).

Prezentace v několika situacích zmínila zkratku „8k“. Ve věci obrazového výstupu však nejde o novinku, 8k rozlišení umožňuje již DisplayPort 1.3 / 1.4. Novinkou je spíše podpora pro encoding 8k HEVC videa, podpora přehrávání (decoding) samozřejmě nechybí. Pokud mi něco neuniklo, nepadla žádná zmínka o verzi HDMI.


Článek byl a může být průběžně aktualizován.

Tagy: 
Zdroje: 

Diskuse ke článku Nvidia odhalila Turing: tensor-cores, ray tracing cores a GDDR6

Čtvrtek, 16 Srpen 2018 - 11:48 | mike | Jestli tvoje normální firma provádí výkopové...
Středa, 15 Srpen 2018 - 07:51 | VŠK | KB4343909 opravuje i novou slabinu intelu L1...
Úterý, 14 Srpen 2018 - 23:46 | 8BBS | Windows 10 patch KB4343909 addresses high CPU...
Úterý, 14 Srpen 2018 - 22:29 | ovadisko | https://topdocumentaryfilms.com/four-horsemen/
Úterý, 14 Srpen 2018 - 22:00 | Jaroslav Crha | na to nepotřebuješ zvuk. je tam: 0:40 - RoyTeX: :...
Úterý, 14 Srpen 2018 - 21:58 | Jaroslav Crha | Sice z tvého odkazu nic nevidím, ale našel jsem...
Úterý, 14 Srpen 2018 - 21:54 | Jaroslav Crha | je to místo kde bude to odhalení pojmenovaná jako...
Úterý, 14 Srpen 2018 - 21:11 | Alarik | Tak už jen počkat do pondělí na oficiální...
Úterý, 14 Srpen 2018 - 20:40 | Docik | Teď se mi tak trochu potvrdilo, čím jsem nebyl...
Úterý, 14 Srpen 2018 - 20:39 | Docik | Je to relativní kousek od Gamesconu, bydlet...

Zobrazit diskusi