Nvidia odhalila Turing: tensor-cores, ray tracing cores a GDDR6
Hned v úvodu je třeba ujasnit, k čemu došlo. Nvidia neuvedla žádné herní produkty, nevydala žádný konkrétní hardware, pouze odhalila základní prvky nové architektury a avizovala vydání tří karet řady Quadro na čtvrtý kvartál (říjen-prosinec letošního roku). Tyto informace ale poměrně jasně nastiňují rámcovou podobu herních produktů, jejichž ohlášení se chystá. I je Nvidia naťukla, byť jen zlehka a nepřímo.
Tři Quadra, dvě GPU
Nvidia zmínila Quadro RTX 5000, Quadro RTX 6000 a Quadro RTX 8000. Postavená jsou na architektuře Turing, ale dostupné specifikace naznačují použití dvou různých GPU. Jejich jména nebyla odhalena, ale můžeme jim pracovně říkat Turing 104 (Quadro RTX 5000) a Turing 102 (Quadro RTX 8000). Turing 104 je jádro s 256bit sběrnicí osazené 16 GB 14GHz GDDR6. Turing 102 má 384bit sběrnici doplněnou 24 nebo 48 GB 14 GHz GDDR6 (podle toho, zda jde o Quadro RTX 6000 nebo Quadro RTX 8000).
Pascal | Volta | Turing | |||
---|---|---|---|---|---|
model | Tesla P100 | Titan Xp | Quadro GV100 | Quadro RTX 5000 | Quadro |
GPU | GP100 15,3 mld. tr. | GP102 12 mld. tr. | GV100 21 mld. tr. | ? | 18,6 mld. tr. |
Plocha | 610 mm² | 471 mm² | 815 mm² | ? | 754 mm² |
Proces | 16 nm TSMC | 12 nm TSMC | 12 nm TSMC? | ||
Frekv. | 1328 MHz 1480 MHz | 1485 MHz 1582 MHz | ? ~1445 MHz | ? | ~1730 MHz |
SPs | 3584 | 3840 | 5120 | 3072 | 4608 |
Tensor | - | - | 640 | 384 | 576 |
TMUs | 224 | 240 | 320 | 192? | 288? |
ROPs | ? | 96 | ? | 64? | 96? |
tens. Int4 | - | - | - | ? | 500 |
tens. FP16 | - | - | 118,5 | ? | 125 |
FP16 | 19,0 | - | 29,6 | ? | 26 |
FP32 | 9,5 | 12,1 | 14,8 | ? | 13 |
FP64 | 4,8 | 0,38 | 7,4 | ? | ? |
RT | ? | ? | ? | 6 GR/s | 10 GR/s |
paměti | 16 GB 4096bit HBM(2) | 12 GB 384bit GDDR5X | 32 GB | 16 GB | 24-48 GB 384bit GDDR6 |
takt | 1,4 GHz | 11,4 GHz | 1,7 GHz | 14 GHz | 14 GHz |
dat. prop. | 720 GB/s | 547 GB/s | 870 GB/s | 448 GB/s | 672 GB/s |
TDP | 300 W | 250 W | 250 W | ? | ? |
dob. cena | neuvedeno | $1200 | $8999 | $2300 | $10000 |
Více se mluvilo o výkonnějším z modelů, takže o něm víme malinko více. Jádro Turing G102 dosahuje plochy 754 mm², což je historicky největší stodvojkové („ne-HBM“) GPU Nvidie a vlastně vůbec. Konkrétně v provedení Quadro RTX 8000 bude disponovat 4608 stream-procesory (CUDA Cores), pravděpodobně 96 ROP jednotkami a taktovací frekvencí kolem 1730 MHz.
Oficiální specifikace Quadro RTX 5000, patrně však s překlepem v počtu stream-procesorů
Quadro RTX 5000 disponuje 3072 stream-procesory. Specifikace na webu uvádí 3702, ale půjde o překlep, tento údaj totiž nekoresponduje ani s uvedeným počtem tensor-cores ani nejde o hodnotu dělitelnou 64. 3072 stream-procesorů by mohlo odpovídat plně aktivnímu jádru a reflektovat podobu desktopové GeForce.
Specializované obvody
Po Voltě (či Voltovi, jak je vám libo) podědil Turing tensor-cores, která se ale dočkala vylepšení. Krom FP16 podporují nově i přesnost Int8 a Int4. Možná si říkáte, že Int8 uměl již Volta, což je pravda, ale nešlo o podporu na úrovni tensor-cores ale o jednotky na úrovni klasických SP / CUDA. Nyní tedy tensor-cores umějí i Int8 a - co je úplná novinka - Int4. Jak je zvykem, FP16 je podporováno 2× rychleji než FP32, Int8 4× rychleji než FP32 a Int4 adekvátně tomu 8× rychleji než FP32. Praktického zdvojnásobení výkonu ovšem nebude dosahováno, protože i v oboru umělé inteligence (inference) je přesnost Int4 příliš nízká pro obecné použití, takže k využití tohoto potenciálu dojde jen ve velmi specifických situacích. Poměr tensor-cores ke standardním SP / CUDA zůstává zachován na 1:8.
Novinkou Turingu jsou tzv. RT Cores (ray tracing cores), jejichž účel je zřejmý z názvu - akcelerace raytracingu. Žádné bližší informace o jejich hardwarové podobě ani způsobu implementace nejsou známé. Nelze tudíž ani říct, zda jde o fyzicky zcela separované samostatné jednotky, nebo o více či méně sdílený hardware. RT Cores většího Turingu („102“) jsou schopné dosahovat výkonu 10 GR/s (giga rays / s, miliard paprsků za sekundu), čímž mají 25× překonávat výkon nespecifikovaného Pascalu, který RT Cores nedisponoval. Tato jádra jsou schopna akcelerovat ray-triangle intersection checks (testy průniků paprsků / trojúhelníku) a BVH manipulaci.
Standardní výpočty
Nvidia hovoří o podpoře tzv. variable-rate shading, což patrně nebude nic jiného než obdoba k AMD Rapid Packed Math, tedy možnosti kombinace přesnosti FP32, FP16 a případně Int8. Další novinkou Turingu je „unified cache architecture“, což je změna spočívající ve sloučení L1 cache a sdílené paměti (shared memory), která by měla zaručit 2× vyšší datovou propustnost cache oproti předchozí generaci. Nvidia opět zůstala jen u této vágní formulace, takže lze říct jen tolik, že jde o stejnou nebo obdobnou změnu jakou přinesla Volta GV100 pro výpočetní segment. Není ovšem jasné, jestli ono srovnání s předchozí generací je míněno jako srovnání s předchozí grafickou generací, tedy Pascalem (a jde tedy o tutéž změnu, k jaké došlo s Voltou), nebo je srovnání míněno s Voltou a jde tedy o další zdvojnásobení datové propustnosti cache. To se snad dozvíme časem.
GDDR6
Ve vztahu k pamětem nás už nic nečekaného nečeká. Avizované modely disponují 14GHz GDDR6, takže loňské avizo Hynixu, že se na začátek roku 2018 chystá 384bit GPU vybavené 16GHz GDDR6, definitivně bere za své. Kdo ví, jestli se někdy dozvíme, zda mělo jít o zrušený projekt postavený na architektuře Volta, nebo už tehdy bylo rozhodnuto, že Volta zůstane jen ve výpočetním segmentu jako GV100 a na začátek roku 2018 se chystal Turing, který však postihl odklad o 2-3 kvartály.
GDDR6 oproti GDDR5 dělí každý čip na dva samostatné kanály. Namísto jednoho 32bit jsou tak k dispozici dva 16bit. Z hlediska uživatele (jakéhokoli typu) to nehraje roli, jde o transparentní řešení. Lze očekávat, že herní modely nabídnou standardně poloviční kapacitu paměti, než jakou disponují Quadra. Tedy 8-12 GB. Nebo možná 11 GB v případě deaktivace dvou 16bit kanálů sběrnice a odpovídajícího bloku ROP.
Rozhraní a multimedia
Karty budou vybavené rozhraním NVLINK známým již z předchozích generací výpočetních karet. Vypadá to, že jím bude nahrazen dosluhující (pomalý) SLI konektor, ale to Nvidia zatím explicitně nepotvrdila. Další novinkou je již avizovaný VR Link, tedy USB-C konektor rozšířený o čtyři linky DisplayPort. Oproti USB-C je povinnou součástí specifikace napájení pro min. 15 wattů a volitelnou součástí napájení pro až 27 wattů (standardní USB-C má volitelných až 100 wattů).
Prezentace v několika situacích zmínila zkratku „8k“. Ve věci obrazového výstupu však nejde o novinku, 8k rozlišení umožňuje již DisplayPort 1.3 / 1.4. Novinkou je spíše podpora pro encoding 8k HEVC videa, podpora přehrávání (decoding) samozřejmě nechybí. Pokud mi něco neuniklo, nepadla žádná zmínka o verzi HDMI.
Článek byl a může být průběžně aktualizován.