Nvidia představila Ampere: GeForce RTX 3090 bude za $1499
8nm proces Samsungu
Pokud začneme u největších otazníků, které provázely zprávy o generaci Ampere prakticky od počátku, bude první odstavec věnován výrobnímu procesu. Po zprávách o 7nm TSMC i Samsungu se začaly objevovat zvěsti o 8nm nebo 10nm výrobě u TSMC, které se nyní - k částečnému překvapení - potvrzují. Na jednu stranu bylo možné očekávat něco jiného než 7nm proces TSMC s ohledem na TDP, které hned u dvou modelů překonává 300 wattů. Na stranu druhou tu byla odpověď Nvidie, která při dotazu na téma výrobního procesu generace Ampere prohlásila, že většina objednávek je podána na 7nm proces. Nyní je potvrzeno, že všechny ohlášené herní modely vznikají na 8nm linkách Samsungu. Tento proces je derivátem 10nm výroby, oproti které dosahuje zhruba o 15 % lepších parametrů (alespoň podle veřejně dostupných údajů).
GeForce RTX 3070, 3080 a 3090
Zdvojnásobení počtu FP32 jednotek na SM blok
Druhý zajímavý bod se týká konfigurace architektonických bloků SM. Zhruba v polovině srpna jsme vás informovali o tom, že se očekává zdvojnásobení počtu FP32 jednotek na SM blok. Situace se má tak, že stream-procesory v SM byly tradičně vybaveny schopností počítat s plovoucí desetinnou čárkou (FP, Floating Point). Konkrétně u Nvidie tomu tak bylo do architektury Pascal. Poté přišla změna. Volta a Turing mají krom standardního setu FP(32) stream-procesorů i set Int32 (celočíselných) stream-procesorů. Obojích je stejně, 4 skupiny po 16, tedy 64 v každém SM bloku.
Vysvětlení této změny by se dalo stručně shrnout tak, že Int (celočíselné) jednotky jsou menší (než FP). Celočíselného výpočty tedy mohou být prováděny na samostatných menších Int32 jednotkách a není potřeba kvůli tomu vytěžovat FP32 jednotky, které se pak mohou věnovat pouze FP výpočtům. Tím dojde k nárůstu efektivního FP32 výkonu a není potřeba výrazně zvyšovat počet FP32 jednotek, které stojí více křemíku / tranzistorů. Nvidia uváděla, že v přepočtu na FP32 jednotku tato změna umožňuje zvýšení výkonu až o 36 %.
Jenže poměr FP:Int jednotek 1:1 nebyl ideální, neboť současné hry vyžadují spíše hodnoty bližší 2,5:1. Protože se Nvidia v prezentaci podrobněji nezabývala architektonickými detaily, nevíme, zda výše zmíněná změna (zdvojnásobení počtu FP jednotek v SM bloku) byla provedena tak, že ke stávající sadě 64 FP32 a 64 Int32 jednotek byla přidána ještě třetí sada obsahující 64 FP32 jednotek (celkem tedy 128 FP32 a 64 Int32), nebo zda zůstala sada 64 FP32 jednotek a sada 64 Int32 byla rozšířena o podporu FP32 (tzn. 128 FP32 jednotek, které zvládají též Int32 operace).
Výsledkem každopádně je, že každý blok obsahuje 2× tolik FP32 jednotek než doposud a Nvidia každou FP32 jednotku prezentuje jako samostatný stream-procesor (její terminologií CUDA Core), což znamená, že namísto dosud uváděných čísel jako 5248 pro GeForce RTX 3090, 4352 pro GeForce RTX 3080 a 2944 pro GeForce RTX 3070 se budeme setkávat s hodnotami 10 496 pro GeForce RTX 3090, 8704 pro GeForce RTX 3080 a 5888 pro GeForce RTX 3070.
GeForce RTX 2070 Super | GeForce RTX 2080 Super | GeForce RTX 2080 Ti | GeForce RTX 3070 | GeForce RTX 3080 | GeForce RTX 3090 | |
---|---|---|---|---|---|---|
GPU | TU104 13,6 mld. tr. | TU102 | GA104 | GA102 28 mld. tr. | ||
plocha | 545 mm² | 754 mm² | ? | ? | ||
proces | 12 nm TSMC | 8nm Samsung | ||||
takt | 1605 MHz | 1650 MHz | 1350 MHz | 1500 MHz | 1440 MHz | 1400 MHz |
boost | 1770 MHz | 1815 MHz | 1545 MHz 1635 MHz | 1730 MHz | 1710 MHz | 1700 MHz |
SP | 2560 | 3072 | 4352 | 5888 | 8704 | 10496 |
Tensor | 320 | 384 | 544 | ? | ? | ? |
RT Core | 40 | 48 | 68 | ? | ? | ? |
TMU | 160 | 192 | 272 | ? | ? | ? |
ROP | 64 | 64 | 88 | 64 | 80 | 96 |
FP32 | 9,1 | 11,2 | 13,4 / 14,2 | 20,4 | 29,8 | 35,7 |
FP64 | 0,28 | 0,35 | 0,42 / 0,44 | 0,64 | 0,93 | 1,11 |
RT | 7 GR/s | 8 GR/s | 10 GR/s | ? | ? | ? |
RT-OP | 52 T | 63 T | 78 T | 40 T | 58 T | 69 T |
paměti | 8 GB 256bit GDDR6 | 8 GB 256bit GDDR6 | 11 GB | 8 GB | 10 GB | 24 GB |
takt | 14 GHz | 15,5 GHz | 14 GHz | 16 GHz | 19 GHz | 19,5 GHz |
data | 448 GB/s | 496 GB/s | 616 GB/s | 512 GB/s | 760 GB/s | 936 GB/s |
napáj. | 8+6pin | 8+6pin | 8+8 pin | 8-pin | 8+8 pin (12-pin) | 8+8 pin (12-pin) |
TDP | 215 W | 250 W | 250 / 260 W | 220 W | 320 W | 350 W |
vydání | 9. 7. 2019 | 23. 7. 2019 | 20. 9. 2018 | 10. 2020 | 17. 9. 2020 | 24. 9. 2020 |
cena | $499 | $699 | $999 / $1199 | $499 | $699 | $1499 |
Jeden SM blok architektury Ampere tedy bude schopný dosahovat 2× vyšší FP32 výkonu než jeden SM blok architektury Turing (jak to je s Int32 výkonem, zatím nevíme). Pokud jde o výsledné FPS, tvrdila Nvidia u generace Turing, že doplnění setu Int32 jednotek zvyšovalo herní výkon SM bloku na 136 %. Teoreticky bychom se z těchto 136 % Turingu (oproti Pascalu) měli dostat na 200 % (Pascalu), tedy o zhruba 50 % nad Turing. Také je potřeba mít na paměti, že další prvky ovlivňující herní výkon, jako je počet ROP a šířka sběrnice, zůstávají u jednotlivých čipů na hodnotách předchozí generace (96 ROP GA102, stejně jako 96 ROP TU102).
Paměťová sběrnice, paměti a přesuny dat
Nvidia v rámci čipů zachovala šířky paměťových sběrnic, jak bylo dosud zvykem, tedy 384bit pro GPU TU102. Konkrétně karta GeForce RTX 3090 má však tuto sběrnici plně aktivní, na rozdíl od GeForce RTX 2080 Ti, jež jí měla zúženou na 352bit. Plná šířka sběrnice zvyšuje datovou propustnost o 9 %.
Nasazení PAM (pulzně-amplitudová modulace) namísto NRZ (Non Return To Zero) spočívá v tom, že dva stavy při NRZ (0, 1) nahradí stavy čtyři. Každý ze čtyř stavů bude interpretován jako dvojice bitů (00, 01, 10, 11), takže při stejné fyzické frekvenci bude možné přenést 2× více bitů. |
Osazení nových pamětí GDDR6X, které připravovala Nvidia s Micronem a které dosahují vyšší paměťové propustnosti díky technologii PAM (viz výše), umožnilo zvýšit efektivní takt přenosu dat ze 14 GHz na 19,5 GHz, tedy o 39 %).
Kombinací rychlejších pamětí a plně využité sběrnice bylo dosaženo celkového zvýšení datové propustnosti o 52 % (GeForce RTX 2080 Ti -> GeForce RTX 3090).
Výkon
Nvidia ve většině případů demonstrovala výkonnostní posuny při použití raytracingu, což není divu s ohledem na fakt, že RT jednotky mají dosahovat 2× vyššího výkonu. Výkonnostních údajů, které by se prokazatelně netýkaly raytracingu, je zatím málo a určitý nástin přinášejí tři první položky v grafu níže:
Pokud porovnáme výsledky GeForce RTX 2080 Super a GeForce RTX 3080, liší se o 71 % v Borderlands 3, o 62 % v Doom Eternal a 55 % v Red Dead Redemption 2. Další tři sloupce obsahují výsledky s použitím raytracing, což je situace, které se týkala většina prezentovaných údajů o výkonu.
Srovnáme-li GeForce RTX 2070 s GeForce RTX 3070, liší se o 36 % v Borderlands 3, o 43 % v Doom Eternal a 38 % v Red Dead Redemption 2.
Modely
17. září bude vydána GeForce RTX 3080, 24. září GeForce RTX 3090 a nakonec během října GeForce RTX 3070. Za pozornost stojí, že Nvidia pro GeForce RTX 3080 použila největší jádro GA102 namísto obvykle používaného GA104. Jeho pravděpodobné, že GeForce RTX 3080 už od počátku neměla být vybavena čipem GA104. Podle leakera kopite7kimi, který parametry čipů (správné) a použití 8nm procesu zveřejnil již loni začátkem léta, totiž byla v plánu ještě GA103 s 320bit sběrnicí a 3840 (7680) stream-procesory. Tu ale žádná ohlášená karta nenese a s ohledem na finální parametry GeForce RTX 3080, která je nakonec vybavena 4352 (8704) stream-procesory, je cítit, odkud vítr vane. Nvidia se v očekávání konkurenční Navi 21 rozhodla parametry GeForce RTX 3080 posílit a protože byl návrh GA103 uzavřen, rozhodla se jí větším čipem GA102 ořezaným na vyšší počet jednotek, než jakým fyzicky disponovala GA103.
Nejvyšší mezigenerační posun (~60 %?) tedy lze očekávat u GeForce RTX 3080 (oproti GeForce RTX 2080 Super), u GeForce RTX 3070 (oproti GeForce RTX 2070 Super) bude nižší, nejspíš kolem 40 % a v případě GeForce RTX 3090 (oproti GeForce RTX 2080 Ti) půjde o něco mezi - podle toho, zda bude hra těžit spíše z datové propustnosti, aritmetického výkonu nebo fillrate.
Patrně v očekávání konkurenční nabídky tentokrát Nvidia mezigeneračně nezdražila GeForce RTX 3070 a GeForce RTX 3080, které budou stát $499 a $699 jako minulá generace a ke zvýšení ceny došlo pouze u GeForce RTX 3090 ($1499) které se žádný produkt konkurence výkonnostně blížit nebude. Původní GeForce RTX 2080 Ti stála $999-$1199.