Radeony RX 9070 (XT) ohlášeny: technologické novinky, specifikace, architektura
Začněme u rámcových specifikací. Ty jsou již nějakou dobu známé a AMD je de facto jen potvrdila. Za zmínku snad stojí jen skutečnost, že dlouho nejistý počet ROP jednotek (některé zdroje hovořily o snížení počtu na 64) je minulostí a specifikována je hodnota 128.
Radeon RX 9060/9050 | Radeon RX 9060XT | Radeon RX 9070 | Radeon RX 9070XT | |
---|---|---|---|---|
GPU | Navi 44 | Navi 48 53,9 mld. tranz. | ||
Plocha | ~180 mm² | 356,5 mm² | ||
Výr. proc. | 4nm TSMC | 4nm TSMC | ||
Architekt. | RDNA 4 | |||
takt | ? | ? | 2070 MHz 2520 MHz | 2400 MHz 2970 MHz |
SPs | 2048 | ? | 3584 | 4096 |
TMUs | 128 | ? | 224 | 256 |
ROPs | ? | ? | 128 | 128 |
FP32 TFLOPS | 21,5 | ? | 36,1 | 48,7 |
FP16 TFLOPS | 43 | ? | 72,3 | 97,3 |
Paměti | 8 GB 128bit GDDR6 | 12 GB 192bit GDDR6 | 16 GB 256bit GDDR6 | 16 GB 256bit GDDR6 |
Takt pam. | 18 GHz | 19 GHz? | 20 GHz | 20 GHz |
Dat. prop. | 288 GB/s | ~450 GB/s | 640 GB/s | 640 GB/s |
∞$ | 32 MB | 48 MB? | 64 MB | 64 MB |
TDP / TBP | 1xxW | ~200W? | 220W | 304W |
Napájení | 8pin | ? | 8+8pin | 8+8pin |
Výstupy | ? | ? | HDMI 2.1b 3× DP 2.1a | HDMI 2.1b 3× DP 2.1a |
FreeSync | ![]() | |||
Rozhraní | PCIe 5 ×8? | PCIe 5 ×16 | PCIe 5 ×16 | PCIe 5 ×16 |
API | DirectX 12U Vulkan | |||
Vydání | Q2 2025? | Q2 2025? | 6. 3. 2025 | 6. 3. 2025 |
Dob. cena | ? | ? | $549 | $599 |
Podívejme se na některé prvky jádra podrobněji.
Diagram jádra Navi 48 (AMD)
Paměťový subsystém
Začněme tentokrát od konce. Grafické jádro Navi 48 je vybaveno 256bit sběrnicí, na čemž není nic nového, které je osazeno 20Gb/s GDDR6 pamětmi, na čemž rovněž není nic nového. Právě proto, že výkon roste, ale sběrnice i paměti zůstávají, byly potřeba nějaké kroky ke snížení nároků na datovou propustnost. Jedním z nich bylo vylepšení kompresních algoritmů, druhým navýšení cache. Zatímco v posledních letech se ubírá pozornost ke cache poslední úrovně (LLC), což je v případě AMD L3 / Infinity Cache, jež se sice posunula generačně, nikoli však kapacitně, trochu stranou pozornosti zůstává rychlejší L2 cache. Ta už řadu generací nabývala v případě 256bit GPU 4MB capacity: (proti proudu času): Radeon RX 7800 XT / Navi 32, Radeon RX 6900 XT / Navi 21, Radeon RX 5700 XT / Navi 10). Radeon RX 9070 (XT) / Navi 48 přináší 8MB L2 cache. 64+8 (celkem 72) MB souhrnné cache může mít o něco vyšší nároky na plochu křemíku, než 64 MB u Nvidia GB203; na druhou stranu to umožňuje efektivní použití levnějších pamětí, GDDR6.
Compute Unit
Rámcová podoba základního stavebního bloku výpočetního jádra zůstala zachována, ale prakticky všechny její části byly významně přepracované.
CU architektury RDNA 4 (AMD)
Aritmetický výkon CU na takt stoupl ve formátech fp16 a bf16 na dvojnásobek, v i8 a i16 dokonce na čtyřnásobek. RDNA 4 nově podporuje i režimy sparsity (u AMD dosud jen v dedikovaných akcelerátorech architektury CDNA nebo v NPU). Pokud jej aplikace umí využít, znamená to pro tuto architekturu oproti jejímu předchůdci v fp16/bf16 formátech čtyřnásobný posun výkon, v i8/i4 dokonce osminásobný.
CU (op./takt) | RDNA 4 | RDNA 3 |
---|---|---|
FP32 | 256 | 256 |
FP64 | 4 | 4 |
fp16 | 1024/2048 | 512 |
bf16 | 1024/2048 | 512 |
fp8 | 2048/4096 | - |
bf8 | 2048/4096 | - |
i8 | 2048/4096 | 512 |
i4 | 4096/8192 | 1024 |
Osminásobný posun výkonu se týká i nově podporovaných formátů fp8/bf8, které RDNA 3 nepodporovala (pak musely být použity pomalejší fp16/bf16).
Dynamická alokace registru RDNA 4 (AMD)
Jednou z nejvýznamnějších novinek RDNA 4 je dynamická alokace registrů. Oproti RDNA 3 už není alokována kapacita podle nejnáročnější možné situace, ale tak, aby dostupná kapacita registru byla využita co nejoptimálněji. V případě potřeby lze zvýšit alokovanou kapacitu (a zase snížit). Díky tomu lze využívat výpočetní jádra efektivněji a snižovat latence. S dynamickou alokací registrů jsme se dosud (v různých formách) setkávali spíše u integrovaných grafik (Apple M3, Intel).
Raytracing na RDNA 4 (AMD)
AMD zaměřila hodně pozornosti na vylepšení výkonu při použití raytracingu. Již uniklé výsledky, kterým jsme se věnovali minulý týden (Radeony RX 9070 (XT) vypadají na $539-549 a 599, 35 FSR4 her, výkon ~RTX 5070 Ti), potvrzují velmi zajímavý výkonnostní posun - jinými slovy, že to funguje
Cyberpunk 2077 RT Ultra in 4K (custom scene, no upscaling)
|
Pozoruhodné na tom je, že tohoto výsledku AMD dosáhla optimalizací stávajícího přístupu, kdy pro akceleraci raytracingu v maximální možné míře využívá stávajícího hardwaru. Tranzistory navíc přidává jen tam, kde to má podstatný dopad na výkon. Jinými slovy, ani RDNA 4 neobsahuje samostatné hardwarové jednotky BVH traversal.
AMD se s RDNA 4 výrazně zaměřila na efektivitu výpočetních jednotek (rasterizace, ray-tracing, AI akcelerace) i paměťových přenosů. Výrazné změny prodělala i multimediální výbava a výstupy, na což se podíváme příště.
AMD