GPU Navi 3x budou podstatně menší, Infinity Cache menší ale rychlejší
Ceny nových výrobních procesů (za wafer) rostou skoro na dvojnásobek s každou další generací. Zatímco 65nm nebo 40 nm proces vycházely kolem $2000 za wafer, 5nm proces se přiblíží desetinásobku. Vypadá to, že AMD si již na počátku vývoje grafické architektury RDNA 3 stanovila za jednu z klíčových priorit odstranit vše nepotřebné a z hlediska nároků na počet tranzistorů zefektivnit vše, co v čipu musí zůstat. Je pravdou, že informace o významné redukci plochy (oproti tomu, pokud bychom vzali plochu Navi 21, vynásobili 2,4× a vydělili rozdílem v denzitě 7nm a 5nm procesu) bylo již několikrát slyšet, ale podle aktuálních informací jsou změny ještě podstatně významnější.
Podle webu Angstronomics (který již zveřejnil nějaké exkluzivní informace o Zen 4, ale se kterým co do věrohodnosti nejsou zatím rozsáhlejší zkušenosti) s neochvějnou jistotou předkládá dosud nezveřejněné informace o RDNA 3 a jednotlivých čipech.
RDNA 3 - architektura
OREO
Jedním z prvků podílejících se na zeštíhlení architektury je OREO: Opaque Random Export Order. Dosavadní architektury AMD umožňovaly provádět pixel shader „out-of-order“, což má své podstatné výhody, ovšem zásadní nevýhodou je potřeba mít z tohoto důvodu tzv. Re-Order Buffer, který se využije k přeskládání dat do pořadí vyžadovaném zbytkem pipeline. S OREO může tento hardware další krok (blending) dostávat a provádět operace v libovolném pořadí a exportovat výsledek jako „in-order“. Díky tomu může být velký Re-Order Buffer nahrazen podstatně menším lokálním úložištěm.
FP64 netřeba
S rozdělením vývoje architektur na grafickou RDNA a výpočetní CDNA snížila AMD podporu výpočtů v double-precision / FP64 z 1/2 oproti FP32 na 1/16 oproti FP32. RDNA 3 toto dále posune na 1/32 oproti FP32. FP64 se v grafice nevyužívá a AMD evidentně nevidí důvod jeho podpoře věnovat jakýkoli relevantní počet tranzistorů. Bez ohledu na to výkon v FP64 mezigeneračně neklesne. Vzhledem k tomu že Navi 31 disponuje 2,4× více výpočetními jednotkami a o desítky procent vyššími takty než Navi 21, bude stejně o desítky procent navýšen.
Infinity Cache trochu jinak
Druhou zásadní novinkou, kterou Angstronomics zveřejnil, je změna Infinity Cache. Již víme, že oproti RDNA 2 bude Infinity Cache u čipletových modelů implementována v rámci MCD čipletů, které zároveň obsahují rozhraní pro GDDR6 paměti. Rovněž víme (a Angstronomics potvrzuje), že tyto MCD čiplety umožňují navýšit kapacitu Infinity Cache navrstvením V-cache na MCD. Dokonce byla vyvinuta technologie pro možnost dvou vrstev. Tato možnost však nebude z důvodu nákladů a minimálního přínosu u většiny produktů využita.
Oproti očekávání je však základní kapacita Infinity Cache v každém MCD poloviční. Nikoli 32 MB, ale 16 MB. Při 6 MCD pro Navi 31 to znamená 6× 16 MB = 96 MB Infinity Cache jako základní kapacita. Jak je možné, že AMD mezigeneračně sníží kapacitu Infinity Cache, když má zároveň dojít ke ~zdvojnásobení výkonu? Dosavadní úvahy totiž předpokládaly, že Infinity Cache zůstane taková, jaká byla u RDNA 2. Jenže nezůstane.
Na praktický přínos Infinity Cache (=zvýšení efektivní paměťové propustnosti) mají vliv dvě charakteristiky. Tou první je kapacita, která spoluurčuje, s jakou pravděpodobností se čipem požadovaná data budou vyskytovat v cache (a nebude je potřeba přenášet z GDDR6). Druhou charakteristikou je datová propustnost mezi cache a grafickým jádrem, která definuje, o kolik rychleji tato data budou dostupná oproti přenosu z GDDR6. Podle Angstronomics plánuje AMD podstatně zlepšit propustnost mezi cache a grafickým jádrem, tedy druhou charakteristiku. S ohledem na výše popsanou filozofii přístupu k RDNA 3 je pravděpodobné, že toto řešení je efektivnější z hlediska požadované plochy (než navýšení kapacity při zachování současné propustnosti).
Navi 31
Podle Angstronomics jsou základní údaje leakerů o podobě čipu (1× GCD, 6× MCD, 12288 stream-procesorů, 384 bit sběrnice) správné, ovšem chybná je kapacita Infinity Cache, která ve skutečnosti „v hlavní konfiguraci“ bude 96 MB. Zda tedy model s V-cache / 192MB Infinity Cache bude určen profesionálnímu segmentu, nebo půjde o nějakou limitovanou edici, nebo bude rezervován pro RDNA 3-refresh v příštím roce, zatím není jasné. Krátce se uvažovalo i o verzi se dvěma vrstvami (96 MB základ, 96 MB první vrstva, 96 MB druhá vrstva = 288 MB celkem), ale ta byla zavrhnuta jako nerentabilní.
GCD má však dosahovat podstatně nižší plochy, než aktuálně uváděných „mírně přes 350 mm²“. Půjde spíše o „mírně přes 300 mm²“, konkrétně o 308 mm². MCD čiplety pak měří jen 37,5 mm², což znamená, že při plné konfiguraci s šesti MCD bude Navi 31 vybavena asi 533 mm² křemíku (96 MB Infinity Cache, 384bit sběrnice) a verze s pěti MCD 495,5 mm² (80 MB Infinity Cache, 320bit sběrnice).
GPU | WGP | SP | sběrnice | RAM | TDP | |
---|---|---|---|---|---|---|
Radeon RX 7975 XT | Navi 31 6× 37,5 mm² | 48 | 12288 | 384bit | 24 GB | 405W |
Radeon RX 7950 XT | 44* | 11264* | 384bit | 24 GB | 375W | |
Radeon RX 7900 XT | 40 | 10240 | 320bit | 20 GB | ? | |
Radeon RX 7800 XT | Navi 32 200 mm²+ 4× 37,5 mm² | 32 30 | 8192 7680 | 256bit | 16 GB | ? |
Radeon RX 7800 | 28 | 7168 | ? | ? | ? | |
Radeon RX 7700 XT | 24 | 6144 | 192bit | 12 GB | ? | |
Radeon RX 7600 XT | Navi 33 203 mm² | 20 16 | 5120 4096 | 128bit | 8 GB | 225W? |
Radeon RX 7600 | ? | ? | 128bit | 8 GB | ? | |
Radeon RX 7500 XT* | 10 | 2560 | 96bit | 6 GB | ? |
* = nejisté
? = neznámé
Navi 32
V případě středního GPU se dosavadní zprávy lehce mýlily v maximálním počtu stream-procesorů. Hodnota 8192 (tedy 2/3 Naví 31) není správně, jádro jich fyzicky nese 7680 (je možné, že leakeři měli informaci o čipu se 7680, ale pokládali ho za ořezaný model a hodnotu „zaokrouhlili“ na 8192).
Jinak odpovídá očekávaná konfigurace 1× GCD + 4× MCD, 256bit sběrnice. Opět je ovšem konfigurace Infinity Cache poloviční, 64 MB. Osazení V-cache se neočekává. Plocha centrálního / GCD čipletu je pouze kolem 200 mm², což s čtveřicí MCD po 37,5 mm² dává celkem 350 mm².
Navi 33
Nejmenší z trojice GPU je monolitické a 128bit, jak se dosud očekávalo. Nedávný návrat zvěstí o variantě s 5120 stream-procesory Angstronomics vyvrací, jádro fyzicky nese 4096 stream-procesorů. Nejasnosti okolo konfigurace může vysvětlovat existence různých konfigurací na papíře, z nichž byla nakonec zvolena monolitická s 4096 stream-procesory. Potvrzena však byla i existence čipletové s 4608 stream-procesory - to však bylo nakonec vyhodnoceno jako v tomto segmentu méně ekonomicky efektivní.
Navi 33 ponese 32 MB Infinity Cache a jejím primárním účelem (alespoň co do očekávaného objemu prodejů) bude mobilní segment. Plocha 203 mm² se při zohlednění 6nm procesu jeví jako až neuvěřitelně nízká (Navi 23 / Radeon RX 6600 XT s 2048 stream-procesory měří 237 mm²). Nicméně to koresponduje s dalším tvrzením Angstronomics a to, že jeden WGP RDNA 3 (256 stream-procesorů) RDNA 3 je na stejném procesu menší než jeden WGP RDNA 2 (128 stream-procesorů).
S výkonem nad top modelem Intel Alchemist budou výrobní náklady Navi 33 méně než poloviční a energetické nároky nižší.
Navzdory tomu, že již podstatná část specifikací GPU Navi 3x unikla, nebyly všechny údaje přesné. Rovněž rozsah optimalizací pro úsporu tranzistorů lze považovat za silně podceněný. Těžko však - při takto rozsáhlých změnách - odhadovat výkon výsledného řešení. Přinejmenším je potřeba připustit, že doposud udávané údaje mohou být - stejně jako doposud uváděné parametry - mírně nepřesné.