Podrobně: Co přináší architektura Navi / RDNA a Radeony RX 5700?

12. 6. 2019 | no-X | Hardware, Novinky, Grafiky

AMD odhalila architekturu RDNA, Radeony RX 5700, datum dostupnosti, ceny i multimediální novinky. Pojďme si je probrat…

Začněme u specifikací Radeonu RX 5700 a Radeonu RX 5700 XT, jak se novinky jmenují. Obě zakládají na stejném 7nm GPU Navi, které nese 10,3 miliard tranzistorů. To je méně než u obou velkých GPU Vega. Nejbližší srovnání najdeme v nabídce Nvidie, u GPU Turing TU106 použitém na GeForce RTX 2070 a GeForce RTX 2060. Obsahuje o 300 milionů tranzistorů více, celkem 10,6 miliardy. Právě jemu a jmenovaným kartám nové Radeony konkurují. GPU Navi dosahuje plochy 251 mm², což je o trochu méně, než uváděla většina odhadů.

Taktovací frekvence jsou tentokrát ve specifikacích tři. Nejnižší (základní) bude použita při enormní zátěži, prostřední v běžné herní zátěži a nejvyšší je strop, ke kterému se jádro může přiblížit za souhry příznivých okolností.

	Radeon RX 5700	Radeon RX 5700 XT	Radeon RX Vega 64	Radeon VII
GPU	Navi 10,3 mld. tr.		Vega 10 12,5 mld. tr.	Vega 20 13,2 mld. tr.
Plocha jádra	251 mm²		484 mm²	331 mm²
Výrobní proces	7nm TSMC		14nm LPP GF	7nm TSMC
Architektura	Navi / RDNA		Vega / GCN 5
Frekvence base / game / boost	1465 MHz 1625 MHz 1725 MHz	1605 MHz 1755 MHz 1905 MHz	1247 MHz 1546 MHz	1450 MHz 1750 MHz 1800 MHz
SPs	2304	2560	4096	3840
TMUs	144	160	256	240
ROPs	64	64	64	64
FP32 (TFLOPS)	7,9	9,8	12,7	13,8
FP16 (TFLOPS)	15,9	19,5	25,3	27,6
Paměti	8 GB 256bit GDDR6	8 GB 256bit GDDR6	8 GB 2048bit HBM2	16 GB 4096bit HBM2
Frekvence pamětí	14 GHz	14 GHz	1888 MHz	2 GHz
Dat. propustnost	448 GB/s	448 GB/s	483 GB/s	1024 GB/s
TGP	nespec.	nespec.	220 W	?
TDP / TBP	180 W	225W	295 W	300 W
Napájení	6+8 pin	6+8 pin	8+8 pin	8+8 pin
Výstupy	HDMI 2.0b 3× DP 1.4 +DSC 1.2a		HDMI 2.0b 3× DP 1.4	HDMI 2.0b 3× DP 1.4
TrueAudio	?	?	Next	Next
XDMA CF	?	?
FreeSync
Rozhraní	PCIe 4.0 ×16		PCIe 3.0 ×16	PCIe 3.0 ×16
API	DirectX 12 Vulkan		DirectX 12 Vulkan	DirectX 12 Vulkan
Vydání	7. 7. 2019		30. 7. 2017 14. 8. 2017	7. 2. 2019
Chlazení	vzduch.		vzduch.	vzduch.
Cena	$379	$449	$599	$699

K většině parametrů se dostaneme postupně, snad jen přítomnost PCIe 4.0 rozhraní stojí za zdůraznění, samostatnou kapitolu nedostane.

Při prvním pohledu na diagram jádra je patrné, že většina „zaručených zpráv“ o této architektuře neměla s realitou mnoho společného. Jádro, fyzicky nesoucí 2560 stream-procesorů, 160 texturovacích jednotek a 64 ROP, je uspořádáno odlišně, než jsme byli u všech dosavadních čipů řady GCN zvyklí. Staví na Compute Units o 64 stream-procesorech a čtyřech texturovacích jednotkách, takže základní idea zůstává, ale přináší řadu změn ve všech ohledech. Jádro se dělí na dvojici segmentů nazvaných Shader Engine. Každý Shader Engine integruje dvojici identických bloků (vyznačených červeně), které obsahují 5× Dual Compute Unit, jednotku pro zpracování polygonů, rasterizér, 16 ROP jednotek a L1 cache.

Všimněte si, že geometrický procesor není segmentovaný jako u GCN, ale čip nese jeden centrální, který obsluhuje všechny čtyři červené bloky. ROPs a rasterizér jsou úzce spjaté s jednotlivými bloky, segmentované.

Cache a delta komprese

Kompletního přepracování se dočkal systém cache. Každý blok nyní disponuje vlastní L1 cache, takže cache na úrovni Compute Unit nově nese označení L0. Její rychlost byla až zdvojnásobená oproti GCN. Nový systém přináší víceúrovňovou hierarchii, která na GCN chyběla. Umožňuje snižovat objemy přenesených dat, což na jedné straně zvyšuje efektivní přenosovou rychlost a na druhé snižuje energetické nároky.

Kromě jiného také snižuje latence, takže čekání na cache může být až o čtvrtinu kratší oproti GCN.

Pokud jde o efektivnější datové přenosy, přispívá jim krom nové struktury cache také vylepšený algoritmus delta komprese, která je s Navi / RDNA podporována i na úrovni všech podstatných prvků uvnitř čipu, takže data proudí i uvnitř čipu komprimovaně. Vylepšení algoritmu delta komprese je v podstatě jediný zveřejněný prvek, který má potenciál snížit nároky na propustnost paměťové sběrnice. Což stojí za pozornost vzhledem k tomu, že z takové úpravy nelze již příliš získat (jde v podstatě o čtvrtou generaci delta komprese na hardwaru AMD) a přitom je Navi schopna dosahovat až 90 % výkonu Radeonu VII při 44 % jeho paměťové propustnosti. Buďto se nějakými změnami souvisejícími s využitím sběrnice AMD nepochlubila, nebo zkrátka Vega nebyla co do paměťové propustnosti tak neefektivní, jak se tvrdilo, jako spíš vybavená vyšší datovou propustností, než bezpodmínečně potřebovala.

Aritmetika : fillrate a souvislost s taktovací frekvencí

Pokud bychom srovnávali Navi s Polaris, sáhla AMD po jedné změně, která se netýká ani tak architektury jako spíš filozofického přístupu. Zatímco Polaris i Navi mají velmi podobný počet stream-procesorů a texturovacích jednotek, počet ROP se s Navi zdvojnásobil (32->64). Tradiční strategie AMD a ještě ATi preferovat vysoký poměr aritmetiky : fillrate dobře fungoval, dokud byla AMD schopna grafické čipy optimalizovat pro vysoké takty a fillrate se v podstatě dohnal frekvencí. Na optimalizace návrhu pro vysoké taktovací frekvence ale od škrtů za vedení Roryho Reada nebyly prostředky, takže první tři generace GCN nejen, že taktovací frekvenci neposouvaly, ale spíše ještě snižovaly. Kupříkladu Fiji ze třetí generace GCN nezvládala ani s vodním chladičem přetaktování o nic lépe než většina čipů z první generace GCN. Polaris takty zvýšila jen výrobním procesem a první pokus o zvýšení taktů oproti první generaci GCN nastal až s Vegou.

Pouze část posunu taktovacích frekvencí Vegy oproti Polaris šla však na vrub těmto optimalizacím - zbytek vyplynul z prostého nastavení vysokého taktu mimo energetické optimum čipu. V podstatě co nejvýš, bez výraznějšího ohledu na spotřebu. Zvýšení taktů Vegy „za každou cenu“ vyplývalo z potřeby posunu produktu na výkonnostní úroveň, u které lze žádat cenu, při níž nebude problém zaplatit dražší HBM paměti. S Navi došlo k dalším optimalizacím návrhu, AMD využila zkušeností s návrhem Zenu a po stránce taktů dohnala velkou část skluzu, k němuž došlo v letech 2012-2017.

Díky zvýšení počtu ROP na 64 je Navi schopna dosahovat podobných hodnot fillrate jako konkurence. Oproti Radeonům RX 590 nebo RX Vega 64 není potřeba jádro taktovat na strop jeho potenciálu, ale v herní zátěži může běžet pár set MHz pod ním, což lze chápat jako jeden z kroků k lepší energetické efektivity. Radeon RX 5700 XT tak při TDP totožném s Radeonem RX 590 nabízí o 70 % vyšší výkon.

Energetická stránka

Oproti Radeonu RX Vega 64 je energetická efektivita Navi zhruba o 50 % vyšší. Z této poloviny navíc jde podle AMD přibližně 60 % na vrub zvýšeného IPC, kolem 25 % na výrobní proces a asi 15 % lepší optimalizaci návrhu. V praxi nabídne Radeon RX 5700 XT oproti Radeonu RX Vega 64 o 14 % vyšší výkon při o 23 % nižší spotřebě, což (1,14/0,77 = 1,48) odpovídá onomu ~50 % posunu.

Výpočetní jádro

Vraťme se k výpočetnímu jádru, na jehož úrovni se odehrály velké změny. Lze je považovat za největší od nasazení GCN nebo výraznější než mezi některými architektonickými generacemi Nvidie. První klíčovou novinkou, kterou se RDNA liší od GCN, je schopnost zpracovávat úlohy po 32 vláknech namísto po 64 u GCN. Přesněji řečeno, RNDA může volit, zda bude wavefront dosahovat 32 vláken nebo 64, ale první hodnota je chápána jako nativní. Nikoli bezdůvodně. SIMD byl rozšířen ze 16 slotů na 32, takže wavefront se 32 vlákny odpovídá hardwarové konfiguraci 32 slotů, což zvyšuje efektivitu jejich využití.

Druhá klíčová změna, která s tím přímo souvisí, je možnost postoupení wavefront v jediném taktu namísto čtyř u GCN. Třetí výrazná změna se týká dvou skalárních jednotek na Compute Unit (namísto jedné u GCN) a čtvrtá uspořádání Compute Units po dvojicích. Výhoda spočívá mimo jiné v tom, že dvě Compute Units mohou mít jednu společnou větší cache, což je v některých situacích výhodnější než dvě poloviční oddělené cache pro každou zvlášť. Za páté, instrukční rychlost se oproti GCN zdvojnásobila.

Přestože v předchozích odstavcích byla řeč o násobcích, je nutné mít na paměti, že pro typickou zátěž nebyla GCN nijak extrémně neefektivní a tyto změny se neprojeví násobením průměrného herního výkonu. Projeví se násobením výpočetního potenciálu v situacích či spíše okamžicích, kdy GCN byla limitována některým prvkem, který RDNA posílila. AMD neuvádí žádná konkrétní čísla, ale osobně si myslím, že na herních FPS se tyto změny - byť rozsáhlé a jistě na vývoj náročné - projeví menší měrou, než přinesla prostá změna poměru aritmetických jednotek ku ROP (zdvojnásobení oproti Polaris).

Multimédia

Sáhněme do jiného soudku - multimédiálního. Výbava pro video dosáhla značného vylepšení. Enkodér je o 40 % rychlejší, takže je možné hardwarově komprimovat 1080p při až 360 FPS a to jak pro H.264, tak H.265. 4k rozlišení zvládá Navi komprimovat do H.265 při 60 FPS, do H.264 při 90 FPS. Rychlost dekódování je oproti těmto číslům většinou více než o polovinu vyšší. Novinkou je přehrávání 8K při 24 FPS (pro H.265 a HEVC).

U obrazových výstupů se sice nezměnila generace podporovaných standardů, změnila se však podpora komprese. DisplayPort 1.4 umožňuje přenos komprimovaných obrazových dat a Navi přináší podporu standardu Display Stream Compression 1.2a. Jde o zásadní prvek pro 4k monitory (a vyšší) s obnovovací frekvencí 144 Hz (a vyšší), protože standard DisplayPort 1.4 již tuto kombinaci v plné kvalitě nezvládá.

Nvidia to u současného hardwaru řeší barevným podvzorkováním (snížením barevného rozlišení na polovinu), což má negativní dopad na obrazovou kvalitu. S využitím DSC komprese se lze degradaci barevného rozlišení vyhnout a dosahovat vysokých obnovovacích frekvencí i na panelech s vysokým rozlišením.

Srovnání s konkurencí

Radeon RX 5700 XT (Navi) staví AMD oproti GeForce RTX 2070 (TU106). Jak již bylo zmíněno, oba čipy jsou na tom podobně co do rozpočtu tranzistorů: Navi 10,3 miliardy, TU106 10,6 miliardy. 3 % tranzistorů navíc u TU106 můžete brát jako právě ta 3 %, která Nvidii stály raytracing jednotky. Z hlediska počtu tranzistorů jde tedy o poměrně vyrovnaný boj.

Jenže o poměrně vyrovnaný boj půjde i z hlediska paměťové propustnosti. GeForce RTX 2070 disponuje 256bit sběrnicí osazenou 8 GB 14GHz GDDR6, Radeon RX 5700 XT také disponuje 256bit sběrnicí osazenou 8 GB 14GHz GDDR6.

Ani tím to nekončí. GeForce RTX 2070 je vybavena 64 ROP jednotkami. Radeon RX 5700 XT je také vybaven 64 ROP jednotkami. Stále však můžeme pokračovat: přes trochu jiné značení frekvencí můžeme srovnávat i typické herní takty. Víme, že GeForce RTX 2070 v herní zátěži běhá na zhruba 1750 MHz, tedy na stejných taktech jaké AMD avizovala pro Radeon RX 5700 XT.

AMD však do Navi dokázala vměstnat mírně vyšší počet stream-procesorů (2560) a texturovacích jednotek (160) než Nvidia do TU106 (2304 a 144). Je možné, že právě díky tomu má Radeon RX 5700 XT nabídnout výkon mírně vyšší než GeForce RTX 2070. Každopádně lze říct, že půjde o velmi zajímavý souboj, ze kterého by Navi měla co do poměru výkon na tranzistor a takt vyjít jako vítěz. Turingu ovšem zůstane vyšší energetická efektivita.

Zpracování a chlazení

Referenční Radeon RX 5700 XT nabídne odstředivý chladič, který však na rozdíl od chladiče Polaris nesází na hliníkový pasivek s měděným jádrem, ale masivní měděnou vapor chamber rozvádějící teplo od jádra k lamelám chladiče.

AMD tvrdí, že si tentokrát dala záležet na návrhu turbíny, aby kombinovala vysoký průtok vzduchu s nízkou hlučností. Napájení je realizováno kombinací šestipinového a osmipinového konektoru, high-endové napájecí obvody slibují proudovou rezervu pro přetaktování.

Herní bonusy

AMD ale chce dát hráčům důvody, proč koupit Radeony RX 5700. Krom ceny o $50 nižší oproti GeForce RTX a mírně vyššímu výkonu připravila dvě novinky.

První nazývá FidelityFX, open source efekty, které zahrnují kromě jiného algoritmus pro adaptivní zostření textur. AMD ohlásila, že 18 studií pracuje na zahrnutí FidelityFX do svých her či enginů.

Aby nepřišli zkrátka uživatelé stávajících her, přišla s obdobnou funkcí, kterou lze zapnout na úrovni ovladačů - bez potřeby podpory ze strany hry. Nazývá se RIS - Radeon Image Sharpening - a téměř bez dopadu na výkon (propady okolo 1 %) umožňuje zostřit herní obraz.

Druhým bonusem je pak RAL: Radeon anti-lag. Tato funkce zkracuje odezvy mezi kliknutím myši a reakci na obrazovce o čtvrtinu až třetinu a to bez ohledu na snímkovou frekvenci.

Uživatelům, kteří si pořídí Radeon RX 5700 nebo vybrané modely nových Ryzenů, zařídila AMD u Microsoftu tříměsíční Xbox Game Pass PC jako nový bundle.

Výhled

Další generací, která přijde po Navi / RDNA / Radeonech RX 5700, bude starý známý „Next Gen“ postavený na architektuře RDNA2 a 7nm+ výrobním procesu (EUV). Pro tuto generaci potvrdila AMD hardwarovou akceleraci raytracingu.