Radeon RX Vega, damage control článek
Shrnující článek nebyl v plánu hlavně proto, že AMD nezveřejnila téměř žádné doposud neznámé zásadní architektonické novinky - již známé informace doplnily spíše drobné detaily, a tak je tentokrát zajímavější omáčka kolem než samotné základy.
GPU, jádro a pouzdro
Na GPU Vega 10, tedy prozatím jediné vydané GPU z řady Vega, lze nahlížet mnoha různými způsoby. AMD evidentně na situaci nahlíží poměrně pragmaticky: Vega 10 je pro společnost náhradou za GPU Fiji (řada Radeon Fury), oproti kterému výrazně snižuje plochu jádra (o 112 mm², Fiji je téměř o čtvrtinu větší než Vega 10). Dále nahrazuje 4096bit sběrnici užší 2048bit, což z ~95 % kompenzuje použitím rychlejších paměti (HBM->HBM2). V důsledku toho jsou namísto čtyř HBM čipů/modulů osazeny jen dva. A zase v důsledku toho (v kombinaci s menším jádrem) byla zmenšena křemíková podložka (interposer). Opět v důsledku toho je menší i celé pouzdro a následně i nároky na plochu zabranou na PCB.
Vega 10 (vlevo) a Fiji (vpravo), foto Anandtech
Je zřejmé, že cílem všech těchto zásahů bylo snížení výrobních nákladů. S ohledem na ceny velmi podobné minulé generaci to pro společnost znamená prostor pro zvýšení rentability high-endového produktu.
Energetická stránka
S pouzdrem souvisí i jedna věc, která se týká spotřeby. AMD donedávna uváděla u grafických karet především tzv. TDP či TBP (total board power), údaj ve wattech, který se týkal celé karty. Občas u některého produktu zveřejnila i limit čistě pro jádro. To ale v případě Vegy 10, která v rámci pouzdra integruje i paměti, nemá smysl, a tak došlo na údaj nazvaný TGP, který znamená Total Graphics Power a týká se spotřeby celého pouzdra (GPU + paměti):
model | TGP (GPU+HBM) | TBP (karta) |
---|---|---|
Radeon RX Vega Nano | 150 W | ? |
Radeon RX Vega 56 | 165 W | 210 W |
Radeon RX Vega 64 | 220 W | 295 W |
Rozdíl v obou hodnotách tak odpovídá osazenému PCB, přičemž největší procento budou tvořit napájecí obvody. TBP/TDP pro Nano zatím neznáme, ale s ohledem na závislost rozdílu na spotřebě bychom mohli očekávat hodnoty kolem 180-185 wattů.
Další podstatnou informací je, že v červnu vydaný Radeon Vega Frontier Edition neměl aktivní všechny technologie pro řízení spotřeby, kterými jsou vybavené Radeony RX Vega. To už je patrné i z poměrů taktovacích frekvencí a TBP/TDP limitu:
model | takty | TBP |
---|---|---|
Radeon Vega Frontier Edition LC | 1382 / 1600 MHz | 375 W |
Radeon RX Vega 64 LC | 1406 / 1677 MHz | 345 W |
Na běžnou spotřebu a poměr výkon na watt mají vliv i další aspekty, například:
Tile-based rasterizér
V červnu jsme vám exkluzivně přinesli informaci, že Radeon Vega Frontier Edition nemá aktivní tile-based rasterizér, respektive - jak svoji implementaci AMD nazývá - Draw Stream Binning Rasteriser (DSBR). Díky této technologii jsou při rasterizaci data zpracovávána po malých úsecích, jejichž objem se vejde do cache uvnitř čipu, takže dochází ke snížení objemů datových přenosů mezi GPU a pamětmi. Důsledkem je i snížení energetických nároků - v případě čipu s HBM pamětmi, které už ale samy o sobě úsporné jsou, není nijak extrémní.
Podstatnou informací je, že AMD potvrdila, že s dosavadními ovladači je pro Radeon Vega Frontier Edition skutečně DSBR neaktivní. V ovladačích pro Radeon RX Vega aktivní bude, ale jak bylo zveřejněno již v zimě v prvním architektonickém preview, nebude zapnut paušálně, ale spíše na základě toho, zda v konkrétní aplikaci má jeho nasazení smysl nebo ne. Pokud např. herní engine provádí HSR (odstranění skrytých povrchů), jsou dopady DSBR minimální a teoreticky mohou být i negativní, protože dochází k duplikaci kroku, který byl již proveden na úrovni enginu hry.
AMD ilustrovala dopady ve hrách výše uvedeným grafem, který vyjadřuje snížení datových přenosů při vykreslení snímku. To může být kdekoli mezi cca 5 a 30 %. Ještě pestřejší mohou být dopady na výkon:
Patrně nejlepším výsledkem, kterého se AMD podařilo dosáhnout, je test energy-01 ve SPECviewperf 12, kde skóre po zapnutí DSBR stoupá na dvojnásobek. Reálně však bude rozumnější očekávat dopady blízké úspoře datových přenosů, tedy předchozímu grafu.
Nový rasterizér zvládá i tzv. konzervativní rasterizaci, díky niž je určité efekty možné zpracovávat rychleji. Samozřejmě za předpokladu, že jej aplikace využívá. Přestože jako první s podporou konzervativní rasterizace přišla Nvidia s architekturou Maxwell, nepodařilo se jí dosud nasazení této technologie ve hrách prosadit, a tak je otázkou, zda podpora i na straně AMD bude mít na rozšíření této technologie nějaký efekt. Vega podporuje konzervativní rasterizaci na vyšší úrovni než Pascal, což v praxi znamená navíc režim „underestimated“ pro efektivnější occlusion culling.
Packed math, alias nativní Int16 / FP16 (×2)
DSBR je jedním z prvků, který architektuře Vega zvyšuje výkon na takt a to u všech grafických aplikací, kde ho má smysl použít. Není ale zdaleka jediný. Další, který se ale liší požadavkem na podporu ze strany aplikace, je rychlá podpora FP16 výpočtů. Ty umožňuje Vega provádět 2× rychleji než FP32 výpočty. Rychlejší FP16 nabízejí například některá integrovaná GPU Intelu (Gen8 / Broadwell a novější), některá integrovaná GPU Nvidia (novější Tegry) a velká výpočetní GPU Nvidia (GP100 a nadcházející GV100). AMD je však jediná, která rychlé FP16 nabízí i u karet určených pro grafiku, hry.
Z hlediska her není FP16 použitelné jako rychlejší a univerzální náhrada FP32. Vyšší přesnost má často své opodstatnění - jsou ale případy, kdy opodstatnění nemá a je do jisté míry koulí na noze, která grafickým čipům zůstala v době unifikace shaderů. Zatímco pro pixelové operace se před unifikací vyžadovala ze strany DirectX (9) přesnost FP24, pro geometrické byla třeba FP32. S unifikací (DirectX 10) se nastavil požadavek na jednotných FP32. Situací, kdy ale dostačuje i nižší přesnost, aniž by se to mohlo projevit na vizuální stránce, je ale stále nezanedbatelné množství.
Pokud se tedy vývojář hry rozhodne FP16 využít a ví přesně, kde a za jakých podmínek si to může dovolit, může urychlit vykreslování některých dílčích kroků a přidat tím nějaké FPS navrch. Co vás asi zajímá nejvíc, je kolik výkonu může FP16 přidat. Opět záleží na tom, do jaké míry je v dané hře (enginu) využitelné a jak zběhlý je vývojář v jeho nasazení.
Pro úplnost je třeba říct, že stávající API (DirectX 12 a Vulkan) již s FP16 počítají, takže vývojáři nemusejí na nic čekat. Jednou z prvních ukázek, která má za úkol spíše ilustrovat teoretický rozdíl, bude test od Futuremarku. Pokud jde o klasické hry, pak zřejmě první dostupným titulem bude Wolfenstein 2: New Colossus, který využívá Vulkan, FP16 a dostupný by měl být asi za dva měsíce. Pod DirectX si prim nejspíš odnese Dunia engine od Ubisoftu, první hrou pak bude Far Cry 5. Využití FP16 ve hrách podporuje i Sony, která si podporu packed-math vyžádala na APU v Playstation 4 PRO.
AMD na testu Serra od Futuremark ilustruje, že na dílčích krocích renderingu lze s použitím 16bit přesnosti získat 20-25 % výkonu navíc.
Z prezentace Frostbite „4K Checkerboard in Battlefield 1 and Mass Effect Andromeda, Graham Wihlidal“
Čísla před časem zveřejnil i Frostbite, který na Playstation 4 Pro využívá 16bit přesnost pro checkerboard resolve shader (šachovnicový rendering). V tomto kroku je pak použití FP16 o 30 % rychlejší než FP32. Z dalších významných enginů již FP16 podporuje Unreal Engine, prozatím ve verzi pro konzole, rozšíření do PC verze je tak otázkou času.
Rychlá podpora Int16 / FP16 samozřejmě najde uplatnění především ve výpočetní sféře a AI. Vega podporuje i výpočty v Int8. Ty najdou uplatnění v AI a některých multimediálních operacích.
Geometrie, teselace
Dalším prvkem, který může ovlivnit výkon oproti předchozím generacím GCN, je inovované zpracování geometrie. To bude mít samozřejmě na celkový herní výkon dopad (jen) tehdy, byl-li na předchozích generacích limitujícím prvkem právě geometrický výkon. Obecně ale lze říct, že (i díky DSBR) si Vega s velkým množstvím malých polygonů poradí lépe než předešlé generace a výrazně lépe než generace předcházející Polaris / GCN 4.
Vega podporuje dva způsoby zpracování geometrie. První je klasický, tradiční, jak byl navržen podle požadavků DirectX. Díky architektonickým změnám v kombinaci s výrazným zvýšením taktů u Vegy je až o 75 % rychlejší (v odstraňování polygonů) než u Fiji. Ten je přístupný všem stávajícím aplikacím.
Druhý způsob vychází z překopání klasické geometrické pipeline definované directy. Ta vznikala postupně, evolučně a dá se říct, že byla lepena jako vosí hnízdo. Vznikl tak systém, který po teselaci aplikuje vertex shader, domain shader a geometry shader - v rámci samostatných stupňů, protože GPU nejdříve podporovala vertex shader, až později přišla teselace a s ní domain shader atd. Tento systém AMD považuje za neefektivní, takže navrhla tzv. primitive shader, který uvedené kroky kombinuje do jednoho. Díky tomu je možné ořezávat nepotřebná geometrická data na mnohem dřívější úrovni a zároveň mnohem rychleji, takže tento krok méně zdržuje a zároveň šetří výkon. Pokud je aplikace napsaná pro primitive shader, může dojít ke zvýšení geometrického výkonu oproti klasické pipeline Vegy až 3,8× a oproti klasické pipeline Fiji až 6,6×.
Můžeme očekávat, že primitive shader bude využit nejprve v prostředí konzolí, které je k využití specifických hardwarových prvků přívětivější. Jak se AMD pokusí prosadit využití tohoto prvku v desktopu, zatím není zřejmé. Může v tomto směru využít konzolí a podporovat zachování tohoto prvku u portovaných her, případně se může pokusit o prosazení standardizace primitive shaderu v nových verzích grafických API.
Paměťový subsystém
AMD svoji architektonickou prezentaci na téma Vega zahájila novým paměťovým řadičem High-Bandwidth Cache Controller (HBCC). Je zřejmé, že nešlo o náhodu, protože v tomto směru došlo k velmi podstatným změnám, které zcela mění využití grafické paměti.
Řadič umí adresovat až 512TB virtuální prostor, díky čemuž najde uplatnění i v profesionální sféře. Radeony SSG známe, dema ilustrující práci s obrovskými datovými sadami umístěnými na disku už AMD také předváděla.
Jak to funguje? AMD prostě z grafické paměti udělala cache. Už není nutné do grafické paměti z RAM nebo disku tahat celé bloky dat jen proto, že z každého potřebujete pár megabajtů. Obsah paměti je stránkovaný, data rozdělená na malé úseky a řadič může uskutečnit přenos pouze toho malého balíčku, ve kterém se nachází příslušných pár megabajtů dat potřebných k vykreslení snímku.
Kapacita grafické paměti díky tomu vystačí na mnohem více dat, než paměť „dojde“. Klasického pojetí totiž v okamžiku, kdy se velké bloky dat do paměti nevejdou, začne podle toho, ke kterému je právě třeba přistupovat, vyhazovat jiné bloky z grafické paměti, aby se do ní mohly natáhnout aktuálně potřebné. Pokud se v další fázi vykreslování snímku zjistí, že ty vyhozené budou opět třeba, natahují se znovu (na úkor jiných). Výsledkem je čekání na paměťové přenosy, propady FPS, stuttering, nebo propady minimálních FPS.
NCU
NCU, neboli Next-generation Compute Unit, jsme se trochu věnovali už v souvislosti s využitím FP16 / Int16 výpočtů ve hrách a možností Int8 výpočtů vůbec. NCU podporuje i operace s různou přesností (zároveň), což je právě podstatné z hlediska herního nasazení (jinak by efektivita byla nižší).
NCU přibylo celkem 40 nových instrukcí, z nichž některé cílí na těžbu kryptoměn. Ty samozřejmě budou mít reálný dopad teprve v okamžiku, kdy je začne využívat nějaký software.
Bundly
Zdánlivý tématický skok od architektury k bundlům má ale jednu logickou souvislost. Ilustruje určitou vnitřní schizofrenii AMD. Ta se na jednu stranu snaží těžebními instrukcemi zvýšit zájem o Vegu mezi kryptobarony. Na druhou stranu pak uvádí balíčky, které nabízejí možnost koupit Radeon RX Vega společně s high-end deskou, procesorem za zvýhodněnou cenu a dvěma hrami zdarma. Což je evidentní pokus o zajištění toho, aby Vega nebyla kryptobarony vykoupena a nedostupná hráčům. Zdánlivá schizofrenie ovšem může být mechanizmem kontroly, který umožní AMD regulovat situaci na trhu tak, aby obě skupiny byly spokojené.
Jde samozřejmě vždy o kompromisní řešení - na hardwaru v bundlu AMD méně vydělá než na samostatných prodejích (třeba kryptobaronům) a zároveň složení bundlů nemusí vyhovovat každému uživateli - kdo má již systém hotový a čeká jen na grafickou kartu, tomu nabídka se zvýhodněným procesorem, deskou nebo monitorem asi úsměv na tváři nevykouzlí.
Bundly budou o $100 dražší než samostatné karty (aby nebyly tak přitažlivé pro kryptobarony) a krom grafické karty zahrnují $100 slevu na nákup procesoru Ryzen 7 1800X s high-end (X370) deskou, $200 slevu na nákup prohnutého FreeSync LFC monitoru 34” Samsung CF791 a dále zdarma dvě hry: Wolfenstein II: The New Colossus a Prey (bundly se mohou v různých zemích nepatrně lišit, sledujte popisy produktů v e-shopech).
Modely
AMD uvedla Radeon RX Vega 56 s 3584 stream-procesory a Radeon RX Vega 64 s 4096 stream-procesory, který bude existovat ve vzduchem chlazené verzi a výkonnější vodou chlazeném provedení (s takty vyššími než Frontier Edition):
Radeon RX Vega Nano | Radeon RX Vega 56 | Radeon RX Vega 64 | Radeon Vega FE | |||
---|---|---|---|---|---|---|
GPU | Vega 10 12,5 miliard tranzistorů | |||||
Plocha jádra | 484 mm² | |||||
Výrobní proces | 14nm LPP GlobalFoundries | |||||
Architektura | Vega / GCN 5 | |||||
Frekvence (základ / boost) | ? | 1156 MHz 1471 MHz | 1247 MHz 1546 MHz | 1406 MHz 1677 MHz | 1382 MHz 1600 MHz | |
SPs | 4096 | 3584 | 4096 | 4096 | ||
TMUs | 256 | 224 | 256 | 256 | ||
ROPs | 64 | 64 | 64 | 64 | ||
Výkon (32bit FP) | ? | 10,5 TFLOPS | 12,7 TFLOPS | 13,7 TFLOPS | 13,1 TFLOPS | |
Výkon (16bit FP) | ? | 21,1 TFLOPS | 25,3 TFLOPS | 27,5 TFLOPS | 26,2 TFLOPS | |
Paměti | 8 GB HBM2 | 8 GB | 8 GB | 16 GB HBM2 | ||
Frekvence pamětí | 1600 MHz | 1600 MHz | 1888 MHz | 1887 MHz | ||
Dat. propustnost | 410 GB/s | 410 GB/s | 483 GB/s | 483 GB/s | ||
TGP | 150 W | 165 W | 220 W | ? | ? | ? |
TDP / TBP | ? | 210 W | 295 W | 345 W | 300 W | 375 W |
Napájení | 8-pin | ? | 8+8 pin | 8+8 pin | ||
Výstupy | HDMI 2.0b | HDMI 2.0b 3× DP 1.4 | HDMI 2.0b | HDMI 2.0b | HDMI 2.0b | |
TrueAudio | Next | Next | Next | Next | Next | |
XDMA CF | ||||||
FreeSync | ||||||
Rozhraní | PCIe 3.0 ×16 | PCIe 3.0 ×16 | PCIe 3.0 ×16 | PCIe 3.0 ×16 | PCIe 3.0 ×16 | |
API | DirectX 12 | DirectX 12 | DirectX 12 | DirectX 12 | DirectX 12 | |
Vydání | 2017 | 30. 7. 2017 září 2017 | 30. 7. 2017 14. 8. 2017 | 30. 7. 2017 14. 8. 2017 | 16. 5. 2017 27. 6. 2017 | |
Chlazení | vzduch. | vzduch. | vzduch. | vodní | vzduch. | vodní |
Cena | ? | $399 $499 pack | $499 $599 pack | $699 pack | $999 | $1499 |
Vzduchem chlazené modely budou dostupné samostatně, všechny tři pak v podobě packu / bundlu 14. srpna.
Radeon RX Vega Nano
Účastníci akce na Siggraph se dočkali obrazu, při kterém v žilách tuhla krev. Na pódiu, před zraky stovek lidí, vstoupil Tim Sweeney a zapózoval s Radeon RX Vega Nano. To lze chápat jako ohlášení produktu, ovšem v podání té nejméně pravděpodobné osoby, od které by bylo možné ohlášení Radeonu čekat. Časy se mění.
Radeon RX Vega Nano si patrně zachová 5,6″ formát. Vybaven bude jedním osmipinovým napájecím konektorem. Očekávat můžeme TDP mírně vyšší než u původního Fury Nano (to bylo 175 wattů), protože 150 wattů padne na GPU+paměti. Není zcela vyloučené, že by se AMD podařilo nacpat zbytek do 25 wattů, jen je pravděpodobnější, že dojde k mírnému navýšení celkového limitu. Komu bude vysoký, ten si jej může přenastavit.
Nejkomplexnější podpora DirectX 12
V červnu jsme vás informovali že Vega 10 bude jádrem s nekomplexnější podporou DirectX 12, kterou lze u desktopových grafických karet najít. Podporuje vše, co předchozí generace GCN, vše, co Pascal od Nvidie, leccos na o stupeň vyšší úrovni a k tomu ještě technologie, které zatím ani GCN ani Pascal nepodporovaly vůbec.
Přestože jde z hlediska koncového uživatele o overkill, protože se leckteré z těchto technologií do her v dohledné době nedostanou, je Vega v tomto ohledu zajímavou platformou z hlediska vývojářů, kteří tím získávají hardware, na němž si mohou novinky vyzkoušet a ověřit, zda se jim jejich implementace do nových her a enginů vyplatí. Opět lze očekávat, že nové technologie najdou rychlejší uplatnění ve sféře konzolí - tedy alespoň ty z nich, které nové konzole podporovat budou.
Zajímavá je podpora pro Shader Intrinsics (optimalizace s přístupem k instrukční sadě), kterou sice nabízely i předchozí generace GCN, ale která nyní nabývá na významu v souvislosti s možností lepších optimalizací FP16. Využití Shader Intrinsics na Playstation 4 umožnilo 43% navýšení výkonu, což indikuje opravdu velký potenciál k využití. Pokud vše půjde dobře, dojde ke standardizaci Shader Intrinsics v rámci Shader Model 6.0. I bez ní ale mohou vývojáři jejího potenciálu využívat pod DirectX i Vulkan.
Výstupy pro zobrazovadla
Doposud nejvybavenějším produktem AMD co do možností výstupu byla generace Polaris, konkrétně GPU Polaris 10 (Radeon RX 480 / RX 580). Vega podporuje vše, co Polaris a navíc:
- 2× 4k 120Hz
- 3× 5k 60Hz přes jeden kabel
- 3× 8k 30Hz
- 3× 4k 60Hz HDR
- 4k 120Hz HDR
- 5k 60Hz HDR
Lepší možnost připojení trojice 5k 60Hz panelů přináší potenciál pro výrazné rozšíření pracovní plochy a možnost připojení trojice 8k 30Hz panelů rozšiřuje možnosti nasazení pro prezentační účely.
Každý výstup referenčních provedení Radeonů RX Vega je vybaven HDCP 2.2 a podporuje FreeSync.
Stabilita FPS a FreeSync
Jedna věc jsou technologie a budoucí možnosti, druhá aktuální výkon. Jak již AMD naznačila slepými testy, staví Radeon RX Vega 64 ve vzduchem chlazené verzi na pozici konkurenta GeForce GTX 1080. Jeho klíčovou výhodu vidí ve stabilnějších FPS, kdy se minima drží na vyšších hodnotách, díky čemuž se FPS drží v rozsahu FreeSync / GSync monitorů a nabízejí plynulejší obraz. To může souviset i s faktem, že Radeon RX Vega 64 dobře obstál ve slepém testu HardOCP, který ho postavil oproti v průměru o dost rychlejší GeForce GTX 1080 Ti.
Realitu ukážou až praktické testy; přinejmenším na papíře to ale má AMD zpracované hezky - minima ve FreeSync rozsahu monitoru Samsung CF791, na němž byly prováděné slepé testy a tentýž monitor nabízený i v bundlu za zvýhodněnou cenu.
12,5 miliardy tranzistorů
GPU Vega 10 nese o 40 % tranzistorů více než GPU Fiji (8,9 miliardy). Tento rozdíl se zdá být poměrně velký, ovšem pokud by mezi těmito čipy vyšel i high-endový produkt na architektuře Polaris s řekněme 10-10,5 miliardami tranzistorů, divil by se rozdílu málokdo. Při hodnocení tohoto čísla proto musíme brát v potaz, že 3,6 miliardy tranzistorů navíc není rozdíl oproti minulé generaci, ale předminulé.
Kam tyto tranzistory šly? Určitou roli hrají optimalizace pro vyšší takty. Fiji končila na 1050 MHz, Polaris na 1340 MHz a Vega 10, která vzniká na stejném výrobním procesoru jako Polaris, se blíží 1700 MHz, což je 27% posun. V případě Vegy nelze boost chápat jako maximální takt, situace se trochu změnila a boost v případě Vegy (na rozdíl od předchozích generací GCN) neznamená teoretické maximu, ale garantované maximum, kterého karta za určitých podmínek může reálně dosáhnout. V praxi může dosáhnout i vyšších hodnot, ale ty nejsou zaručené.
Patrně daleko větší počet tranzistorů padl na cache - GPU Vega 10 obsahuje celkem 45 MB SRAM paměti. Pro srovnání: Nvidia GP100 nese 23 MB, GV 100 33MB. U GPU Tahiti jsme se před pěti lety dopočítali více než 12 MB. Na co vše tentokrát 45 MB padlo, AMD nezveřejnila a zatím se nepodařilo úplně vše vypátrat, ale vypadá to asi následovně:
- 4MB L2 cache (2× více oproti Fiji, 4× více oproti Hawaii)
- 4MB (64× 64kB) LDS / local data share) (2× více oproti Tahiti)
- 16MB (64× 4× 64kB) vektorové registry (2× více oproti Tahiti)
- 256kB (4× 64kB) skalární registry (2× více oproti Tahiti)
- ? 512 kB (64× 8kB) skalární datová cache (2× více oproti Tahiti)
- ? 256 kB (64× 4kB) instrukční cache (2× více oproti Tahiti)
- 1MB (64× 16kB) L1 cache (2× více oproti Tahiti)
Tím se dostáváme na 26 MB, o umístění zbývajících 19 MB můžeme jen spekulovat. ROP patrně i nadále nesou své vlastní malé cache, které vypadávají ze standardní hierarchie, ale jejichž kapacita je tak nízká, že nemůže vysvětlit rozdíl v řádu desítek MB (asi 4kB pro Z-data na ROP a snad o něco více pro barvu, nanejvýš tedy kolem 1 MB celkem). Chybět jistě nebude ani parametrová cache, ale o jaké kapacitě?
Část ze zbývajích 19 MB může vysvětlit HBCC, tedy nový řadič s podporou stránkování. To může pro svoji funkčnost vyžadovat více než 1 MB paměti - o kolik více, je otázkou. Řádově přinejmenším jednotky MB může vyžadovat nová geometrická pipeline a rasterizér. Kolik tranzistorů pro příslušné cache AMD z celkového rozpočtu na tyto účely vyhradila, nelze jednoduše vyčíslit - možné jsou různé implementace. Samozřejmě čím více, tím efektivnější daná implementace může být, ovšem tím vyšší nároky na počet tranzistorů bude mít.
AMD