Maxwell 2.0 alias GeForce GTX 970 a 980 jsou venku!
Dnešním dnem došlo k odhalení GPU Nvidia Maxwell GM204 a dvou grafických karet, které na něm staví: GeForce GTX 970 a GTX 980. Hned v úvodu se můžeme podívat na tabulku parametrů - upravenou a doplněnou podle oficiálních specifikací:
GeForce GTX 770 | GeForce GTX 780 | GeForce GTX 780 Ti | GeForce GTX 970 | GeForce GTX 980 | |
GPU | GK104 3,5 mld. tr. | GK110 7,1 mld. tr. | GK110 | GM204 5,2 mld. tr. | GM204 5,2 mld. tr. |
Plocha | 294 mm² | 551 mm² | 551 mm² | 398 mm² | 398 mm² |
Proces | 28 nm TSMC | 28 nm TSMC | 28 nm TSMC | 28 nm TSMC | 28 nm TSMC |
Architektura | Kepler | Kepler | Kepler | Maxwell | Maxwell |
Frekvence | 1046 MHz | 863 MHz | 875 MHz | 1050 MHz | 1126 MHz |
Boost | 1085 MHz | 900 MHz | 928 MHz | 1178 MHz | 1216 MHz |
SPs | 1536 | 2304 | 2880 | 1664 | 2048 |
TMUs | 128 | 192 | 240 | 104 | 128 |
ROPs | 32 | 48 | 48 | 64 | 64 |
Výkon | 3,21 TFLOPS | 3,98 TFLOPS | 5,04 TFLOPS | 3,50 TFLOPS | 4,61 TFLOPS |
Výkon (DP) | 0,13 TFLOPS | 0,17 TFLOPS | 0,21 TFLOPS | 0,11 TFLOPS | 0,14 TFLOPS |
Paměti | 2 GB | 3 GB | 3 GB | 4 GB 256bit | 4 GB 256bit |
Takt | 7 GHz | 6 GHz | 7 GHz | 7 GHz | 7 GHz |
Dat. prop. | 224 GB/s | 288 GB/s | 336 GB/s | 224 GB/s | 224 GB/s |
spotř. 3D | 230 W | 250 W | 250 W | 145 W | 165 W |
Napájení | 6+8 pin | 6+8 pin | 6+8 pin | 6+6 pin | 6+6 pin |
Výstupy | 2× DVI | 2× DVI DisplayPort | 2× DVI DisplayPort | DVI 3× DP HDMI | DVI 3× DP |
Rozhraní | PCIe 3.0 ×16 | PCIe 3.0 ×16 | PCIe 3.0 ×16 | PCIe 3.0 ×16 | PCIe 3.0 ×16 |
API | DirectX 11 FL DirectX 12 | DirectX 11 FL DirectX 12 | DirectX 11 FL | DirectX 12 | DirectX 12 |
Zřejmě první údaj, který u high-endového GPU zaujme, je počet stream-procesorů. Oproti GeForce GTX 780 Ti (GK110, 2880 SP) a Radeonu R9 290X (Hawaii, 2816 SP) působí hodnota 2048 SP jako poměrně nízká, ale to je dáno konceptem architektury, jejímž cílem není navyšování teoretického výkonu, ale snaha přiblížit teoretická čísla reálnému výkonu. Jinými slovy zvyšování efektivity.
K té přispěla úprava konfigurace stream-procesorů v SMM blocích, podpora nových technologií, zvětšení L2 cache na 2 MB a podpora barevné delta-komprese. To je ale jen část novinek, které druhá generace Maxwellu přináší.
Jádro GM204 je rozděleno do čtveřice GPC bloků, z nichž každý nese osm SMM bloků. V rámci SMM (SMX) došlo oproti generaci Kepler k přeskupení, jehož důsledkem je organizace stream-procesorů po 128 (namísto 192). S tím souvisí zvýšení poměru ALU:TEX; v praxi jde o 8 texturovacích jednotek na 128 stream-procesorů. Poměr aritmetických a texturovacích jednotek se tak dostává na 16:1.
To ale platilo již pro první generaci Maxwellu, GM107 neboli GeForce GTX 750 (Ti). Zajímavější je změna, ke které došlo v souvislosti s úpravami paměťového systému. GM204 je vybavena 2MB L2 cache a ROP jednotkami podporujícími barevnou delta-kompresi (rozdílová komprese, která umožňuje snížit datové přenosy při zápisu do frame-bufferu). Díky tomu došlo k efektivnímu rozšíření kapacity pro datové přenosy a mělo smysl výrazněji navýšit počet ROP jednotek - na rovných 64. Zatímco výpočetní výbava GM204 oproti GK104 (GeForce GTX 680 / 770) stoupla „jen“ o třetinu a počet texturovacích jednotek zůstal beze změny, ROP jednotek je dvojnásobek.
Delta komprese (neboli rozdílová komprese) GM204 je vybavena adaptivním algoritmem, takže na komprimovaných datech nejprve testuje, jaké vzory vedou k dosažení maximálního kompresního poměru a ty poté aplikuje na přenášená data. Podle Nvidie je z výkonnostního hlediska výhodnější ztratit několik taktů na hledání nejvýhodnějšího řešení než aplikace co nejrychlejší komprese a odeslání vyššího objemu dat.
Výše uvedený graf znázorňuje, o kolik delta-komprese snížila nároky na paměťovou sběrnici - v průměru jde podle Nvidia o zhruba 25% úsporu (pozn. graf nezačíná v nule).
Nové režimy anti-aliasingu
Karty postavené na jádru GM204 podporují dva nové režimy anti-aliasingu. Alespoň z dostupných informací se nezdá, že by šlo o režimy vyžadující specifickou hardwarovou funkcionalitu, která u předchozí generace nebyla přítomná. Jde tedy spíš o funkcionalitu ovladačů. První novinku nazývá Nvidia DSR (Dynamic Super Resolution) a nejde o nic jiného než formu super-samplingu známou pod názvem over-sampling (down-sampling). Obraz je vyrenderován ve vyšším rozlišení, než v jakém je zobrazen na monitoru a následně zmenšen. Příklad může být vykreslení ve 4k rozlišení zmenšené na Full-HD. Nvidia ke zmenšování používá výstupní scaler (podobně jako bývalo zvykem na generaci ~DirectX 7 grafických karet), což má jednu výhodu a jednu nevýhodu. Výhoda tkví v kompatibilitě - oversampling totiž ze strany hry nevyžaduje žádnou specifickou podporu, funguje vždy. Nevýhoda spočívá v omezených možnostech rozložení AA vzorků (jsou více či méně fixní), takže poměr kvalita / dopad na výkon zaostává za většinou ostatních AA algoritmů. DSR považujeme jako řešení pro situace, ve kterých se jiný režim anti-aliasingu nechytá.
Druhá novinka nese název MFAA (Multi-Frame Anti-Aliasing) a opět jde o recyklaci jedné starší technologie, kterou známe z doby DirectX 9 hardwaru. Tehdy ji ATi nazývala Temporal Anti-Aliasing a šlo o metodu postavenou na variabilitě rozložení vzorků mezi sudými a lichými snímky. Pokud byl framerate dostatečně vysoký, působil výsledek, jako by bylo použité dvojnásobné množství MSAA vzorků než bylo reálně použito - pokud byl framerate příliš nízký, projevovaly se změny mezi sudými a lichými snímky jakýmsi „zrněním“ na hranách objektů.
DirectX 11.3 a 12
S druhou generací architektury Maxwell doplnila Nvidia technologie a požadavky posledních verzí DirectX, v nichž byla s Keplerem a první generací Maxwellu ve skluzu. Zatímco karty generací GeForce GTX 600 a 700 končily na podpoře DirectX 11, přidává druhá generace Maxwellu plnou podporu DirectX 11.1 (tzv. feature level 11_1, k jehož dosažení chyběly technologie Target Independent Rasterization a UAVOnlyRenderingForcedSampleCount), doplňuje podporu DirectX 11.2 a dále technologii Tier 2 tiled resources. Tímto dotahuje na úroveň Radeonů HD 7000. Dále přidává plnou podporu DirectX 11.3 (Rasterizer Ordered Views, Typed UAV Load, Volume Tiled Resources a Conservative Rasterization). Tyto technologie bude využívat i DirectX 12.
Výkon
Přejděme rovnou k výkonu:
Výkon do značné míry vychází z delta-komprese (která dává variabilní výsledky) oproti předešlé generaci karet, kde byla paměťová propustnost zajištěna (konstantně) širší sběrnicí. To znamená, že podobně jako u Radeonu R9 285 / Tonga od AMD jsou rozdíly ve výkonu variabilnější a více závislé na konkrétní hře, nastavení vyhlazování a především rozlišení.
Oproti GeForce GTX 780 Ti je výkonnostní rozdíl tím vyšší, čím nižší rozlišení hra využívá (7% náskok ve 4K, 9% ve Full-HD), ve srovnání s Radeonem R9 290X je tento rozdíl ještě markantnější (11% náskok ve 4k, 24% ve Full-HD). Ve 2560×1600 je GeForce GTX 980 o 10-15 % rychlejší než stávající jednočipový high-end.
Spotřeba
Hlavní devizou architektury Maxwell je bezesporu energetická efektivita. Nvidii se podařilo snížit TDP z 250 wattů (GeForce GTX 780 / 780 Ti) na 165 wattů (GeForce GTX 980). I reálně naměřené hodnoty, které najdeme ve většině zahraničních recenzí, ukazují výborné výsledky.
Přesto si nemůžeme odpustit jedno rýpnutí. Nikoli do hardwaru, který se skutečně povedl, ale především do marketingového oddělení, které se pokusilo už tak vynikající reálnou spotřebu možná až zbytečně snížit nereálně nízkými papírovými údaji. O co jde: Papírových 165 wattů Maxwellu se jen málokdy dostane pod 170-195W modely z generace Kepler jako GeForce GTX 680 nebo GeForce GTX 760. Papírově by měla být spotřeba o tři desítky wattů nižší, reálně je srovnatelná, případně vyšší.
Namátkou - ComputerBase naměřila, že „165W“ GeForce GTX 980 v Anno 2070 konzumuje o 23 wattů více než „170W“ GeForce GTX 760, Anandtech naměřil v Crysis 3, že „165W“ GeForce GTX 980 konzumuje o 8 wattů více než „195W“ GeForce GTX 680. Podle Hardware.fr je pro změnu spotřeba v Anno 2070 v případě novinky totožná s „230W“ GeForce GTX 770.
To však není výtka k hardwaru, pouze ke způsobu jeho marketingové prezentace. GeForce GTX 980 je produkt, který nabízí výkon ~5-10 % nad GeForce 780 Ti při oficiální ceně ($550) ~10 % nad Radeonem R9 290X ($500). Nvidia si tak krom (1) pochvaly za dořešení kompatibility s aktuálními verzemi DirectX a (2) pochvaly za velký posun v energetické efektivitě, který je na úrovni přechodu na nový výrobní proces, zaslouží i třetí pochvalu a to za fakt, že po dlouhé době dokázala připravit high-endový produkt, jehož poměr cena / výkon odpovídá reálné situaci na trhu a nabídce konkurenčního hardwaru.
Tímto s GeForce GTX 970 a 980 nekončíme, k dalším technologickým detailům GM204 se v blízké době ještě vrátíme.
Nvidia, Anandtech, ComputerBase, Hardware