Architetura, technologie, absence DirectX 10.1
Kapitoly článků
Vyšší Shader/Texture poměr
Se zmiňovanou rostoucí složitostí shaderů a potřebou zpracovávat složitější shadery přichází ona „podobnost, nikoli shodnost“ s vyvážeností. GTX 200 přidala do každého TPC jeden SM navíc, čímž zachovává z dřívějška shodně texturovacího hardware, ale přidává shadery, poměr shader/texture vzrůstá o 50 %. Důvod je stále stejný, architektura GPU je tímto lépe připravena na budoucí hry masivněji využívající komplexní shadery.
Vylepšení ROP
I rasterovací jednotky doznaly vylepšení, oproti dřívějším technikám antialiasingu jako multisampled, supersampled, transparency adaptive a coverage sampling a podpoře frame buffer (FB) blendingu (při FP16 a FP32) u render target surfaces jde GTX 200 o něco dál.
K tomu všemu přidává výkon 32 pixelů/takt odpovídající 4 pixely/takt ×8 oddílů. Pro 8×MSAA umí 32 barev a Z vzorků/takt. Pixely používající U8 datový formát (8bit unsigned integer) mohou být v TPC „blendovány“ dvakrát rychleji než u předchozí generace GPU. Dříve tedy šlo mít výstup 24 pixelů/takt a blending 12 pixelů/takt, GTX 280 umí výstup i blending 32 pixelů/takt.
Geometry Shading a výstupní jednotky
Struktury výstupních bufferů byly také vylepšeny, a to šestinásobně. nVidia tak mimo jiné slibuje výrazně rychlejší geometry shading, drobnou slabinu dřívějších generací (ale moc se to zatím ve hrách nestihlo projevit, však přece moc dobře víme, jak je to s reálným nasazením DirectX 10 nyní, více než dva roky po jeho uvedení).
Výkon dle RightMark testu zhruba o 10 % překonává Radeon HD 3870 X2, oproti GeForce 8800 GXT je skutečně několikanásobně vyšší, ale šestinásobek to v tomto konkrétním testu není.
512bitové paměti
Metod, jak řešit pravidelné úzké hrdlo výpočetních schopností karty, tedy paměťovou sběrnici, je několik. Konkurenční AMD na to jde chytrostí sobě vlastní a díky prstencové sběrnici a superrychlým GDDR5 pamětem, které nasadí na Radeonu HD 4870, si může dovolit 256bitovou sběrnici a její řešení je obecně velice flexibilní a „blbuvzdorné“.
Naproti tomu nVidia volí cestu opačnou, tedy širší sběrnici a pomalejší a (levnější?) osvědčené GDDR3 paměti. Propustnost sběrnice tak oproti 8800 GTX a zejména 9800 GTX vzrůstá o desítky procent.
Správa spotřeby
ATI/AMD má svoje PowerPlay 7 v Radeonech HD 3800 a vyšších, nVidia také implementuje metody snižování spotřeby karty ve chvílích, kdy není třeba maximální výkon. GeForce GTX 200 tak slibují:
- Idle/2D: ~25 W
- Přehrávání Blu-ray a DVD: ~35 W
- Plný 3D výkon: za nejhorší konstelace hvěz až 236 W
- HybridPower: ~0 W
Od hi-end karty nacpané až po okraj vším možným samozřejmě nelze ve 2D nebo při přehrávání videa očekávat spotřebu úsporné grafiky z čipsetu AMD 780G, ale rozhodně musím pochválit, že spotřeba za běžného provozu je zhruba desetinová oproti maximálnímu odběru karty.
nVidia by se tak v tomto aspektu měla přiblížit k rozložení odběru grafiky svému konkurentovi, jehož karty jsou známy velice nízkou spotřebou ve 2D a jejím vyšším relativním navýšením ve 3D.
Kromě toho i zde v podání GTX 200 máme příslib HybridPower režimu, kdy bude tato výkonná karta zcela vypnuta a zobrazování 2D prostředí bude svěřeno integrované grafice v čipsetu. Nostalgicky tak herní grafika v PC začne opět připomínat doby 3Dfx. Přeci jen se zkuste zamyslet, jaký má smysl implementovat 2D/video dekodér do herní grafiky, když toto dnes umí naprosto luxusně zastoupit integrovaná grafika, ať již se bavíme o něčem na úrovni AMD 780G, nebo GeForce 8200. Doby přídavných 3D akcelerátorů se tak mohou klidně vrátit, ale … pardon, nechal jsem se unést, pojďme dál.
K řízení spotřeby ještě musíme dodat, že GTX 200 je mezi jednotlivými režimy automaticky bez přerušení práce PC přepínána ovladačem, každé GPU pak nese několik monitorů zátěže (tzv. „digitálních hlídacích psů“), kteří nepřetržitě analyzují traffic skrze celé GPU.
Na základě aktuální zátěže z těchto monitorů pak ovladač dynamicky volí příslušný režim, který má jasně definované hodnoty frekvencí a napájecích napětí. v Idle/2D režimu je tak karta výrazně podtaktována a podvoltována. O všem tomto má uživatel přehled.
V GPU taktéž mohou být zcela vypínány části, které nebudou v dohledné době potřeba (tento čas se měří a odhaduje v milisekundách).
Další vylepšení pipeline a architektury
Renderovací pipeline (dá se to tak ještě vůbec nazývat? ;-) si nyní také „povídá“ s grafickým ovladačem efektivnějšími metodami, kdy byly vylepšeny používané protokoly a softwarové třídy, tedy obecně datové přenosy mezi ovladačem a GPU.
Memory Crossbar propojující datový assembler a frame buffer byl taktéž optimalizován, nové GPU tak může běžet naplno při přenosu indexovaných primitiv (předchozí generace zde trpěla určitými neshodami mezi datovým assmeblerem a frame bufferem).
Zvětšila se post-transform cache, což vyústilo v omezení prostojů v pipeline a rychlejší komunikaci z geometry a vertex úseků do viewport clip/cull (stejně jako dříve je podporováno jedno primitivum/takt). Výkon Z-Culling vzrostl, speciálně pak ve vysokých rozlišeních, kam jsou nové karty mířeny. Zvýšil se počet „vyhozených“ Early-Z, neboť vzrostl ZROP výkon. Nyní GPU umí 256 vzorků/takt nebo 32 pixelů/takt.
Dále dostalo GPU do vínku výrazné zlepšení v oblasti alokace registrů, plánovače instrukcí a dalších souvisejících záležitostí. GPU tak může plnit vykonávací jednotky pohotověji. Tato zlepšení zodpovídají za dříve zmíněnou schopnost dual-issue instrukcí pro SP a SFU jednotky. Plánování práce mezi texturovacími jednotkami a SM řadičem bylo taktéž vylepšeno.
Shrnutí architektury
Protože to bylo poměrně dlouhé a možná i nudné, shrňme si nyní tato architektonická zlepšení oproti GeForce 8800 GTX:
- 1,88× více stream procesorů
- 2,5× více vláken/čip
- Dvojnásobné registry
- Podpora double-precision floating-point
- Výrazně rychlejší geometry shading
- 1 GB frame buffer s 512bitovým paměťovým rozhraním
- Výrazně efektivnější plánování instrukcí
- Efektivnější přístup do paměti frame bufferu, vyšší frekvence
- Vylepšení vnitřní komunikace mezi dílčími jednotkami v GPU
- Vylepšení Z-cull a compression nabízející vyšší výkon ve vysokých rozlišeních
- Podpora 10bitové barevné hloubky (více než miliarda barev potenciálně i na výstupu karty)
Absence DirectX 10.1
Nyní kousněme opět do onoho kyselého jablka sváru mezi fanATIky a nVidioty. Tím je absence DirectX 10.1 v těchto nových GPU. Nejprve si ukažme oficiální vyjádření nVidie k této věci:
„DirectX 10.1 není na GeForce GTX 200 podporováno. DirectX 10.1 zahrnuje inkrementální zlepšení vlastností oproti DirectX 10, z nichž některá stávající GeForce 8/9/200 podporují (například multisample readback). Podporu DirectX 10.1 jsme zvažovali během počátečního návrhu GPU a konzultovali jsme ji s klíčovými softwarovými partnery (pozn.: zde jistě myslí herní studia spolupracíjí v rámci TWIMTBP). Odezva ukazovala, že DirectX 10.1 není důležité, proto jsme se rozhodli zaměřit na přinesení většího výkonu a efektivity architektury.“
Tolik tedy nVidia. K této kauze si připomeňme dvě záležitosti, jejichž posouzení necháme na vás:
- kontroverze s odstraněním DirectX 10.1 podpory ze hry Assassin's Creed
- kontroverze 3D Marku Vantage, kterou nejlépe vystihuje známý citát: „Proč Vantage zvýhodňuje akceleraci fyziky a ne podporu DX10.1?“
Fakta jsou ale jasná. Podpora DirectX 10.0 sama o sobě potřebovala k rozjezdu hodně dlouhou dobu (na které se samozřejmě podepsal i Microsoft s omezením DX 10 pouze na Vistu), implementace DirectX 10.1 je však naproti tomu velmi snadná a nesouvisí s ní nijaké výrazné problémy (tedy ne na grafikách ATI, potažmo na modelech s podporou DirectX 10.1, kam spadá třeba Radeon HD 3850 stojící momentálně kolem 1 700 Kč).
Na druhou stranu je jisté, že her skutečně využívajícíh DirectX 10.1 ve výrazné míře nebude letos a nejspíš i příští rok signifikantní množství.
Pohled fanATIkův však svým selským rozumem říká toto: „Rozhraní tu už pár měsíců je, karty (byť konkurenční) taky, vývojáři mají s 10.1 oproti 10.0 snadnější práci. Na vině je nVidia, která od dob G80 (tedy už třetí generaci) setrvává na neefektivním DirectX 10.0 a tím brzdí vývoj.“
Ale nebudeme si nic nalhávat, nVidia je větší hráč na poli hi-end herní grafiky a se svým programem TWIMTBP pomáhá s vývojem desítek velkých herních titulů. V takové situaci to celé zavání politikou v podání naší sněmovny, která se dokáže celý den hádat o ničem, prudit, ale výsledek je ten, že plynutí času jde beztak dál. Nechme tedy na budoucnosti měsíců nadcházejících, jak se s tímto nadále přetrvávajícím omezením GeForce GTX 200 vyrovná, ostatně hratelnost netvoří ta či ona verze rozhraní, tu tvoří geniální designeři jako Sid Meier, Warren Spector či třeba Ken Levine.