Architektura GPU RV770
Kapitoly článků
Z novinek se nejprve podívejme na to hlavní, architekturu samotného GPU RV770. Jak již jsme si řekli, nese téměř jednu miliardu tranzistorů a 800 stream procesorů. Hlavním cílem nového GPU bylo vylepšit výkon při zachování co nejmenší spotřeby a současně příliš GPU nezvětšit, aby jeho výroba byla nadále levná a efektivní. Rovnou si můžeme říci, že ne vše se povedlo k dokonalosti, spotřeba v jistých aspektech trochu kolísá, ale o tom až ve třetí části článku. Rozhodně se však podařilo udržet výrobní náklady velmi nízko, grafika se již déle než týden prodává za naprosto skvělou cenu.
Z hlediska podporovaných technologií nebylo třeba realizovat příliš mnoho změn, již předchozí generace podporovala DirectX 10.1, PCI Express 2.0, hardwarovou tesselaci či v DX 10.1 přítomné Global Illumination a mnohé další. Na svět tak přichází hlavně UVD2, o kterém až za chvíli.
GPU používá nový SIMD design uspořádání, optimalizované texturovací jednotky, zcela novou paměťovou arcitekturu, vylepšené Render Back-Ends pro rychlejší antialiasing a rozšířené geometrické shadery a navýšený výkon tesselace.
Takto vypadá rozložení dílčích částí v GPU (mimochodem všimněte si, jaký prostor zabírá UVD2).
Uspořádání je rozděleno na 10 SIMD jader, každé po 80 stream processing jednotkách. K nim je přidruženo 40 texturovacích jednotek, vše je pak obklopeno další logikou a zejména paměťovým rozhraním (a samozřejmě konektivitou na PCI Express sběrnici)
SIMD jádro
Každé jednotlivé SIMD jádro zahrnuje 80 skalárních stream processing jednotek a 16kB sdílenou lokální datovou paměť. Jádro má vlastní kontrolní logiku, o rozdělování se stará nám známý Ultra Threaded Dispatch Processor z Radeonů X1800.
Každému SIMD jádru dále přísluší čtyři texturovací jednotky a L1 cache. Nový design podporuje škálování texture fetch výkonu spolu s výkonem shaderů, zachovává ALU:TEX (výpočetní:texturovací) poměr 4:1.
Stream Processing Unit
Samotné výpočetní jednotky, srdce výkonu GPU, oproti předchozí generaci vyráběné stejným výrobním procesem navyšují výkon/mm² o 40 %.
Použit je agresivnější clock gating (technika šetřící energii pomocí přídavné logiky vyřazující výpočetní části, ve kterých nedochází ke změně dat), který vyúsťuje v lepší poměr výkon/spotřeba (můžeme potvrdit, viz měření ve třetí části recenze). Výkon těchto jednotek v double precision dosahuje až 240 GFLOPs, což dává plusmínus dvojnásobek toho, co umí GeForce GTX 280 (zde se bezesporu hovoří o výpočetní kartě ATI FireStream 9250).