Thread Processor, Texture Unit, filtrace
Kapitoly článků
Celkový výkon, jak již jsme psali, se pohybuje na hranici 2,7 TFLOPS v single precision, v double je to 544 GFLOPS, což je sice dle AMD sedmkrát více než u Nvidia TESLA C1060 (ta staví na bázi GeForce GTX 280), ale poměr výkonu mezi single a double je u RV870 5:1. Dle posledních drbů na tom bude v tomto ohledu „GT300“ znatelně lépe.
Jak již zaznělo, každý Thread Processor nese pět stream jader. Ty jsou konfigurovány opět jako 4+1, tedy čtyři běžné a jedno se speciálním určením. Branch unit a obecné registry jsou opět přítomny jako u předchozích generací.
GPU je lépe připraveno pro různé typy instrukcí, za zmínku stojí mimo jiné Sum of Absolute Differences (SAD - jednoduchá metrika pro porovnávaní bloků obrazu při motion estimation u komprese videa), která je až 12× rychlejší na nativních instrukcích a je k dispozici skrze OpenCL. Dále jsou k dispozici 11bitové DirectX 11 operátory (bit count, insert, extract, …).
Texture Units a Cache
Texturovací jednotky běhají na vyšších frekvencích a celková propustnost se tak logicky zvýšila. Aktuálně tedy protlačí svými tranzistory až 68 miliard bilinear filtered texels/s a až 272 miliard 32-bit fetches/s. I vyrovnávací paměti polepšily, L1 (v každé sekci 8 kB) umí propustnost texture fetch nádherných 1 TB/s, mezi L1 a L2 běhají data rychlostí 435 GB/s. Velikost L2 cache je přitom dvojnásobná, 128 kB na každý paměťový řadič, maximální velikost textur se z 8192×8192 zvyšuje na 16384×16384 a podporovány jsou nové 32 a 64bitové HDR bitové kompresní módy.
Filtrace textur
Narozdíl od propustnosti cache uvidíte nový algoritmus pro anizotropní filtrování bezpochyby v akci i na vlastní oči. Nemá žádný dopad na výkon oproti dosavadnímu používanému AF algoritmu a je ideální pro kvalitnější správu LOD (Level of Detail).