Vektorová jednotka

7. 8. 2008 | David Ježek | Audio/video, Software, Technologie, Grafiky, Procesory

Po mnoha a mnoha měsících spekulací a nepotvrzených informací konečně sama společnost Intel poodhalila roušku tajemství kolem projektu Larrabee, od kterého si ona i IT svět jako takový, slibuje poměrně hodně. Co je tedy Larrabee zač, co od něho můžeme očekávat a jaké to za rok-dva po jeho uvedení na trh bude?

Kapitoly článků

1. Úvod, základní parametry

2. Vektorová jednotka

3. Ring bus, výpočetní jádra

4. Paměťová a cache architektura

5. Programování Larrabee

6. Správa dat a výpočetních vláken, rasterizace

7. Shadery v Larrabee

8. Budoucnost po Larrabee, rizika, závěr

Architektura Intel Larrabee: vektorová jednotka

Tento diagram ukazuje blíže konstrukci vektorové ALU v každém výpočetním jádru Larrabee. AMD i nVidia staví svůj výkon pomocí tzv. stream procesorů, Intel pomocí těchto 16-wide vektorových ALU.

Architektura Intel Larrabee: vektorová jednotka

Vektorová ALU může fungovat buď jako 16-wide single precision ALU, nebo jako 8-wide double precision. Na tomto místě se sluší připomenout, že v single precision dosahují RV770 i GT200 výkonu kolem 1 TFLOPs, v double precision ATI umí přes 200 GFLOPs, nVidia něco kolem 100 GFLOPs.

Architektura Intel Larrabee: srovnání GPU

Opět připomeňme, že nVidia GT200 má 240 komplexních výpočetních jednotek, zatímco ATI má tyto jednotky členěny na pět „menších“, a proto se u RV770 dostávají k počtu 800, byť všichni dobře víme, že 128 a 800 nelze v tomto kontextu co do počtu srovnávat mezi sebou.

Každopádně nVidia může v jednom výpočetním segmentu (stream procesoru, kterých má až 240) vykonávat jednu operaci. Vektorová jednotka Larrabee umí naráz šestnáct operací (bavíme se o single-precision). Přitom se počítá, že ve výsledném produktu Larrabee bude obsaženo 16 až 32 vektorových jednotek, což dává celkové číslo (ale opět zdůrazňuji, že to nelze na základě počtu porovnávat) 256 až 512 vector ALU.

Co se týče kompilace kódu pro taková řešení, tak právě AMD se svou „5-wide“ architekturou vyžaduje kvalitní kompilátor, který si poradí s paralelizací úloh, aby bylo zatížení GPU pokud možno vyrovnané a optimální. Na pomoc zde má i dílčí prvky architektury jako třeba Ultra Threaded Dispatch Processor, ale to samo o sobě samozřejmě nestačí. Závislost Larrabbee na kvalitní kompilaci kódu bude ještě vyšší, ale tohle je věc, kterou Intel umí zatraceně dobře a podle odhadů (zatím toto Intel nezveřejnil) bude mít Larrabee schopnost „převlékat kabát“ u vektorových jednotek mezi optimálním chodem šestnácti jednotek pro jediné výpočetní vlákno, stejně jako optimálním chodem šestnácti jednotek nezávisle na sobě pro co nejvyšší paralelizaci. To je velmi klíčový aspekt pro co nejuniverzálnější využití Larrabbe jak pro úlohy těžící z multi-threadingu, tak pro starší či specifické programy využívající pouze jedno výpočetní vlákno. Ale jak tomu skutečně bude, se dozvíme někdy příště, toto Intel ne-zcela odhalil.

Tagy: