Vektorová jednotka
Kapitoly článků
Tento diagram ukazuje blíže konstrukci vektorové ALU v každém výpočetním jádru Larrabee. AMD i nVidia staví svůj výkon pomocí tzv. stream procesorů, Intel pomocí těchto 16-wide vektorových ALU.
Vektorová ALU může fungovat buď jako 16-wide single precision ALU, nebo jako 8-wide double precision. Na tomto místě se sluší připomenout, že v single precision dosahují RV770 i GT200 výkonu kolem 1 TFLOPs, v double precision ATI umí přes 200 GFLOPs, nVidia něco kolem 100 GFLOPs.
Opět připomeňme, že nVidia GT200 má 240 komplexních výpočetních jednotek, zatímco ATI má tyto jednotky členěny na pět „menších“, a proto se u RV770 dostávají k počtu 800, byť všichni dobře víme, že 128 a 800 nelze v tomto kontextu co do počtu srovnávat mezi sebou.
Každopádně nVidia může v jednom výpočetním segmentu (stream procesoru, kterých má až 240) vykonávat jednu operaci. Vektorová jednotka Larrabee umí naráz šestnáct operací (bavíme se o single-precision). Přitom se počítá, že ve výsledném produktu Larrabee bude obsaženo 16 až 32 vektorových jednotek, což dává celkové číslo (ale opět zdůrazňuji, že to nelze na základě počtu porovnávat) 256 až 512 vector ALU.
Co se týče kompilace kódu pro taková řešení, tak právě AMD se svou „5-wide“ architekturou vyžaduje kvalitní kompilátor, který si poradí s paralelizací úloh, aby bylo zatížení GPU pokud možno vyrovnané a optimální. Na pomoc zde má i dílčí prvky architektury jako třeba Ultra Threaded Dispatch Processor, ale to samo o sobě samozřejmě nestačí. Závislost Larrabbee na kvalitní kompilaci kódu bude ještě vyšší, ale tohle je věc, kterou Intel umí zatraceně dobře a podle odhadů (zatím toto Intel nezveřejnil) bude mít Larrabee schopnost „převlékat kabát“ u vektorových jednotek mezi optimálním chodem šestnácti jednotek pro jediné výpočetní vlákno, stejně jako optimálním chodem šestnácti jednotek nezávisle na sobě pro co nejvyšší paralelizaci. To je velmi klíčový aspekt pro co nejuniverzálnější využití Larrabbe jak pro úlohy těžící z multi-threadingu, tak pro starší či specifické programy využívající pouze jedno výpočetní vlákno. Ale jak tomu skutečně bude, se dozvíme někdy příště, toto Intel ne-zcela odhalil.