RDNA 3 vrací do hry VLIW-2? Vyloučit to nelze
Informace o využití VLIW-2 tentokrát nemá původ u zdrojů tzv. leakerů, ale vychází z ovladačů. To je na jedné straně věrohodnější (zdroje leakerů - výrobci karet a továrny - nemají detailní specifikace architektury, takže by bylo podezřelé, měl-li by takový údaj pocházet od nich), na straně druhé to znamená, že tyto údaje není jak potvrdit (ani vyvrátit).
Co je vlastně VLIW. V kontextu grafických čipů situaci nejlépe vysvětlíme na srovnání architektur. Současná architektura RDNA je v podstatě derivátem GCN; základní principy jsou stále stejné. Byla to právě GCN, která v portfoliu AMD nahradila VLIW, takže bude stačit návrat do roku 2012:
↑ Výpočetní jednotka (CU, Compute Unit) architektury GCN sestává ze čtyř SIMD (Single Instruction, Multiple Data = jedna instrukce prodáděná na větším objemem dat) a každý SIMD obsahuje 16 stream-procesorů. Každý z těchto 16 stream-procesorů tedy provádí stejnou instrukci, ale na různých datech.
↑ Do vydání GCN tomu ale po několik generací bylo jinak. S Radeony HD 6900 byly stream-procesory uspořádány ve čtveřicích a každý stream-procesor této čtveřice mohl provádět jinou instrukci (ovšem rozložení instrukcí bylo stejně pro všechny čtveřice v jednom SIMD bloku). Toto řešení patří do kategorie tzv. VLIW (Very Long Instuction Word), konkrétně VLIW-4 (čtyři instrukce). Architekturu VLIW-4 využívala AMD jen krátce a přechodně, ale po dlouhá léta využívala VLIW-5 (na schématu výše si každé čtveřici barevných kostiček domyslete ještě pátou).
Proč AMD VLIW opustila? Důvod zmínil v jednom z rozhovorů tehdejší grafický šéfinženýr, Eric Demers. Právě ten byl velkým zastáncem VLIW a tvrdil, že kdyby bylo na něm, neopustil by konfiguraci VLIW-5, která podle jeho tvrzení byla nejefektivnějším řešením z hlediska herního výkonu na tranzistor. Tehdejší vedení firmy, které bylo fascinováno cenami, za které Nvidia prodávala v podstatě herní karty ve výpočetním segmentu, ale na Demerse tlačilo, aby přišel s architekturou, která je krom desktopu šíře uplatnitelná i ve výpočetní sféře.
Prvním krokem byl přechod z VLIW-5 na VLIW-4. Proč: Pátá jednotka byla totiž o něco vybavenější než první čtyři. Byla označována jako SFU, Special-Function Unit a podporovala i operace, které základní čtveřice neuměla. To bylo řešení optimální z pohledu 3D grafiky, nikoli z pohledu výpočtů: Přesnost výpočtů těchto speciálních funkcí, která byla vyžadovaná ve světě 3D, totiž nebyla natolik vysoká, aby mohla být využita ve výpočetním segmentu. Z hlediska výpočetního nasazení tedy šlo o zbytečně vynaložené tranzistory, takže pátá jednotka byla vynechána a její schopnosti rozloženy na čtveřici jednotek - tak vznikla VLIW-4.
Opuštění VLIW pak bylo dalším krokem vstříc výpočetnímu nasazení. Příkladem byly tzv. závislé výpočty, kdy je zahájení jednoho výpočtu závislé na výsledku (dokončení) předchozího. V takovém případě mohlo u VLIW-4/5 dojít k situaci, že z každé čtveřice / pětice byl využit pouze jeden stream-procesor, neboť další výpočty nemohly být spuštěny, dokud nebude znám výsledek počítaný právě na onom jednom stream-procesoru. V takové situaci bylo 75-80 % výpočetních jednotek nevyužitých. Retrospektivně je potřeba dodat, že šlo skutečně o příklad (v praxi nijak obvyklý, mediálně nadsazovaný, na druhé straně existovaly i jiné a možná závažnější důvody, proč výpočetní segment nebyl nakloněn VLIW).
S rozdělením architektonického vývoje na grafickou architekturu RDNA a výpočetní CDNA tak z principu může AMD u RDNA činit kroky, které prospívají 3D grafice, ale neprospívají výpočetnímu nasazení. Z hlediska efektivity herního výkonu na tranzistor také VLIW nejde proti trendu, který musí vývoj nových architektur nabrat s ohledem na zpomalující vývoj výrobních procesů. Dále lze říct, že tu už byly zprávy o jakémsi přeskupení výpočetních jednotek, které budou organizované v počtu 2× vyšším (nasazení VLIW-2 by bylo jednou z řady možností; přinejmenším jde o informace, které si neodporují). Nakonec jsou tu ony zmíněné indicie z ovladačů.
Vše, co bylo jmenované, jsou ale opravdu jen indicie. Máme určité dílky puzzle, které lze určitým způsobem sestavit a dávají smysluplný obraz. Jsme však v situaci, kdy tyto dílky můžeme poskládat zcela odlišným způsobem a dají nám zcela jiný, ovšem stejně smysluplný obraz. Na VLIW-2 tak zatím můžeme hledět jako na jednu z přípustných možností konfigurace RDNA 3.