Cache Steamrolleru a výhled na High Density Libraries

31. 8. 2012 | no-X | Procesory, Novinky, Hardware

AMD Steamroller - prezentace Q3 2012 - 02

Poslední týden byl velmi bohatý na novinky papírového charakteru. Intel jakoby se s AMD předháněl, kdo namaluje hezčí procesor - po Knights Corner, Jaguaru a Atomu Valleyview tu máme Steamroller…

Kapitoly článků

1. Instrukční dekodér, výpočetní jednotky, branching a register file

2. Porcovaná L2 cache, micro-ops buffer a High Density Libraries

Cache

AMD rozšířila i kapacitu instrukční L1 cache, ale zatím si nechala pro sebe, o kolik. V případě Bulldozeru byla 64kB a přístupná oběma jádrům. Tím vycházelo na jádro méně, než u předchozích architektur - zvýšení může dávat smysl, ale nakolik se projeví konkrétním výkonnostním nárůstem, není zatím jasné. Až o 30 % má klesnout počet případů, kdy řízení procesoru vyšle do cache pro data skřítka a ten se po prohledání všech šuplíčků vrátí s nepořízenou (paralela s vysvětlením podstaty sklerózy v podání Petra Novotného je čistě náhodná :-).

AMD Steamroller - prezentace Q3 2012 - 03

Zlepšeno bylo spojení mezi L1 a L2 cache. Novinkou generace Steamroller pak bude jakási paměť (AMD ji nenazývá cache, i když v podstatě o cache jde), jejíž obdobu známe z Intel Sandy Bridge - mluvíme o úložišti pro již dekódované mikrooperace a jejich adresy. Přínos této „mikrocache“ se projeví v situacích, kdy by mělo dojít k opakovanému dekódování instrukcí, jehož výsledek už je uložen v tomto bufferu. Dekodér instrukcí pak může požadavek přeskočit a použit bude předsmažený polotovar. Zda se to projeví spíš na výkonu nebo snížení spotřeby, není známo - stejně tak se AMD nepochlubila kapacitou oné paměti - prý je dostačující pro to, aby se její přítomnost pozitivně projevila.

Poslední významnou změnou, která není cílená na servery, ale koncové uživatele (a především mobilní zařízení) je dynamické porcování L2 cache: Procesor může aktivně snižovat kapacitu L2 cache, pokud není potřebná celá. Děje se tak ve čtvrtinových krocích. Typickou situací, pro kterou bude mít změna přínos, je přehrávání videa. To totiž neustále přepíná procesor z režimu nízké spotřeby/aktivity, takže se plně aktivuje i L2 cache, která je jedním z největších „leakerů“ procesoru. Právě při přehrávání videa navíc ani velká cache nenachází uplatnění, takže její redukcí může dojít k významné úspoře energie a vyšší výdrži baterií v notebooku.

High Density Libraries

Poslední kapitola už se netýká generace Steamroller, ale spíš jejího nástupce: Excavator. Mluvíme o jedné z technologií automatizace návrhu čipů, respektive konkrétního rozložení tranzistorů určitého designu. Když je inženýry navržena funkční stránka procesoru, je třeba ještě rozvrhnout, jak konkrétně budou dané tranzistory v čipu uspořádány. To se u klasických procesorů obvykle provádí ručně, ale u grafických čipů naopak automatizovaně (situaci zjednodušujeme, i u CPU se na menší části používá automatizace stejně jako je na krittické části GPU použita ruka inženýra - jde nám ale o základní přístup).

Akvizice společnosti ATi v roce 2006 prý proběhla mimo jiné kvůli získání pokročilých automatizačních technologií, kterými grafická firma disponovala. Ještě samostatná ATi totiž skupovala IP i celé firmy, které se v tomto směru angažovaly, díky čemuž byla schopna velmi rychlé adaptace designu svých grafických čipů na nové výrobní procesy.

AMD zmíněnou technologii vyzkoušela již na čipu Bobcat. Výhoda - dle slov AMD - má spočívat ve zmenšení logiky čipu téměř o třetinu a důsledkem toho i ve snížení energetických nároků o 15 - 30 % (kratší spoje). Zdůrazňujeme, že jde o logiku - na části jako cache, řadiče, rozhraní a podobně, bude mít technologie nižší až nulový dopad. Nevýhoda pak spočívá v omezení maximálních taktovacích frekvencí. AMD konkrétní číslo opět neprozradila, ale v loňském roce jeden z jejích bývalých zaměstnanců mluvil v souvislosti s automatizovanými designy o zhruba 15 %, což pro hrubou orientaci stačí. Podle AMD je spotřeba a velikost jádra kvůli mobilním zařízením důležitější, než absolutní frekvence.

AMD Steamroller - prezentace Q3 2012 - 01

To zní logicky, dokud se na to nepodíváme z druhé strany. Pokud by AMD nepoužila automatizovaný, ale ruční design a k tomu pro čipy do mobilních zařízení nastavila o 15 % nižší frekvenci (s adekvátně nižší voltáží), dosáhla by snížení spotřeby o 15 - 30 % taktéž. Skutečný důvod přechodu na tuto technologii (resp. podstatnou část skutečného důvodu) vidíme trošku jinde.

Frekvence a spotřeba v případě mobilních čipů by de facto byla stejná, ať by AMD použila ruční design s 15% podtaktováním, nebo automatizovaný na plné frekvenci. V desktopu by automatizovaný design měl vést k cca 15% zpomalení nejrychlejšího modelu, nicméně přechod na nový výrobní proces může tuto ztrátu vymazat (i když se nedá říct, že by zrovna AMD měla ve výrobních procesech náskok, kterým může plýtvat). Až sem jsou to „výhody“ nula nula nic.

Přínosy je třeba hledat jinde. Za prvé v ploše jádra, které se může zmenšit o nějakých 10 - 20 %. To v praxi neznamená jen, že se na waffer (jehož cena je konstantní) vměstná více čipů - tedy například 350 namísto 300. Ale znamená to navíc (v důsledku konstantních výrobních defektů), že z těchto 350 čipů bude vyšší procento plně funkčních, než z těch 300.

Druhá výhoda spočívá v úspoře financí a především času v přípravě takového designu. Pokud automatizovaný design umožní nástup nového procesoru na trh o kvartál dříve, než by dovolil ruční, pak málokoho bude trápit, že top model mohl nabídnout o 15% vyšší frekvence.

AMD Bulldozer - Piledriver - Steamroller - Excavator

Jakým způsobem se toto podaří realizovat, se ale nedozvíme ještě ani v příštím roce, kdy nás čeká 28nm Steamroller, ale pravděpodobně až během roku 2014 s generací Excavator.

Tagy: