Exkluzivně: Padá NDA na APU Carrizo. Co AMD dokázala vydojit z 28 nanometrů?
Hned úvodem upřesníme rozsah nových informací: Nejde o oficiální vydání, jde o odhalení technologií, které souvisejí s výkonem, spotřebou, efektivitou a zlepšeními oproti APU Kaveri. Nedozvídáme se zatím o přehledu modelů a jejich taktech, ale dozvídáme se, co je vlastně Carrizo zač, do jakého segmentu bude mířit a nepřímo i proč v letošním roce dojde jen na mobilní verzi.
I přesto si ale můžeme potvrdit několik podstatných informací, které dosud prosakovaly pouze neoficiální cestou: Carrizo bude hardwarově podporovat 4k video - h.265 / HEVC, obvody pro převod videa jsou 3,5× rychlejší než na Kaveri a grafické jádro vychází z nové generace GCN architektury, což pravděpodobně znamená delta-kompresi, zcela jistě DirectX 12 a další novinky, o kterých se dosud hovořilo: plná podpora HSA (alias HSA 1.0), integrovaný čipset, integrovaný bezpečností procesor (ARM TrustZone) a jednotný socket s ULP jádry Carrizo-L (která jsou tímto po spekulacích z minulého týdne potvrzena).
První slajd rekapituluje obecné výhody APU, v tomto případě SoC. Carrizo bude první z velkých jader AMD, které integruje nejen GPU, CPU a společný paměťový řadič, ale také čipset. Úzká integrace umožňuje samozřejmě i nějakou úsporu energie, ale v porovnání s následujícími technologiemi jde o marginální rozdíl. Zajímavostí je ale fakt, že zatímco Intel v tomto segmentu má procesor a čipset stále jako samostatné kousky křemíku v rámci jednoho pouzdra, v případě Carrizo jde o jeden čtvereček křemíku. Přesněji řečeno obdélníček - schéma na slajdu ilustruje tvar jádra docela věrně, je opravdu poměrně výrazně protáhlé.
APU Carrizo bude vybaveno novými procesorovými jádry Excavator, nástupcem generace Steamroller, kterou známe z APU Kaveri. AMD na generaci Excavator měla dva zásadní požadavky: Aby byla výrazně energeticky efektivnější než Steamroller a aby byla výrazně menší než jádra Steamroller. Tyto požadavky jsou snadno pochopitelné, pokud si uvědomíme, že AMD pro letošní rok zůstane na 28 nanometrech a pokud ke zmenšení jader a snížení spotřeby nepomůže výrobní proces, musí být těchto cílů dosaženo jinak. Obzvlášť zmenšení byla nutnost, bez které by nebylo možné integrovat čipset a rozšířenou podporu pro nové videostandardy.
AMD pro implementaci návrhu procesorových jader Excavator použila knihovny, se kterými má zkušenost grafická divize z návrhů GPU. Ty se vyznačují dosažením výrazně vyšší hustoty (denzity), zkrátka vyšším počtem tranzistorů na čtvereční milimetr. Obrázky vlevo dole ilustrují, o kolik se díky těmto knihovnám podařilo zmenšit některé části procesorového jádra. Aby bylo možné teoretických rozdílů využít i v praxi, rozhodla se AMD ve spolupráci s výrobcem (zřejmě GlobalFoundries) změnit i kovové vrstvy na podobné, jaké využívá při výrobě grafických čipů. Rozměry kompletní procesorové části (míněno včetně cache) díky těmto optimalizacím klesly o 23 %.
Graf vpravo nahoře na slajdu ilustruje pokles spotřeby v případě dvojice procesorových jader Excavator oproti dvojici procesorových jader Steamroller při stejných taktech. Mějte však na paměti, že tyto křivky odrážejí pouze rozdíl daný optimalizací, které se týká tento slajd, nikoli celkový rozdíl. Největší rozdíl je zde mezi 5 a 10 watty, přičemž právě to je typický rozptyl spotřeby procesorových jader u mobilních 15W APU.
Další slajd naopak ilustruje zlepšení energetické efektivity grafického jádra, které pro změnu převzalo některé optimalizace dosud používané jen u procesorů. Díky nim bylo možné o 18 % snížit leakage, čehož lze využít k taktům o 10 % vyšším oproti Kaveri (při zachování stejné spotřeby) nebo k úspoře 20 % energie (při zachování stejných taktů). I když jsem v úvodu zmiňoval, že se AMD zatím nepodělila o specifikace konkrétních modelů APU, jeden údaj tu přecijen máme. Zatímco u Kaveri nebylo možné v TDP hladině pod 20 wattů nabídnout model APU, který by měl aktivních všech 8 výpočetních bloků grafického jádra (512 SP), v případě Carriza se takový model objeví a varianty s aktivními 512 SP budou mezi 35W, 25W i <20W modely.
Další technologie přináší energetickou úsporu procesorové i grafické části. Řeší problém krátkodobých poklesů napětí, se kterými se potýkají všechny čipy - procesory i grafická jádra. Žádný zdroj a napájecí obvody nedokážou držet permanentně zcela stabilní napětí, které ani na zlomek milisekundy nezakolísá. Aby tyto krátkodobé propady nepůsobily nestabilitu, používá se jako standardní řešení o ~10 % vyšší napětí, než jaké by bylo třeba v případě teoreticky dokonale stabilního napětí. To má za následek zvýšení spotřeby o ~20 %.
AMD se s Carrizem odhodlala k jinému řešení. Do procesorových i grafických jader implementovala technologii nazvanou Adaptive Clocking, která v méně než nanosekundových intervalech monitoruje napětí a při zjištění jeho poklesu okamžitě reaguje adekvátním snížením taktů po dobu tohoto propadu. Výsledkem je, že čip může běžet na taktech o ~5 % vyšších bez zvýšení napětí (spotřeby) nebo snížit spotřebu procesorové části až o 19 % a grafické až o 10 %.
Podobně jako v předchozím případě ušetřila AMD watty na nedokonalostech napájení, tak další watty bylo možné ušetřit na nedokonalostech výrobního procesu. Každý vyrobený křemíkový čip je do jisté míry unikátní, ale na trh jde vždy jen několik konkrétních modelů procesoru. To znamená, že není možné pro každý čip jednotlivě určit nejnižší možné napětí, se kterým by běžel stabilně, ale pro všechny čipy jednoho modelu je určené jedno, které musí být tak vysoké, aby s ním každý čip běžel stabilně. Reálně by ale třeba u jednoho čipu stačilo o pár desetin voltu méně pro první procesorové jádro, jinému by stačilo o pár desetin voltu méně pro třetí a čtvrté procesorové jádro... a podobně.
Právě na tom se snaží uspořit další watty technologie AVFS: adaptive voltage and frequency scaling. Každé jádro Excavator integruje 10 AVFS modulů, které sledují aktuální takty a reálné napětí, čímž rozšiřují dosud používaný set snímačů teploty a spotřeby. Díky nim může řízení spotřeby daleko lépe a přesněji určovat napájecí napětí a stabilně dosažitelné frekvence pro konkrétní kousek čipu tak, aby spotřeba nebyla vyšší, než je pro požadované takty nutné. To dokáže AVFS vyhodnocovat i v závislosti na teplotě (v závislosti na teplotě se totiž mění i leakage), takže zlepšuje chování čipu i s ohledem na jeho chlazení (zda jde např. pasivně chlazený systém běžící při vyšších teplotách nebo aktivně chlazený notebook). Jak ukazuje graf vpravo, AVFS dále snižuje spotřebu a výsledkem všech popsaných technologií Excavatoru je až 40% pokles spotřeby oproti jádrům Steamroller v Kaveri.
Protože mluvíme o mobilním čipu, bude nemalou roli ve výdrži baterie na jedno nabití hrát také spotřeba v klidu. AMD dále propracovala power-gating, takže v klidu konzumuje celé APU Carrizo (tedy včetně čipsetu!) méně než 1,5 wattu. V nově implementovaném režimu S0i3 klesá jeho spotřeba pod 50 miliwattů, což je úroveň srovnatelná s „režimem spánku“ S3. Výhoda je ale ta, že do režimu S0I3 může systém přejít během pouhých 500 milisekund, protože to nevyžaduje žádné akce ze strany operačního systému. Proces uspání a probuzení jádra je tedy prakticky okamžitý a neobnáší další energetické nároky.
Shrnuto podtrženo, procesorová jádra Excavator (Carrizo) jsou oproti Steamroller (Kaveri) schopná dosáhnout při až o 40 % nižší spotřebě o 5 % vyšší IPC (dvojnásobná datová cache, podpora nových instrukcí), což je z hlediska energetické efektivity největší posun za novodobou historii AMD. Abychom ale nebyli jen optimističtí, je třeba připomenout, že tato čísla se týkají <20W modelů mobilních procesorů. U klasických 35W mobilních bude rozdíl o něco nižší; přesto pravděpodobně velmi citelný.
Úvodem jsem zmínil, že informace od AMD dávají nepřímou odpověď na to, proč je Carrizo ve stávající podobě převážně mobilní produkt. Pokud se podíváme na graf, který ilustruje závislost spotřeby na taktech pro procesorová jádra Excavator (modře) a Steamroller (oranžově), zjistíme, že Excavator není lepší vždy, ale jen zhruba do cca 25 wattů (na dvojici procesorových jader). Pokud by graf vedl dál, je zjevné, že by se kolem těchto 25 wattů obě linie protnuly. Od AMD máme informaci, že 15W APU pro procesorovou část využívá maximálně 10 wattů (tzn. maximálně 67 % celkové energie). Zbylých 5 W jde na integrovaný čipset, řadič pamětí, minimum pro GPU a další obvody. U čtyřjádrového 35W APU můžeme předpokládat, že na všechna čtyři procesorová jádra půjde celkem 25-30 wattů, tzn. 12,5-15 wattů na dvojici jader. Z grafu je zjevné, že při 12,5-15 wattech je stále Excavator mnohem efektivnější než Steamroller.
Zkusme ale vzít v potaz hypotetické desktopové 65W APU. V jeho případě půjde na CPU až cca 50-55 W (v desktopu běží řadič i čipset na vyšších taktech, takže jim je třeba vyhradit o pár wattů navíc), což znamená 25-27,5W na dvojici jader. Tím se dostáváme do bodu, kdy jádra Excavator mají totožnou spotřebu jako jádra Steamroller. Spotřeba a takty jsou stejné, výkon Excavatoru je však stále ještě mírně lepší díky vyššímu IPC. Pokud by ale šlo o 95W APU, kdy na dvojici procesorových jader připadá kolem 40 wattů, byl by výkon staršího Steamrolleru vyšší, protože by mohl běžet na vyšších taktech. Excavator by tudíž v 95W desktopu neměl smysl. Zdá se, že AMD pro desktopovou verzi, kterou čekáme v příštím roce, použije odlišně vyladěné technologie, které budou namísto pro mobilní čipy optimalizované pro vyšší hladiny TDP. To už je ale spekulace.
Jádra APU Carrizo (červeně grafická část, béžově procesorová jádra, hnědě pravděpodobně řadič)
Vraťme se k mobilnímu APU Carrizo. Datum jeho vydání zatím potvrzené nebylo, ale stále se předpokládá, že půjde o druhý kvartál, tzn. rozmezí března až června. Vypadá to, že co do snížení spotřeby se AMD podaří udělat krok srovnatelný s přechodem na o stupeň nižší výrobní proces (20nm), který není k dispozici. Přesto to Carrizo nebude mít jednoduché. Stát totiž bude proti 14nm Broadwellu od Intelu, jehož tranzistory budou téměř 4× menší. Zvládne se Carrizo prosadit?
AMD (confcall)