AMD Zeppelin má čtyřkanálový řadič, Greenland výkon přes 4 TFLOPS
Před dávnými měsíci vydala Fudzilla krátký článek s výřezem z jakéhosi slajdu, který předkládala jakožto originální produkt AMD. Tehdy tomu nikdo nevěnoval přílišnou pozornost, pověst Fudzilly, co se informací o nadcházejících produktech týká, už léta není valná. Informace na schématu nebylo možné ani částečně ověřit a neexistovalo tehdy nic, co by pomohlo rozlišit, zda se jedná o malůvku redakce, která se snaží upoutat pozornost, nebo reálný materiál.
Nyní, jak upozornil známý procesorový analytik Matthias Waldhauer alias Dresdenboy, se název Zeppelin (použitý na slajdu) objevil v patchi na LKML.org:
AMD Zeppelin (Family 17h, Model 00h) introduces an instructionsretired performance counter which indicated byCPUID.8000_0008H:EBX[1]. And dedicated Instructions Retired register(MSR 0xC000_000E9) increments on once for every instruction retired.
Toto dává barevnému schématu mnohem vyšší kredit a můžeme jej považovat za původní. Znázorňuje pouzdro, patrně rozměrné, na kterém bude umístěná křemíková podložka (interposer) nesoucí GPU Greenland s HBM pamětmi. Vedle podložky s grafickým jádrem má prostor procesor Zeppelin. Operační paměť už bude řešená standardně DDR4 moduly umístěnými někde mimo pouzdro.
Nyní podstatné detaily. Mezi procesorem Zeppelin a paměťovými moduly je vyznačena datová propustnost 100 GB/s, což při zakreslených DDR4-3200 odpovídá čtyřem kanálům. Čtyřkanálový řadič v situaci, kdy grafické jádro disponuje vlastní pamětí, zcela nepochybně indikuje, že se schéma týká čistě profesionálního segmentu. Byť se lze setkat s diskusemi na téma „Hurá, je konec samostatným grafickým kartám“, jsou nemístné, neboť toto není produkt pro herní desktop.
Pro jaký segment může být určen? To napovídá způsob propojení mezi CPU Zeppelin a GPU Greenland. Všimněte si, že není použita tradiční PCIe sběrnice (s propustností 15,75 GB/s tam a 15,75 GB/s zpět), ale několikanásobně rychlejší rozhraní o 100 GB/s. Zajištění vysoké datové propustnosti mezi CPU a GPU indikuje, že produkt cílí na výpočetní segment. Právě nasazení HSA je velmi závislé na latencích a datové propustnosti mezi procesorovými a grafickými jádry (vzpomeňme, že APU Kaveri, které integruje procesorová a grafická jádra v jednom čipu, dokázalo v některých úlohách při využití HSA díky těsnějšímu propojení obou částí dosahovat vyššího výkonu, než kombinace několikanásobně rychlejšího procesoru a grafické karty propojené přes PCIe).
Segment i využití je již jasné, přesto lze vyčíst ještě něco víc. O GPU Greenland není známo prakticky nic - snad až na informaci, že snad finální verze ponese nové označení Vega 10. Ze schématu se dozvídáme dvě podstatné informace: Datová propustnost 500 GB/s indikuje, že nebudou osazené čtyři moduly HBM (4096bit), ale jen dva (2048bit), což odpovídá i diagramu. Paměťová propustnost by (přinejmenším u tohoto provedení) neměla být vyšší než u stávajícího GPU Fiji.
Uvedený výpočetní výkon 4+ TFLOPS (evidentně double-precision) odpovídá 4096 stream-procesorům na minimálně 1GHz, což je konfigurace jako na GPU Fiji, ovšem s tím rozdílem, že Greenland podporuje double-precision v poměru 1:2 (jako umělo např. GPU Hawaii). Pokud bude Greenland tím, čím byl v tomto půl roku starém schématu, pak by šlo o produkt podobné hardwarové konfigurace jako zmíněná Fiji. Výkonnostní rozdíly by pramenily spíše z architektonických rozdílů než z navýšení teoretického výpočetního výkonu. Druhou možností je, že ono „4+ TFLOPS“ má indikovat pouze fakt, že výpočetní potenciál GPU Greenland bude vyšší než u současné generace - bez upřesnění toho, o kolik.
Nakonec krátká poznámka k procesoru Zeppelin: Jde o stejnou architekturu jako Zen (Family 17h), patrně však o profesionální / serverovou verzi. Internetem kolují „zaručené zprávy“ o tom, že procesor Zeppelin znázorněný na schématu je 32jádrový. Jde ovšem o kachnu vzniklou nepochopením informace, že kód pro vyjádření procesorových bloků Zeppelinu je 3bitový, což znamená, že teoreticky umožňuje vyjádřit kombinaci až osmi čtyřjádrových bloků, tedy až 32 jader na socket. To ovšem neznamená a ani nijak nepotvrzuje, že procesorová část znázorněného čipu ponese 32 jader. Dokonce by to ani nedávalo smysl - řeč je totiž o produktu, kde bude mít paralelizovatelné výpočty za úkol výpočetně zaměřené GPU. Na procesorovou část pak zůstanou úlohy, které příliš paralelizovatelné nejsou a pro takové se spíš než desítky jader na nízkých taktech hodí nižší počet jader na vyšších frekvencích, tedy co nejvyšší výkon na jádro.