AMD Instinct MI300: CDNA3 + Zen 4, 146 miliard tranzistorů, 13 čipletů, HBM3

9. 1. 2023 | no-X | Hardware, Novinky, Procesory, Grafiky

AMD na CES ukázala největší čip, jaký kdy připravila a vůbec největší čip poháněný x86 jádry, jaký kdy vznikl. Instinct MI300 tvoří 13 základních čipletů vyrobených 5nm a 6nm procesy a 128 GB HBM3…

Instinct MI300, pracovně označovaný jako Rigel, je patrně nejambicióznější projekt, na kterém AMD kdy pracovala. Důvodů je hned několik. 146 miliard tranzistorů je nejvyšší hodnota, jaká zatím v souvislosti s existujícími nebo ohlášenými produkty pro tento segment vyšla z úst výrobce (bereme v potaz produkty, které počítají s reálnou sériovou výrobou a pokrytím nějakého nezanedbatelného segmentu na trhu; ne experimenty).

produkt	tranzistorů
AMD Instinct MI300 (Rigel)	146 miliard
Apple M1 Ultra (dual-die)	114 miliard
Intel Xe-HPC / Ponte Vecchio	>100 miliard
AMD Epyc (Genoa / Zen 4)	>90 miliard
Nvidia H100 (Hopper)	80 miliard
Nvidia GeForce RTX 4090 / AD102	76,4 miliard
AMD Instinct MI250X (Aldebaraan)	58,2 miliard
AMD Radeon RX 7900 XTX (Navi 31)	57,7 miliard
IBM Telum (dual-chip modul)	45 miliard
Power10 (dual-chip modul)	36 miliard
AWS Graviton2	30 miliard
AMD Phoenix (APU)	>25 miliard

Instinct MI300 tak překonává i dlouho připravovaný Ponte Vecchio od Intelu ze 47 dlaždic nebo Apple M1 Ultra vzniklý spojením dvou modulárních čipů.

Další prvotinou tohoto produktu je, že jde o de facto první známé čipletové APU. Což zároveň znamená, že představuje první produkty řady Instinct, který krom výpočetních jader obsahuje i jádra procesorová.

Hrubou podobu Instinct MI300 zveřejnil již YouTube kanál MLID v dubnu loňského roku (výše). Údaje měl správné, jen jeden detail je potřeba upřesnit. K dispozici měl snímek pouze části čipu, takže pro ilustraci celého SoC tuto část naklonoval. Celková podoba tak odpovídá skutečnosti, pouze jedna drobnost nesedí. Protože část, kterou měl k dispozici, představovala jeden (obdélníkový) podložní čiplet, na němž jsou navrstvené dva (cca čtvercové) výpočetní čiplety, vznikl obrázek s celkem 8 výpočetními čiplety, ale žádným procesorovým. Přestože i taková konfigurace je teoreticky možná, primární konfigurace, kterou AMD nyní prezentuje (a která pravděpodobně bude pohánět superpočítač El Capitan) bude mít malinko odlišnou konfiguraci:

Instinct MI300 využívá 4 základních 6nm čipletů, na které budou vrstveny 5nm čiplety. Tyto základní 6nm čiplety nejsou jen podložkami, ale jde o tzv. aktivní čiplety, což znamená, že integrují i nějaké (zatím neupřesněné) funkce. Příkladem pro představu mohou být např. PCIe řadiče, HBM rozhraní ap. (to jsou skutečně jen příklady, bližší detaily zatím neznáme a osobně bych čekal především tunu SRAM využité jako cache). Tři z těchto 6nm základních čipletů ponesou 5nm výpočetní čiplety. Každý dva kusy. Výpočetních čipletů tedy bude celkem šest. Jeden z 6nm základních čipletů ponese tři 5nm čiplety, každý s osmi jádry Zen 4, celkem tedy 24 jádry.

6nm aktivní čiplet: 2× 5nm CDNA 3 čiplet
6nm aktivní čiplet: 2× 5nm CDNA 3 čiplet
6nm aktivní čiplet: 2× 5nm CDNA 3 čiplet
6nm aktivní čiplet: 3× 5nm (8×) Zen 4 čiplet

Lze odhadovat, že každý z celkem šesti CDNA 3 čipletů ponese ~6144 stream-procesorů a ~384 tensor cores (může to být méně, pokud AMD výrazně zvýší taktovací frekvence, nebo naopak více, pokud takty nijak nestoupnou či dokonce klesnou - odvozujeme z orientačního cílového výkonu, ale nevíme, jakou kombinací taktů a počtu jednotek ho AMD plánuje dosáhnout).

AMD zatím neposkytla žádné bližší údaje o procesorové části. Údaj o trojici čipletů po osmi jádrech může být spekulací médií (byť postavenou na potvrzené přítomnosti 24 jader a trojici čipletů vycházející pro procesorovou část). Ovšem přinejmenším render od AMD (úvodní snímek) použití tří symetrických procesorových čipletů nenapovídá.

Spekulace na téma využití menších jader Zen 4c vyvrátil leaker Bondrewd. Hodnota 24 jader může vyznívat trochu nezvykle, ale při konfiguraci SoC dává smysl alespoň z hlediska poměru: Na každých osm jader Zen 4 totiž vycházejí dva výpočetní čiplety.

foto: Marco Chiappetta

AMD do celkového počtu čipletů (4 podložní + 6 výpočetních + 3 procesorové = 13 celkem) zjevně nezapočítává „hloupou“ základní podložku (interposer) ani osm dalších (menší) čipletů umístěných mezi HBM3 čipy, které by snad mohly být rozhraním pro paměti(?)

	AMD Radeon Instinct MI60	Instinct MI100	Instinct MI210	Instinct MI250X	Instinct MI300
označení	Vega 20	Arcturus	Aldebaran		Rigel
architektura	GCN 4	CDNA	CDNA 2		CDNA 3
CPU					24× Zen 4
formát	PCIe	PCIe	PCIe	OAM	OAM
CU/SM	60	120	104 (128)	220 (256)	384+?
FP32 jader	3840	7680	6656 (8192)	14080 (16384)	24k+?
FP64 jader	-	-	-	-	-
INT32 jader	-	-	-	-	-
Tens. Cores	-	440?	416	880	?
takt	1800 MHz	1502 MHz		≤1700 MHz	?
	↓↓↓ T(FL)OPS ↓↓↓
FP16	29,5	184,6	181	383	?
BF16		92,3	181	383	?
FP32	14,7	23,5	45,3 22,6	95,7 47,9	?
FP64	7,4	11,5	22,6	47,9	?
INT4	118	184,6	181	383	?
INT8	59,0	184,6	181	383	?
INT16	29,5	?	?	?	?
INT32	?	?	?	?	?
FP8 tensor					1500 3000*
FP16 tensor		184,6	181	383	750?
BF16 tensor		92,3	181	383	750?
FP32 tensor		46,1	45,3	95,7	190?
TF32 tensor					?
FP64 tensor			45,3	95,7	190?
INT4 tensor					?
INT8 tensor		184,6	181	383	?
	↑↑↑ T(FL)OPS ↑↑↑
TMU	240	480^?	-	-	-
sběrnice	4096bit	4096bit	4096bit	8192bit	8192bit
kapacita paměti	32 GB	32 GB	64 GB	128 GB	128 GB
HBM	2,0 GHz	2,4 GHz	3,2 GHz	3,2 GHz	HBM3
paměť. propustn.	1024 GB/s	1229 GB/s	1639 GB/s	3277 GB/s	~5 TB/s
TDP	300 W	300 W	300 W	500W 560W	600W+?
transistorů	13,2 mld.	50 mld. 25,6 mld.	29,1 mld.	58,2 mld.	146 mld.
plocha GPU	331 mm²	750 mm²	½ MI250X	?	660 mm²?
proces	7 nm	7 nm	6nm	6nm	5nm+6nm
datum	2018	2020	2022	2021	2023

*s využitím sparsity

AMD avizovala, že Instinct MI300 posune energetickou efektivitu až na pětinásobek Instinct MI250X:

A zároveň, že výkon v AI stoupne až osminásobně. Tento údaj upřesnila, týká se výpočtů v FP8 formátu s využitím sparsity. Minulá generace režim sparsity nepodporovala, což znamená, že surový výkon v FP8 stoupl čtyřnásobně. Dále můžeme dedukovat na základě faktu, že FP8 nebyl na minulé generaci podporován nativně, takže pokud by ho někdo chtěl využít, byl by výkon v něm na stejné úrovni jako při FP16. Pokud tedy AI (tensor) výkon Instinct MI300 v FP8 bude na čtyřnásobku výkonu Instinct MI250X v FP16 a s využitím sparsity na osminásobku, pak se dostáváme na hodnoty 1532 / 3064 TFLOPS pro tento formát. Z toho by pak bylo možné odhadovat, že výkon v ostatních formátech v tensorových operacích (bez využití sparsity) stoupne na dvojnásobek a s využitím sparsity (bude-li na daných formátech podporovaná) na čtyřnásobek. Tím už se ale dostáváme na poměrně tenký led spekulací.

foto: Future

Instinct MI300 využije HBM3. Z konfigurace na snímku a údaji o 128GB kapacitě pak jasně vyplývá, že půjde o 8192bit sběrnici. Jak rychlé čipy AMD zvolí, zatím neprozradila, ale lze odhadovat, že datová propustnost stoupne minimálně na ~5 TB/s.

AMD oznámila, že v blízké době začne dodávat vzorky Instinct MI300 partnerům, rovněž v blízké době (tedy snad v návaznosti na to) zveřejní další informace, mimo jiné o způsobu propojení vrstev a čipletů. Distribuce sériově vyráběných kusů se chystá na druhé pololetí letošního roku.

Tagy:

SoC, APU, chiplet, Instinct, 5nm, 6nm, HBM3, CDNA 3, AMD, 2023

Zdroje:

AMD

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku AMD Instinct MI300: CDNA3 + Zen 4, 146 miliard tranzistorů, 13 čipletů, HBM3

Úterý, 10 Leden 2023 - 13:10 | Waffer47 | Pride doba kdy si jiz uzivatel/zakaznik bude...

Pondělí, 9 Leden 2023 - 18:46 | lubo76 | V tabuľke chýba Aldebaran MI200 - > 100 mld....

Pondělí, 9 Leden 2023 - 10:09 | mayday | Pri tom titulnom obrázku som si spomenul na...

Pondělí, 9 Leden 2023 - 03:55 | Lazar | V tabulce je asi chybně RTX 3090 u AD102.

Pondělí, 9 Leden 2023 - 00:14 | Anonym | To jako že by šla 3Dcache dát dospod. A chiplet s...

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

AMD Instinct MI300: CDNA3 + Zen 4, 146 miliard tranzistorů, 13 čipletů, HBM3

Jiří "no-X" Souček

Diskuse ke článku AMD Instinct MI300: CDNA3 + Zen 4, 146 miliard tranzistorů, 13 čipletů, HBM3

Komerční sdělení

CDR Hry

Epic rozdává zdarma dvě hry

Levnější vánoční dárky? Kde hledat kupony a jak se vyhnout falešným slevám

Vědci představili plast, který se po použití sám rozpadne a nezatíží přírodu

Čtrnáct let tichého hackingu. Obří síť falešných hazardních webů je jen zástěrka

Google vylepšuje Android: Circle to Search odhalí podvodný obsah na displeji

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT