CDNA 4 / Instinct MI350 přináší 2-4× vyšší ML výkon a 30× rychlejší inferenci

17. 6. 2025 | no-X | Hardware, Novinky, Grafiky

Zdroj: AMD

Čtvrtá generace CDNA 4 odsouvá HPC segment na druhou kolej a cílí primárně na AI. Nasazuje 3nm proces, optimalizuje efektivitu a výrazně posouvá výkon v maticových výpočtech…

Základní podobě CDNA 4 / Instinct MI350 jsme se již věnovali, takže se zaměříme na to, co zatím řečeno nebylo.

AMD Instinct MI350X: 1000 wattů, Instinct MI355X: 1400 wattů, distribuce začala

Začněme u křemíkových kostiček. Zůstalo o osmi XCD, výpočetních čipletů, které jsou umístěny na IOD, komunikačních čipletech. XCD se přesunuly z 5nm procesu TSMC na 3nm, konkrétně na N3P. IOD zůstaly na 6nm, využily vyladěné výtěžnosti a z původních čtyř klesl jejich počet na dvě (větší).

Každá XCD nese 36 CU (výpočetních bloků), z nichž je aktivních 32. Celkem tedy 8× 32 CU = 256 aktivních CU. Mezigeneračně tedy počet CU klesl, stoupla však výbava. Za pozornost stojí, že počet tranzistorů stoupl jen mírně, alespoň oproti předchozím generacím: Ze 153 na 185 miliard, tedy o méně než 21 %.

AMD Instinct MI355X (AMD)

Důvodem jsou jednak optimalizace návrhu a jednak pragmatičtější přístup AMD. Gró současné poptávky tvoří AI akcelerace, takže se CDNA 4 zaměřila na ni a klasické výpočetní nasazení nechala plavat (výkon ve vektorových výpočtech zůstal na úrovni minulé generace, přesněji řečeno nepatrně klesl). O to více stoupl naopak výkon v tenzorových výpočtech. V případ formátů FP6 a FP4 narostl 4× (předchozí generace neměla nativní podporu) a u většiny ostatních formátů stoupl 2×. V tabulce jsme museli přistoupit k vyjádření výkonu v tenzorových operacích v P(FL)OPS, „aby se nám ty králíky do toho vešli“.

	Instinct MI100	Instinct MI210	Instinct MI250X	Instinct MI300A	Instinct MI300X	Instinct MI355X
označení	Arcturus	Aldebaran		Rigel		?
architektura	CDNA	CDNA 2		CDNA 3		CDNA 4
CPU				24× Zen 4
formát	PCIe	PCIe	OAM	socket SH5	OAM	OAM
CU/SM	120	104 (128)	220 (256)	228	304	256
FP32 jader	7680	6656 (8192)	14080 (16384)	14592	19456	16384
FP64 jader	-	-	-	-	-	-
INT32 jader	-	-	-	-	-	-
Tens. Cores	440?	416	880	?	?	1024
takt (max.)	1502 MHz		1700 MHz	2100 MHz		2400 MHz
	↓↓↓ T(FL)OPS ↓↓↓
FP16	184,6	181	383	980,6	1300	?
BF16	92,3	181	383	980,6	1300	?
FP32	23,5	45,3 22,6	95,7 47,9	122,6	163,4	157,3
FP64	11,5	22,6	47,9	61,3	81,7	78,6
INT4	184,6	181	383	?	?	?
INT8	184,6	181	383	1960	2600	?
INT16	?	?	?	?	?	?
INT32	?	?	?	?	?	?
FP4 tens.						20,1P* 10,1P
FP6 tens.						20,1P* 10,1P
FP8 tens.				3922,4* 1961,2	5229,8* 2614,9	10,1P* 5,0P
FP16 tens.	184,6	181	383	1961,2* 980,6	2614,9* 1307,5	5,0P* 2,5P
BF16 tens.	92,3	181	383	1961,2* 980,6	2614,9* 1307,5	5,0P* 2,5P
FP32 tens.	46,1	45,3	95,7	122,6	163,4	?
TF32 tens.				980,6* 490,3	1307,4* 653,7	?
FP64 tens.		45,3	95,7	122,6	163,4	78,6
INT4 tens.						10,1P* 5,0P
INT8 tens.	184,6	181	383	3922,4* 1961,2	5229,8* 2614,9	10,1P* 5,0P
	↑↑↑ T(FL)OPS ↑↑↑
TMU	480^?	-	-	-
cache	?	?	16 MB	256 MB Infinity Cache
sběrnice	4096bit	4096bit	8192bit	8192bit
kapacita paměti	32 GB	64 GB	128 GB	128 GB	192 GB	288GB
HBM	2,4 GHz	3,2 GHz	3,2 GHz	HBM3 5,3 GHz		HBM3E
paměť. propustn.	1229 GB/s	1639 GB/s	3277 GB/s	5,3 TB/s		8 TB/s
TDP	300 W	300 W	500W 560W	550-760W	750W	1400W
transistorů	50 mld. 25,6 mld.	29,1 mld.	58,2 mld.	146 mld.	153 mld.	185 mld.
plocha GPU	750 mm²	362 mm²	724 mm²	1017 mm²		?
proces	7 nm	6nm	6nm	5nm+6nm		N3P+N6
datum	2020	2022	2021	2023	2023	2025

*sparsity

Optimalizace návrhu nové architektury navýšily inferenční výkon až 30×, což je při ~21% nárůstu počtu tranzistorů docela zajímavé číslo. K efektivnějšímu zpracování úloh využívajících obrazová data slouží výrazně posílené multimediální dekodéry: Přítomné jsou 4 skupiny dekodérů pro HEVC / H.265, AVC / H.264, VP9 a AV1 a dále 40 kodeků pro formáty JPEG / MJPEG.

Paměťový systém v zásadních ohledech zachovává koncept předchozí generace, jen zmíněný IOD křemík je rozdělen do dvou dlaždic, nikoli do čtyř. Kapacita Infinity Cache zůstává na 256 MB, HBM sběrnice 8192bit, ale z 5,3 GHz HBM3 u Instinct MI300X se dostáváme na 8 GHz HBM3E u Instinct MI355X. Datová propustnost proto stoupla o více než 50 %.

Ve srovnání s Nvidia (G)B200 disponuje Instinct MI355X o 60 % vyšší kapacitou paměti, ≥2× vyšším výkonem v FP64 (ačkoli mezigeneračně klesl), ≥2× vyšším výkonem v FP6 a srovnatelným výkonem v FP16, FP8 a FP4.

Snad jen pro úplnost: Tyto akcelerátory již nenesou ROP jednotky, nepodporují DirectX 11 a DirectX 12, takže spekulace o tom, jak by na nich běhaly nové hry, jsou bezpředmětné - neběhaly by na nich totiž vůbec.

Výkonnostní srovnání Instinct MI355X / CDNA 4 s Instinct MI300X / CDNA 3 (AMD)

V reálné zátěži dosahuje Instinct MI355X v průměru zhruma trojnásobného výkonu oproti Instinct MI300X. AMD zmínila zhruba o 40 % vyšší cenovou efektivitu celkového řešení. To je k dispozici ve třech variantách:

Systémy s Instinct MI350 (AMD)

Instinct MI355X se díky vodnímu chlazení vejde do racku až v počtu 128 kusů, přičemž k dispozici je i cenově dostupnější varianta s 96 kusy. Vzduchem chlazených Instinct MI350X se do skříně vejde polovina, 64 kusů. Toto řešení má samozřejmě nižší energetické nároky, takže je vhodné i pro zákazníky, kteří nejsou dimenzováni na výkonnější chlazení a napájení.

Tagy:

CDNA 4, MI350, Instinct, 3nm, AMD

Zdroje:

AMD

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku CDNA 4 / Instinct MI350 přináší 2-4× vyšší ML výkon a 30× rychlejší inferenci

Úterý, 17 Červen 2025 - 21:46 | Kutil | Kdyby nebylo AI bubliny, akcelerátory by uměly 32...

Úterý, 17 Červen 2025 - 21:06 | Vlko | Instinct MI355X CDNA4 1400W hehe pekne to žere...

Úterý, 17 Červen 2025 - 16:08 | Kutil | To právě vychází z toho, že shadery fungují jako...

Úterý, 17 Červen 2025 - 13:31 | no-X | RDNA 4 podporuje nativně FP8 (tím to jistě...

Úterý, 17 Červen 2025 - 13:15 | Kutil | Very Long Instruction Word je právě paralelní...

Úterý, 17 Červen 2025 - 13:11 | Ladis | Grafika je nejefektivnější přes VLIW, což bylo...

Úterý, 17 Červen 2025 - 13:08 | Kutil | Třeba.

Úterý, 17 Červen 2025 - 13:07 | Kutil | Mohl jsi to napsat rovnou.

Úterý, 17 Červen 2025 - 13:06 | Kutil | Zrovna výpočetní a grafická jádra tak úplně...

Úterý, 17 Červen 2025 - 13:04 | Ladis | Spíš jako C a Python.

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

CDNA 4 / Instinct MI350 přináší 2-4× vyšší ML výkon a 30× rychlejší inferenci

Jiří "no-X" Souček

Diskuse ke článku CDNA 4 / Instinct MI350 přináší 2-4× vyšší ML výkon a 30× rychlejší inferenci

Komerční sdělení

CDR Hry

Epic rozdává hry zdarma: Vyzvedněte si 8. ze 14 do pátečních 17:00

ICT infrastruktura v číslech: Jak si Evropa vede a kam směřuje do roku 2035?

Kometa, která změnila historii. Nebo ne? Pravda o Betlémské hvězdě

Co obklopuje Zemi dál než atmosféra? NASA to začne natáčet

Epic rozdává hry zdarma: Vyzvedněte si 7. ze 14 do čtvrtečních 17:00

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT