Diit.cz - Novinky a informace o hardware, software a internetu

CDNA 4 / Instinct MI350 přináší 2-4× vyšší ML výkon a 30× rychlejší inferenci

Zdroj: AMD

Čtvrtá generace CDNA 4 odsouvá HPC segment na druhou kolej a cílí primárně na AI. Nasazuje 3nm proces, optimalizuje efektivitu a výrazně posouvá výkon v maticových výpočtech…

Základní podobě CDNA 4 / Instinct MI350 jsme se již věnovali, takže se zaměříme na to, co zatím řečeno nebylo.

Začněme u křemíkových kostiček. Zůstalo o osmi XCD, výpočetních čipletů, které jsou umístěny na IOD, komunikačních čipletech. XCD se přesunuly z 5nm procesu TSMC na 3nm, konkrétně na N3P. IOD zůstaly na 6nm, využily vyladěné výtěžnosti a z původních čtyř klesl jejich počet na dvě (větší).

Každá XCD nese 36 CU (výpočetních bloků), z nichž je aktivních 32. Celkem tedy 8× 32 CU = 256 aktivních CU. Mezigeneračně tedy počet CU klesl, stoupla však výbava. Za pozornost stojí, že počet tranzistorů stoupl jen mírně, alespoň oproti předchozím generacím: Ze 153 na 185 miliard, tedy o méně než 21 %.

AMD Instinct MI355X (AMD)

Důvodem jsou jednak optimalizace návrhu a jednak pragmatičtější přístup AMD. Gró současné poptávky tvoří AI akcelerace, takže se CDNA 4 zaměřila na ni a klasické výpočetní nasazení nechala plavat (výkon ve vektorových výpočtech zůstal na úrovni minulé generace, přesněji řečeno nepatrně klesl). O to více stoupl naopak výkon v tenzorových výpočtech. V případ formátů FP6 a FP4 narostl 4× (předchozí generace neměla nativní podporu) a u většiny ostatních formátů stoupl 2×. V tabulce jsme museli přistoupit k vyjádření výkonu v tenzorových operacích v P(FL)OPS, „aby se nám ty králíky do toho vešli“.

 Instinct
MI100
Instinct
MI210
Instinct
MI250X
Instinct
MI300A
Instinct
MI300X

Instinct
MI355X

označeníArcturusAldebaranRigel?
architekturaCDNACDNA 2CDNA 3CDNA 4
CPU24× Zen 4
formátPCIePCIeOAMsocket SH5OAMOAM
CU/SM120104
(128)
220
(256)
228304256
FP32 jader76806656
(8192)
14080
(16384)
145921945616384
FP64 jader------
INT32 jader------
Tens. Cores440?416880??1024
takt (max.)1502 MHz 1700 MHz2100 MHz2400 MHz
 ↓↓↓ T(FL)OPS ↓↓↓
FP16
184,6181383980,61300?
BF16
92,3181383980,61300?
FP32
23,545,3
22,6
95,7
47,9
122,6163,4157,3
FP64
11,522,647,961,381,778,6
INT4
184,6181383??

?

INT8184,618138319602600?
INT16??????
INT32??????
FP4 tens.

20,1P*
10,1P

FP6 tens.

20,1P*
10,1P

FP8 tens.3922,4*
1961,2
5229,8*
2614,9

10,1P*
5,0P

FP16 tens.184,61813831961,2*
980,6
2614,9*
1307,5
5,0P*
2,5P
BF16 tens.92,31813831961,2*
980,6
2614,9*
1307,5

5,0P*
2,5P

FP32 tens.46,145,395,7122,6163,4?
TF32 tens.
980,6*
490,3
1307,4*
653,7
?
FP64 tens.
45,395,7122,6163,478,6
INT4 tens.

10,1P*
5,0P

INT8 tens.
184,61813833922,4*
1961,2
5229,8*
2614,9

10,1P*
5,0P

 ↑↑↑ T(FL)OPS ↑↑↑
TMU480?---
cache??16 MB256 MB Infinity Cache
sběrnice4096bit4096bit8192bit8192bit
kapacita
paměti
32 GB64 GB128 GB128 GB192 GB288GB
HBM2,4 GHz3,2 GHz3,2 GHzHBM3 5,3 GHzHBM3E
paměť.
propustn.
1229 GB/s1639 GB/s3277 GB/s5,3 TB/s8 TB/s
TDP300 W300 W500W
560W
550-760W750W1400W
transistorů50 mld.
25,6 mld.
29,1 mld.58,2 mld.146 mld.153 mld.185 mld.
plocha GPU750 mm²
362 mm²724 mm²1017 mm²?
proces7 nm6nm6nm5nm+6nmN3P+N6
datum202020222021202320232025

*sparsity

Optimalizace návrhu nové architektury navýšily inferenční výkon až 30×, což je při ~21% nárůstu počtu tranzistorů docela zajímavé číslo. K efektivnějšímu zpracování úloh využívajících obrazová data slouží výrazně posílené multimediální dekodéry: Přítomné jsou 4 skupiny dekodérů pro HEVC / H.265, AVC / H.264, VP9 a AV1 a dále 40 kodeků pro formáty JPEG / MJPEG.

Paměťový systém v zásadních ohledech zachovává koncept předchozí generace, jen zmíněný IOD křemík je rozdělen do dvou dlaždic, nikoli do čtyř. Kapacita Infinity Cache zůstává na 256 MB, HBM sběrnice 8192bit, ale z 5,3 GHz HBM3 u Instinct MI300X se dostáváme na 8 GHz HBM3E u Instinct MI355X. Datová propustnost proto stoupla o více než 50 %.

Ve srovnání s Nvidia (G)B200 disponuje Instinct MI355X o 60 % vyšší kapacitou paměti, ≥2× vyšším výkonem v FP64 (ačkoli mezigeneračně klesl), ≥2× vyšším výkonem v FP6 a srovnatelným výkonem v FP16, FP8 a FP4.

Snad jen pro úplnost: Tyto akcelerátory již nenesou ROP jednotky, nepodporují DirectX 11 a DirectX 12, takže spekulace o tom, jak by na nich běhaly nové hry, jsou bezpředmětné - neběhaly by na nich totiž vůbec.

Výkonnostní srovnání Instinct MI355X / CDNA 4 s Instinct MI300X / CDNA 3 (AMD)

V reálné zátěži dosahuje Instinct MI355X v průměru zhruma trojnásobného výkonu oproti Instinct MI300X. AMD zmínila zhruba o 40 % vyšší cenovou efektivitu celkového řešení. To je k dispozici ve třech variantách:

Systémy s Instinct MI350 (AMD)

Instinct MI355X se díky vodnímu chlazení vejde do racku až v počtu 128 kusů, přičemž k dispozici je i cenově dostupnější varianta s 96 kusy. Vzduchem chlazených Instinct MI350X se do skříně vejde polovina, 64 kusů. Toto řešení má samozřejmě nižší energetické nároky, takže je vhodné i pro zákazníky, kteří nejsou dimenzováni na výkonnější chlazení a napájení.

Tagy: 
Zdroje: 

AMD

Diskuse ke článku CDNA 4 / Instinct MI350 přináší 2-4× vyšší ML výkon a 30× rychlejší inferenci

Úterý, 17 Červen 2025 - 13:11 | Ladis | Grafika je nejefektivnější přes VLIW, což bylo...
Úterý, 17 Červen 2025 - 13:08 | Kutil | Třeba.
Úterý, 17 Červen 2025 - 13:07 | Kutil | Mohl jsi to napsat rovnou.
Úterý, 17 Červen 2025 - 13:06 | Kutil | Zrovna výpočetní a grafická jádra tak úplně...
Úterý, 17 Červen 2025 - 13:04 | Ladis | Spíš jako C a Python.
Úterý, 17 Červen 2025 - 13:04 | Kutil | To dává smysl, programování GPU je vic...
Úterý, 17 Červen 2025 - 13:02 | Ladis | Tak snad vím, jak stará zkušenost to je, když je...
Úterý, 17 Červen 2025 - 13:00 | Kutil | Ladis - Kdo ví, jak stará ta zkušenost je. Ale...
Úterý, 17 Červen 2025 - 12:58 | Ladis | Ono stačí, že se sdílí jádra a jejich...
Úterý, 17 Červen 2025 - 12:57 | Kutil | Ziik - Nesdílí se celá architektura, ale jen...

Zobrazit diskusi