CDNA 4 / Instinct MI350 přináší 2-4× vyšší ML výkon a 30× rychlejší inferenci
Základní podobě CDNA 4 / Instinct MI350 jsme se již věnovali, takže se zaměříme na to, co zatím řečeno nebylo.
Začněme u křemíkových kostiček. Zůstalo o osmi XCD, výpočetních čipletů, které jsou umístěny na IOD, komunikačních čipletech. XCD se přesunuly z 5nm procesu TSMC na 3nm, konkrétně na N3P. IOD zůstaly na 6nm, využily vyladěné výtěžnosti a z původních čtyř klesl jejich počet na dvě (větší).
Každá XCD nese 36 CU (výpočetních bloků), z nichž je aktivních 32. Celkem tedy 8× 32 CU = 256 aktivních CU. Mezigeneračně tedy počet CU klesl, stoupla však výbava. Za pozornost stojí, že počet tranzistorů stoupl jen mírně, alespoň oproti předchozím generacím: Ze 153 na 185 miliard, tedy o méně než 21 %.
AMD Instinct MI355X (AMD)
Důvodem jsou jednak optimalizace návrhu a jednak pragmatičtější přístup AMD. Gró současné poptávky tvoří AI akcelerace, takže se CDNA 4 zaměřila na ni a klasické výpočetní nasazení nechala plavat (výkon ve vektorových výpočtech zůstal na úrovni minulé generace, přesněji řečeno nepatrně klesl). O to více stoupl naopak výkon v tenzorových výpočtech. V případ formátů FP6 a FP4 narostl 4× (předchozí generace neměla nativní podporu) a u většiny ostatních formátů stoupl 2×. V tabulce jsme museli přistoupit k vyjádření výkonu v tenzorových operacích v P(FL)OPS, „aby se nám ty králíky do toho vešli“.
Instinct MI100 | Instinct MI210 | Instinct MI250X | Instinct MI300A | Instinct MI300X | Instinct | |
---|---|---|---|---|---|---|
označení | Arcturus | Aldebaran | Rigel | ? | ||
architektura | CDNA | CDNA 2 | CDNA 3 | CDNA 4 | ||
CPU | ![]() | ![]() | 24× Zen 4 | ![]() | ![]() | |
formát | PCIe | PCIe | OAM | socket SH5 | OAM | OAM |
CU/SM | 120 | 104 (128) | 220 (256) | 228 | 304 | 256 |
FP32 jader | 7680 | 6656 (8192) | 14080 (16384) | 14592 | 19456 | 16384 |
FP64 jader | - | - | - | - | - | - |
INT32 jader | - | - | - | - | - | - |
Tens. Cores | 440? | 416 | 880 | ? | ? | 1024 |
takt (max.) | 1502 MHz | 1700 MHz | 2100 MHz | 2400 MHz | ||
↓↓↓ T(FL)OPS ↓↓↓ | ||||||
FP16 | 184,6 | 181 | 383 | 980,6 | 1300 | ? |
BF16 | 92,3 | 181 | 383 | 980,6 | 1300 | ? |
FP32 | 23,5 | 45,3 22,6 | 95,7 47,9 | 122,6 | 163,4 | 157,3 |
FP64 | 11,5 | 22,6 | 47,9 | 61,3 | 81,7 | 78,6 |
INT4 | 184,6 | 181 | 383 | ? | ? | ? |
INT8 | 184,6 | 181 | 383 | 1960 | 2600 | ? |
INT16 | ? | ? | ? | ? | ? | ? |
INT32 | ? | ? | ? | ? | ? | ? |
FP4 tens. | ![]() | ![]() | ![]() | ![]() | ![]() | 20,1P* |
FP6 tens. | ![]() | ![]() | ![]() | ![]() | ![]() | 20,1P* |
FP8 tens. | ![]() | ![]() | ![]() | 3922,4* 1961,2 | 5229,8* 2614,9 | 10,1P* |
FP16 tens. | 184,6 | 181 | 383 | 1961,2* 980,6 | 2614,9* 1307,5 | 5,0P* 2,5P |
BF16 tens. | 92,3 | 181 | 383 | 1961,2* 980,6 | 2614,9* 1307,5 | 5,0P* |
FP32 tens. | 46,1 | 45,3 | 95,7 | 122,6 | 163,4 | ? |
TF32 tens. | ![]() | ![]() | ![]() | 980,6* 490,3 | 1307,4* 653,7 | ? |
FP64 tens. | ![]() | 45,3 | 95,7 | 122,6 | 163,4 | 78,6 |
INT4 tens. | ![]() | ![]() | ![]() | ![]() | ![]() | 10,1P* |
INT8 tens. | 184,6 | 181 | 383 | 3922,4* 1961,2 | 5229,8* 2614,9 | 10,1P* |
↑↑↑ T(FL)OPS ↑↑↑ | ||||||
TMU | 480? | - | - | - | ||
cache | ? | ? | 16 MB | 256 MB Infinity Cache | ||
sběrnice | 4096bit | 4096bit | 8192bit | 8192bit | ||
kapacita paměti | 32 GB | 64 GB | 128 GB | 128 GB | 192 GB | 288GB |
HBM | 2,4 GHz | 3,2 GHz | 3,2 GHz | HBM3 5,3 GHz | HBM3E | |
paměť. propustn. | 1229 GB/s | 1639 GB/s | 3277 GB/s | 5,3 TB/s | 8 TB/s | |
TDP | 300 W | 300 W | 500W 560W | 550-760W | 750W | 1400W |
transistorů | 50 mld. 25,6 mld. | 29,1 mld. | 58,2 mld. | 146 mld. | 153 mld. | 185 mld. |
plocha GPU | 750 mm² | 362 mm² | 724 mm² | 1017 mm² | ? | |
proces | 7 nm | 6nm | 6nm | 5nm+6nm | N3P+N6 | |
datum | 2020 | 2022 | 2021 | 2023 | 2023 | 2025 |
*sparsity
Optimalizace návrhu nové architektury navýšily inferenční výkon až 30×, což je při ~21% nárůstu počtu tranzistorů docela zajímavé číslo. K efektivnějšímu zpracování úloh využívajících obrazová data slouží výrazně posílené multimediální dekodéry: Přítomné jsou 4 skupiny dekodérů pro HEVC / H.265, AVC / H.264, VP9 a AV1 a dále 40 kodeků pro formáty JPEG / MJPEG.
Paměťový systém v zásadních ohledech zachovává koncept předchozí generace, jen zmíněný IOD křemík je rozdělen do dvou dlaždic, nikoli do čtyř. Kapacita Infinity Cache zůstává na 256 MB, HBM sběrnice 8192bit, ale z 5,3 GHz HBM3 u Instinct MI300X se dostáváme na 8 GHz HBM3E u Instinct MI355X. Datová propustnost proto stoupla o více než 50 %.
Ve srovnání s Nvidia (G)B200 disponuje Instinct MI355X o 60 % vyšší kapacitou paměti, ≥2× vyšším výkonem v FP64 (ačkoli mezigeneračně klesl), ≥2× vyšším výkonem v FP6 a srovnatelným výkonem v FP16, FP8 a FP4.
Snad jen pro úplnost: Tyto akcelerátory již nenesou ROP jednotky, nepodporují DirectX 11 a DirectX 12, takže spekulace o tom, jak by na nich běhaly nové hry, jsou bezpředmětné - neběhaly by na nich totiž vůbec.
Výkonnostní srovnání Instinct MI355X / CDNA 4 s Instinct MI300X / CDNA 3 (AMD)
V reálné zátěži dosahuje Instinct MI355X v průměru zhruma trojnásobného výkonu oproti Instinct MI300X. AMD zmínila zhruba o 40 % vyšší cenovou efektivitu celkového řešení. To je k dispozici ve třech variantách:
Systémy s Instinct MI350 (AMD)
Instinct MI355X se díky vodnímu chlazení vejde do racku až v počtu 128 kusů, přičemž k dispozici je i cenově dostupnější varianta s 96 kusy. Vzduchem chlazených Instinct MI350X se do skříně vejde polovina, 64 kusů. Toto řešení má samozřejmě nižší energetické nároky, takže je vhodné i pro zákazníky, kteří nejsou dimenzováni na výkonnější chlazení a napájení.
AMD