AMD vydává Instinct MI300X, nejrychlejší AI akcelerátor na světě
CEO AMD Lisa Su na dvouhodinové prezentaci Advancing AI oficiálně uvedla Instinct MI300X a za asistence Forresta Norroda i Instinct MI300A. Jak už asi víte, Instinct MI300X je čistě akcelerátor v OAM formátu, Instinct MI300A je AI/výpočetní APU - integruje i procesorová jádra - pro socket SH5.
Instinct MI300X a Instinct MI300A (AMD)
Oba produkty sdílí čtyři základní čiplety, které zajišťují spojení funkčních čipletů, komunikaci s HBM3 pamětmi o 8192bit sběrnici a integrují celkem 256 MB Infinity Cache. Oproti 16 MB cache u Instinct MI250X jde o obrovský (šestnáctinásobný) posun a i ve srovnání s Nvidia Hopper (40 MB) jde o řádově více. Základní 6nm čiplety nesou funkční 5nm čiplety a to celkem 8 CDNA 3 čipletů v případě MI300X a 6 CDNA + 3 Zen 4 čiplety (tj. 24 jader) v případě MI300A.
Instinct MI100 | Instinct MI210 | Instinct MI250X | Instinct MI300A | Instinct MI300X | |
---|---|---|---|---|---|
označení | Arcturus | Aldebaran | Rigel | ||
architektura | CDNA | CDNA 2 | CDNA 3 | ||
CPU | 24× Zen 4 | ||||
formát | PCIe | PCIe | OAM | socket SH5 | OAM |
CU/SM | 120 | 104 (128) | 220 (256) | 228 | 304 |
FP32 jader | 7680 | 6656 (8192) | 14080 (16384) | 14592 | 19456 |
FP64 jader | - | - | - | - | - |
INT32 jader | - | - | - | - | - |
Tens. Cores | 440? | 416 | 880 | ? | ? |
takt (max.) | 1502 MHz | 1700 MHz | 2100 MHz | ||
↓↓↓ T(FL)OPS ↓↓↓ | |||||
FP16 | 184,6 | 181 | 383 | 980,6 | 1300 |
BF16 | 92,3 | 181 | 383 | 980,6 | 1300 |
FP32 | 23,5 | 45,3 22,6 | 95,7 47,9 | 122,6 | 163,4 |
FP64 | 11,5 | 22,6 | 47,9 | 61,3 | 81,7 |
INT4 | 184,6 | 181 | 383 | ? | ? |
INT8 | 184,6 | 181 | 383 | 1960 | 2600 |
INT16 | ? | ? | ? | ? | ? |
INT32 | ? | ? | ? | ? | ? |
FP8 tensor | 3922,4* 1961,2 | 5229,8* 2614,9 | |||
FP16 tensor | 184,6 | 181 | 383 | 1961,2* 980,6 | 2614,9* 1307,5 |
BF16 tensor | 92,3 | 181 | 383 | 1961,2* 980,6 | 2614,9* 1307,5 |
FP32 tensor | 46,1 | 45,3 | 95,7 | 122,6 | 163,4 |
TF32 tensor | 980,6* 490,3 | 1307,4* 653,7 | |||
FP64 tensor | 45,3 | 95,7 | 122,6 | 163,4 | |
INT4 tensor | |||||
INT8 tensor | 184,6 | 181 | 383 | 3922,4* 1961,2 | 5229,8* 2614,9 |
↑↑↑ T(FL)OPS ↑↑↑ | |||||
TMU | 480? | - | - | - | |
cache | ? | ? | 16 MB | 256 MB Infinity Cache | |
sběrnice | 4096bit | 4096bit | 8192bit | 8192bit | |
kapacita paměti | 32 GB | 64 GB | 128 GB | 128 GB | 192 GB |
HBM | 2,4 GHz | 3,2 GHz | 3,2 GHz | HBM3 >5 GHz | |
paměť. propustn. | 1229 GB/s | 1639 GB/s | 3277 GB/s | 5,3 TB/s | |
TDP | 300 W | 300 W | 500W 560W | 550-760W | 750W |
transistorů | 50 mld. 25,6 mld. | 29,1 mld. | 58,2 mld. | 146 mld. | 153 mld. |
plocha GPU | 750 mm² | 362 mm² | 724 mm² | 660 mm²? | |
proces | 7 nm | 6nm | 6nm | 5nm+6nm | |
datum | 2020 | 2022 | 2021 | 2023 | 2023 |
*sparsity
Přibyla podpora formátů FP8, TF32 a sparsity. Výpočetní výkon u většiny typů přesnosti mezigeneračně stoupl mnohonásobně. V případě AI výpočtů v FP16 jde o 3,4násobek, v případě využití sparsity na 6,8násobek. U formátu FP8, který předchozí generace nepodporovala (i když nebyla vyšší přesnost potřebná, musely výpočty běžet v FP16), jde o 6,8násobek v základu a 13,7násobek při použití sparsity.
Velký posun v reálné zátěži přinesla šestá generace softwarové platformy ROCm, která mezigenerační posun výkonu (inference) navýšila až na osminásobek.
V reálné zátěži AMD prezentuje Instinct MI300X jako srovnatelně výkonný s Nvidia (Hopper) H100 pro tréning a 1,4-1,6× rychlejší pro inferenci.
Podstatné rozdíly v možnosti využití přináší vyšší rychlost i kapacita HBM paměti v kombinaci s Infinity Cache. Instinct MI300X umožňuje běh 2× větších modelů než Nvidia H100, případně dvojnásobku modelů zároveň oproti Nvidia H100. Instinct MI300X dále nabízí 2,4× vyšší výpočetní výkon ve vektorových (FP32, FP64) výpočtech.
V případě Instinct MI300A jsou tato čísla o něco nižší (čtvrtinu CDNA 3 čipletů nahrazují x86 jádra): oproti Nvidia H100 je výkon ve vektorových výpočtech 1,8× vyšší a v testu OpenFOAM dosahuje Instinct MI300A podle testů AMD 4× vyššího výkonu než H100.
Za velkou částí tohoto náskoku stojí unifikovaná paměť (HBM3 společná pro procesorová i výpočetní jádra), zatímco Nvidia H100 musí data přenášet z operační paměti do akcelerátoru, což brzdí pomalejší PCIe rozhraní. Desítky procent z náskoku pak jdou na vrub kapacitě paměti a propustnosti, které asistuje 256MB Infinity Cache.
Díky tomu pak ve výpočetní zátěži dosahuje Instinct MI300A 2× vyšší energetické efektivity než procesorovo-akcelerační řešení Nvidie, Grace Hopper (ARM CPU + Hopper GPU).
Systémy s akcelerátoy Instinct MI300X již má v nabídce Dell, HP, Lenovo, SuperMicro a další. Systémy s Instinct MI300A budou dostupné u HP, Eviden, Gigabyte a SuperMicro.