AMD vydává Instinct MI300X, nejrychlejší AI akcelerátor na světě

7. 12. 2023 | no-X | Hardware, Novinky, Procesory, Grafiky

Zdroj: AMD

Na akci Advancing AI vydala Lisa Su Instinct MI300X. Systémy lze objednávat u Dellu, HP, Lenova, SuperMicro a dalších. Výpočetní AI APU Instinct MI300A se přesouvá do fáze velkokapacitní výroby…

CEO AMD Lisa Su na dvouhodinové prezentaci Advancing AI oficiálně uvedla Instinct MI300X a za asistence Forresta Norroda i Instinct MI300A. Jak už asi víte, Instinct MI300X je čistě akcelerátor v OAM formátu, Instinct MI300A je AI/výpočetní APU - integruje i procesorová jádra - pro socket SH5.

Instinct MI300X a Instinct MI300A (AMD)

Oba produkty sdílí čtyři základní čiplety, které zajišťují spojení funkčních čipletů, komunikaci s HBM3 pamětmi o 8192bit sběrnici a integrují celkem 256 MB Infinity Cache. Oproti 16 MB cache u Instinct MI250X jde o obrovský (šestnáctinásobný) posun a i ve srovnání s Nvidia Hopper (40 MB) jde o řádově více. Základní 6nm čiplety nesou funkční 5nm čiplety a to celkem 8 CDNA 3 čipletů v případě MI300X a 6 CDNA + 3 Zen 4 čiplety (tj. 24 jader) v případě MI300A.

	Instinct MI100	Instinct MI210	Instinct MI250X	Instinct MI300A	Instinct MI300X
označení	Arcturus	Aldebaran		Rigel
architektura	CDNA	CDNA 2		CDNA 3
CPU				24× Zen 4
formát	PCIe	PCIe	OAM	socket SH5	OAM
CU/SM	120	104 (128)	220 (256)	228	304
FP32 jader	7680	6656 (8192)	14080 (16384)	14592	19456
FP64 jader	-	-	-	-	-
INT32 jader	-	-	-	-	-
Tens. Cores	440?	416	880	?	?
takt (max.)	1502 MHz		1700 MHz	2100 MHz
	↓↓↓ T(FL)OPS ↓↓↓
FP16	184,6	181	383	980,6	1300
BF16	92,3	181	383	980,6	1300
FP32	23,5	45,3 22,6	95,7 47,9	122,6	163,4
FP64	11,5	22,6	47,9	61,3	81,7
INT4	184,6	181	383	?	?
INT8	184,6	181	383	1960	2600
INT16	?	?	?	?	?
INT32	?	?	?	?	?
FP8 tensor				3922,4* 1961,2	5229,8* 2614,9
FP16 tensor	184,6	181	383	1961,2* 980,6	2614,9* 1307,5
BF16 tensor	92,3	181	383	1961,2* 980,6	2614,9* 1307,5
FP32 tensor	46,1	45,3	95,7	122,6	163,4
TF32 tensor				980,6* 490,3	1307,4* 653,7
FP64 tensor		45,3	95,7	122,6	163,4
INT4 tensor
INT8 tensor	184,6	181	383	3922,4* 1961,2	5229,8* 2614,9
	↑↑↑ T(FL)OPS ↑↑↑
TMU	480^?	-	-	-
cache	?	?	16 MB	256 MB Infinity Cache
sběrnice	4096bit	4096bit	8192bit	8192bit
kapacita paměti	32 GB	64 GB	128 GB	128 GB	192 GB
HBM	2,4 GHz	3,2 GHz	3,2 GHz	HBM3 >5 GHz
paměť. propustn.	1229 GB/s	1639 GB/s	3277 GB/s	5,3 TB/s
TDP	300 W	300 W	500W 560W	550-760W	750W
transistorů	50 mld. 25,6 mld.	29,1 mld.	58,2 mld.	146 mld.	153 mld.
plocha GPU	750 mm²	362 mm²	724 mm²	660 mm²?
proces	7 nm	6nm	6nm	5nm+6nm
datum	2020	2022	2021	2023	2023

*sparsity

Přibyla podpora formátů FP8, TF32 a sparsity. Výpočetní výkon u většiny typů přesnosti mezigeneračně stoupl mnohonásobně. V případě AI výpočtů v FP16 jde o 3,4násobek, v případě využití sparsity na 6,8násobek. U formátu FP8, který předchozí generace nepodporovala (i když nebyla vyšší přesnost potřebná, musely výpočty běžet v FP16), jde o 6,8násobek v základu a 13,7násobek při použití sparsity.

Velký posun v reálné zátěži přinesla šestá generace softwarové platformy ROCm, která mezigenerační posun výkonu (inference) navýšila až na osminásobek.

V reálné zátěži AMD prezentuje Instinct MI300X jako srovnatelně výkonný s Nvidia (Hopper) H100 pro tréning a 1,4-1,6× rychlejší pro inferenci.

Podstatné rozdíly v možnosti využití přináší vyšší rychlost i kapacita HBM paměti v kombinaci s Infinity Cache. Instinct MI300X umožňuje běh 2× větších modelů než Nvidia H100, případně dvojnásobku modelů zároveň oproti Nvidia H100. Instinct MI300X dále nabízí 2,4× vyšší výpočetní výkon ve vektorových (FP32, FP64) výpočtech.

V případě Instinct MI300A jsou tato čísla o něco nižší (čtvrtinu CDNA 3 čipletů nahrazují x86 jádra): oproti Nvidia H100 je výkon ve vektorových výpočtech 1,8× vyšší a v testu OpenFOAM dosahuje Instinct MI300A podle testů AMD 4× vyššího výkonu než H100.

Za velkou částí tohoto náskoku stojí unifikovaná paměť (HBM3 společná pro procesorová i výpočetní jádra), zatímco Nvidia H100 musí data přenášet z operační paměti do akcelerátoru, což brzdí pomalejší PCIe rozhraní. Desítky procent z náskoku pak jdou na vrub kapacitě paměti a propustnosti, které asistuje 256MB Infinity Cache.

Díky tomu pak ve výpočetní zátěži dosahuje Instinct MI300A 2× vyšší energetické efektivity než procesorovo-akcelerační řešení Nvidie, Grace Hopper (ARM CPU + Hopper GPU).

Systémy s akcelerátoy Instinct MI300X již má v nabídce Dell, HP, Lenovo, SuperMicro a další. Systémy s Instinct MI300A budou dostupné u HP, Eviden, Gigabyte a SuperMicro.

Tagy:

hardwarová akcelerace, AI, Instinct, MI300, CDNA 3, APU, SoC, Zen 4, HBM3, AMD

Zdroje:

AMD

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku AMD vydává Instinct MI300X, nejrychlejší AI akcelerátor na světě

Pondělí, 11 Prosinec 2023 - 13:07 | Ladis | Pokud se musíš ptát, tak není pro tebe ;-) Ale...

Pondělí, 11 Prosinec 2023 - 12:24 | eXponencial | kolko stoji taky jeden MI300X ?

Pondělí, 11 Prosinec 2023 - 12:21 | eXponencial | takze aj do EU ?

Sobota, 9 Prosinec 2023 - 09:52 | hajčus | Kdákání ruské propagandy není žádný "vlastní...

Pátek, 8 Prosinec 2023 - 19:56 | Jirka1 | Myslíš tím tu tvou "ruskou" realitu?

Pátek, 8 Prosinec 2023 - 18:46 | Zdenek | Jejda za fakta se tu dávají mínusy holt pravda a...

Pátek, 8 Prosinec 2023 - 18:44 | Zdenek | Jestli to bylo na mě tak mi to zrovna od tebe je...

Pátek, 8 Prosinec 2023 - 17:53 | hajčus | Z toho vyplývá, že jsi nevzdělaný a neznáš...

Pátek, 8 Prosinec 2023 - 16:10 | peliculiar | Mirdo, 100x raději budu "libtardem",...

Pátek, 8 Prosinec 2023 - 15:57 | peliculiar | @ Pety: Doporučil bych ti zkusit dát šanci i...

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

AMD vydává Instinct MI300X, nejrychlejší AI akcelerátor na světě

Jiří "no-X" Souček

Diskuse ke článku AMD vydává Instinct MI300X, nejrychlejší AI akcelerátor na světě

Komerční sdělení

CDR Hry

Satelitní internet mění pravidla hry. Co od něj čekat v příštích letech?

Od ledna zásadní změna: Roblox zavede povinné ověřování obličejem

Výpadek, který pocítil celý svět. Cloudflare opět ukázal, jak křehký web umí být

Revoluční kvantový experiment: Vědci napodobují kolize částic bez urychlovače

Když se hackne textilka: Proč může jeden průšvih rozkolísat celý módní řetězec

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT