Diit.cz - Novinky a informace o hardware, software a internetu

AMD Instinct MI300: CDNA3 + Zen 4, 146 miliard tranzistorů, 13 čipletů, HBM3

AMD na CES ukázala největší čip, jaký kdy připravila a vůbec největší čip poháněný x86 jádry, jaký kdy vznikl. Instinct MI300 tvoří 13 základních čipletů vyrobených 5nm a 6nm procesy a 128 GB HBM3…

Instinct MI300, pracovně označovaný jako Rigel, je patrně nejambicióznější projekt, na kterém AMD kdy pracovala. Důvodů je hned několik. 146 miliard tranzistorů je nejvyšší hodnota, jaká zatím v souvislosti s existujícími nebo ohlášenými produkty pro tento segment vyšla z úst výrobce (bereme v potaz produkty, které počítají s reálnou sériovou výrobou a pokrytím nějakého nezanedbatelného segmentu na trhu; ne experimenty).

produkttranzistorů
AMD Instinct MI300 (Rigel)146 miliard
Apple M1 Ultra (dual-die)114 miliard
Intel Xe-HPC / Ponte Vecchio>100 miliard
AMD Epyc (Genoa / Zen 4)>90 miliard
Nvidia H100 (Hopper)80 miliard
Nvidia GeForce RTX 4090 / AD10276,4 miliard
AMD Instinct MI250X (Aldebaraan)58,2 miliard
AMD Radeon RX 7900 XTX (Navi 31)57,7 miliard
IBM Telum (dual-chip modul)45 miliard
Power10 (dual-chip modul)36 miliard
AWS Graviton230 miliard
AMD Phoenix (APU)>25 miliard

Instinct MI300 tak překonává i dlouho připravovaný Ponte Vecchio od Intelu ze 47 dlaždic nebo Apple M1 Ultra vzniklý spojením dvou modulárních čipů.

Další prvotinou tohoto produktu je, že jde o de facto první známé čipletové APU. Což zároveň znamená, že představuje první produkty řady Instinct, který krom výpočetních jader obsahuje i jádra procesorová.

Hrubou podobu Instinct MI300 zveřejnil již YouTube kanál MLID v dubnu loňského roku (výše). Údaje měl správné, jen jeden detail je potřeba upřesnit. K dispozici měl snímek pouze části čipu, takže pro ilustraci celého SoC tuto část naklonoval. Celková podoba tak odpovídá skutečnosti, pouze jedna drobnost nesedí. Protože část, kterou měl k dispozici, představovala jeden (obdélníkový) podložní čiplet, na němž jsou navrstvené dva (cca čtvercové) výpočetní čiplety, vznikl obrázek s celkem 8 výpočetními čiplety, ale žádným procesorovým. Přestože i taková konfigurace je teoreticky možná, primární konfigurace, kterou AMD nyní prezentuje (a která pravděpodobně bude pohánět superpočítač El Capitan) bude mít malinko odlišnou konfiguraci:

Instinct MI300 využívá 4 základních 6nm čipletů, na které budou vrstveny 5nm čiplety. Tyto základní 6nm čiplety nejsou jen podložkami, ale jde o tzv. aktivní čiplety, což znamená, že integrují i nějaké (zatím neupřesněné) funkce. Příkladem pro představu mohou být např. PCIe řadiče, HBM rozhraní ap. (to jsou skutečně jen příklady, bližší detaily zatím neznáme a osobně bych čekal především tunu SRAM využité jako cache). Tři z těchto 6nm základních čipletů ponesou 5nm výpočetní čiplety. Každý dva kusy. Výpočetních čipletů tedy bude celkem šest. Jeden z 6nm základních čipletů ponese tři 5nm čiplety, každý s osmi jádry Zen 4, celkem tedy 24 jádry.

  • 6nm aktivní čiplet: 2× 5nm CDNA 3 čiplet
  • 6nm aktivní čiplet: 2× 5nm CDNA 3 čiplet
  • 6nm aktivní čiplet: 2× 5nm CDNA 3 čiplet
  • 6nm aktivní čiplet: 3× 5nm (8×) Zen 4 čiplet 

Lze odhadovat, že každý z celkem šesti CDNA 3 čipletů ponese ~6144 stream-procesorů a ~384 tensor cores (může to být méně, pokud AMD výrazně zvýší taktovací frekvence, nebo naopak více, pokud takty nijak nestoupnou či dokonce klesnou - odvozujeme z orientačního cílového výkonu, ale nevíme, jakou kombinací taktů a počtu jednotek ho AMD plánuje dosáhnout).

AMD zatím neposkytla žádné bližší údaje o procesorové části. Údaj o trojici čipletů po osmi jádrech může být spekulací médií (byť postavenou na potvrzené přítomnosti 24 jader a trojici čipletů vycházející pro procesorovou část). Ovšem přinejmenším render od AMD (úvodní snímek) použití tří symetrických procesorových čipletů nenapovídá.

Spekulace na téma využití menších jader Zen 4c vyvrátil leaker Bondrewd. Hodnota 24 jader může vyznívat trochu nezvykle, ale při konfiguraci SoC dává smysl alespoň z hlediska poměru: Na každých osm jader Zen 4 totiž vycházejí dva výpočetní čiplety.

foto: Marco Chiappetta

AMD do celkového počtu čipletů (4 podložní + 6 výpočetních + 3 procesorové = 13 celkem) zjevně nezapočítává „hloupou“ základní podložku (interposer) ani osm dalších (menší) čipletů umístěných mezi HBM3 čipy, které by snad mohly být rozhraním pro paměti(?)

 AMD Radeon
Instinct MI60
Instinct
MI100
Instinct
MI210
Instinct
MI250X
Instinct
MI300
označeníVega 20ArcturusAldebaranRigel
architekturaGCN 4CDNACDNA 2CDNA 3
CPU24× Zen 4
formátPCIePCIePCIeOAMOAM
CU/SM60120104
(128)
220
(256)
384+?
FP32 jader384076806656
(8192)
14080
(16384)
24k+?
FP64 jader-----
INT32 jader-----
Tens. Cores-440?416880?
takt1800 MHz1502 MHz ≤1700 MHz?
 ↓↓↓ T(FL)OPS ↓↓↓
FP16
29,5184,6181383?
BF16
92,3181383?
FP32
14,723,545,3
22,6
95,7
47,9
?
FP64
7,411,522,647,9?
INT4
118184,6181383?
INT859,0
184,6181383?
INT1629,5????
INT32?????
FP8 tensor1500
3000*
FP16 tensor184,6181383750?
BF16 tensor92,3181383750?
FP32 tensor46,145,395,7
190?
TF32 tensor
?
FP64 tensor
45,395,7190?
INT4 tensor?
INT8 tensor
184,6181383?
 ↑↑↑ T(FL)OPS ↑↑↑
TMU240480?---
sběrnice4096bit4096bit4096bit8192bit8192bit
kapacita
paměti
32 GB32 GB64 GB128 GB128 GB
HBM2,0 GHz2,4 GHz3,2 GHz3,2 GHzHBM3
paměť.
propustn.
1024 GB/s1229 GB/s1639 GB/s3277 GB/s~5 TB/s
TDP300 W300 W300 W500W
560W
600W+?
transistorů13,2 mld.50 mld.
25,6 mld.
29,1 mld.58,2 mld.146 mld.
plocha GPU331 mm²750 mm²
½ MI250X?660 mm²?
proces7 nm7 nm6nm6nm5nm+6nm
datum20182020202220212023

*s využitím sparsity

AMD avizovala, že Instinct MI300 posune energetickou efektivitu až na pětinásobek Instinct MI250X:

A zároveň, že výkon v AI stoupne až osminásobně. Tento údaj upřesnila, týká se výpočtů v FP8 formátu s využitím sparsity. Minulá generace režim sparsity nepodporovala, což znamená, že surový výkon v FP8 stoupl čtyřnásobně. Dále můžeme dedukovat na základě faktu, že FP8 nebyl na minulé generaci podporován nativně, takže pokud by ho někdo chtěl využít, byl by výkon v něm na stejné úrovni jako při FP16. Pokud tedy AI (tensor) výkon Instinct MI300 v FP8 bude na čtyřnásobku výkonu Instinct MI250X v FP16 a s využitím sparsity na osminásobku, pak se dostáváme na hodnoty 1532 / 3064 TFLOPS pro tento formát. Z toho by pak bylo možné odhadovat, že výkon v ostatních formátech v tensorových operacích (bez využití sparsity) stoupne na dvojnásobek a s využitím sparsity (bude-li na daných formátech podporovaná) na čtyřnásobek. Tím už se ale dostáváme na poměrně tenký led spekulací.

foto: Future

Instinct MI300 využije HBM3. Z konfigurace na snímku a údaji o 128GB kapacitě pak jasně vyplývá, že půjde o 8192bit sběrnici. Jak rychlé čipy AMD zvolí, zatím neprozradila, ale lze odhadovat, že datová propustnost stoupne minimálně na ~5 TB/s.

AMD oznámila, že v blízké době začne dodávat vzorky Instinct MI300 partnerům, rovněž v blízké době (tedy snad v návaznosti na to) zveřejní další informace, mimo jiné o způsobu propojení vrstev a čipletů. Distribuce sériově vyráběných kusů se chystá na druhé pololetí letošního roku.

Zdroje: 

AMD

Diskuse ke článku AMD Instinct MI300: CDNA3 + Zen 4, 146 miliard tranzistorů, 13 čipletů, HBM3

Úterý, 10 Leden 2023 - 13:10 | Waffer47 | Pride doba kdy si jiz uzivatel/zakaznik bude...
Pondělí, 9 Leden 2023 - 18:46 | lubo76 | V tabuľke chýba Aldebaran MI200 - > 100 mld....
Pondělí, 9 Leden 2023 - 10:09 | mayday | Pri tom titulnom obrázku som si spomenul na...
Pondělí, 9 Leden 2023 - 03:55 | Lazar | V tabulce je asi chybně RTX 3090 u AD102.
Pondělí, 9 Leden 2023 - 00:14 | Anonym | To jako že by šla 3Dcache dát dospod. A chiplet s...

Zobrazit diskusi