AMD Instinct MI300: CDNA3 + Zen 4, 146 miliard tranzistorů, 13 čipletů, HBM3
Instinct MI300, pracovně označovaný jako Rigel, je patrně nejambicióznější projekt, na kterém AMD kdy pracovala. Důvodů je hned několik. 146 miliard tranzistorů je nejvyšší hodnota, jaká zatím v souvislosti s existujícími nebo ohlášenými produkty pro tento segment vyšla z úst výrobce (bereme v potaz produkty, které počítají s reálnou sériovou výrobou a pokrytím nějakého nezanedbatelného segmentu na trhu; ne experimenty).
produkt | tranzistorů |
---|---|
AMD Instinct MI300 (Rigel) | 146 miliard |
Apple M1 Ultra (dual-die) | 114 miliard |
Intel Xe-HPC / Ponte Vecchio | >100 miliard |
AMD Epyc (Genoa / Zen 4) | >90 miliard |
Nvidia H100 (Hopper) | 80 miliard |
Nvidia GeForce RTX 4090 / AD102 | 76,4 miliard |
AMD Instinct MI250X (Aldebaraan) | 58,2 miliard |
AMD Radeon RX 7900 XTX (Navi 31) | 57,7 miliard |
IBM Telum (dual-chip modul) | 45 miliard |
Power10 (dual-chip modul) | 36 miliard |
AWS Graviton2 | 30 miliard |
AMD Phoenix (APU) | >25 miliard |
Instinct MI300 tak překonává i dlouho připravovaný Ponte Vecchio od Intelu ze 47 dlaždic nebo Apple M1 Ultra vzniklý spojením dvou modulárních čipů.
Další prvotinou tohoto produktu je, že jde o de facto první známé čipletové APU. Což zároveň znamená, že představuje první produkty řady Instinct, který krom výpočetních jader obsahuje i jádra procesorová.
Hrubou podobu Instinct MI300 zveřejnil již YouTube kanál MLID v dubnu loňského roku (výše). Údaje měl správné, jen jeden detail je potřeba upřesnit. K dispozici měl snímek pouze části čipu, takže pro ilustraci celého SoC tuto část naklonoval. Celková podoba tak odpovídá skutečnosti, pouze jedna drobnost nesedí. Protože část, kterou měl k dispozici, představovala jeden (obdélníkový) podložní čiplet, na němž jsou navrstvené dva (cca čtvercové) výpočetní čiplety, vznikl obrázek s celkem 8 výpočetními čiplety, ale žádným procesorovým. Přestože i taková konfigurace je teoreticky možná, primární konfigurace, kterou AMD nyní prezentuje (a která pravděpodobně bude pohánět superpočítač El Capitan) bude mít malinko odlišnou konfiguraci:
Instinct MI300 využívá 4 základních 6nm čipletů, na které budou vrstveny 5nm čiplety. Tyto základní 6nm čiplety nejsou jen podložkami, ale jde o tzv. aktivní čiplety, což znamená, že integrují i nějaké (zatím neupřesněné) funkce. Příkladem pro představu mohou být např. PCIe řadiče, HBM rozhraní ap. (to jsou skutečně jen příklady, bližší detaily zatím neznáme a osobně bych čekal především tunu SRAM využité jako cache). Tři z těchto 6nm základních čipletů ponesou 5nm výpočetní čiplety. Každý dva kusy. Výpočetních čipletů tedy bude celkem šest. Jeden z 6nm základních čipletů ponese tři 5nm čiplety, každý s osmi jádry Zen 4, celkem tedy 24 jádry.
- 6nm aktivní čiplet: 2× 5nm CDNA 3 čiplet
- 6nm aktivní čiplet: 2× 5nm CDNA 3 čiplet
- 6nm aktivní čiplet: 2× 5nm CDNA 3 čiplet
- 6nm aktivní čiplet: 3× 5nm (8×) Zen 4 čiplet
Lze odhadovat, že každý z celkem šesti CDNA 3 čipletů ponese ~6144 stream-procesorů a ~384 tensor cores (může to být méně, pokud AMD výrazně zvýší taktovací frekvence, nebo naopak více, pokud takty nijak nestoupnou či dokonce klesnou - odvozujeme z orientačního cílového výkonu, ale nevíme, jakou kombinací taktů a počtu jednotek ho AMD plánuje dosáhnout).
AMD zatím neposkytla žádné bližší údaje o procesorové části. Údaj o trojici čipletů po osmi jádrech může být spekulací médií (byť postavenou na potvrzené přítomnosti 24 jader a trojici čipletů vycházející pro procesorovou část). Ovšem přinejmenším render od AMD (úvodní snímek) použití tří symetrických procesorových čipletů nenapovídá.
Spekulace na téma využití menších jader Zen 4c vyvrátil leaker Bondrewd. Hodnota 24 jader může vyznívat trochu nezvykle, ale při konfiguraci SoC dává smysl alespoň z hlediska poměru: Na každých osm jader Zen 4 totiž vycházejí dva výpočetní čiplety.
foto: Marco Chiappetta
AMD do celkového počtu čipletů (4 podložní + 6 výpočetních + 3 procesorové = 13 celkem) zjevně nezapočítává „hloupou“ základní podložku (interposer) ani osm dalších (menší) čipletů umístěných mezi HBM3 čipy, které by snad mohly být rozhraním pro paměti(?)
AMD Radeon Instinct MI60 | Instinct MI100 | Instinct MI210 | Instinct MI250X | Instinct MI300 | |
---|---|---|---|---|---|
označení | Vega 20 | Arcturus | Aldebaran | Rigel | |
architektura | GCN 4 | CDNA | CDNA 2 | CDNA 3 | |
CPU | 24× Zen 4 | ||||
formát | PCIe | PCIe | PCIe | OAM | OAM |
CU/SM | 60 | 120 | 104 (128) | 220 (256) | 384+? |
FP32 jader | 3840 | 7680 | 6656 (8192) | 14080 (16384) | 24k+? |
FP64 jader | - | - | - | - | - |
INT32 jader | - | - | - | - | - |
Tens. Cores | - | 440? | 416 | 880 | ? |
takt | 1800 MHz | 1502 MHz | ≤1700 MHz | ? | |
↓↓↓ T(FL)OPS ↓↓↓ | |||||
FP16 | 29,5 | 184,6 | 181 | 383 | ? |
BF16 | 92,3 | 181 | 383 | ? | |
FP32 | 14,7 | 23,5 | 45,3 22,6 | 95,7 47,9 | ? |
FP64 | 7,4 | 11,5 | 22,6 | 47,9 | ? |
INT4 | 118 | 184,6 | 181 | 383 | ? |
INT8 | 59,0 | 184,6 | 181 | 383 | ? |
INT16 | 29,5 | ? | ? | ? | ? |
INT32 | ? | ? | ? | ? | ? |
FP8 tensor | 1500 3000* | ||||
FP16 tensor | 184,6 | 181 | 383 | 750? | |
BF16 tensor | 92,3 | 181 | 383 | 750? | |
FP32 tensor | 46,1 | 45,3 | 95,7 | 190? | |
TF32 tensor | ? | ||||
FP64 tensor | 45,3 | 95,7 | 190? | ||
INT4 tensor | ? | ||||
INT8 tensor | 184,6 | 181 | 383 | ? | |
↑↑↑ T(FL)OPS ↑↑↑ | |||||
TMU | 240 | 480? | - | - | - |
sběrnice | 4096bit | 4096bit | 4096bit | 8192bit | 8192bit |
kapacita paměti | 32 GB | 32 GB | 64 GB | 128 GB | 128 GB |
HBM | 2,0 GHz | 2,4 GHz | 3,2 GHz | 3,2 GHz | HBM3 |
paměť. propustn. | 1024 GB/s | 1229 GB/s | 1639 GB/s | 3277 GB/s | ~5 TB/s |
TDP | 300 W | 300 W | 300 W | 500W 560W | 600W+? |
transistorů | 13,2 mld. | 50 mld. 25,6 mld. | 29,1 mld. | 58,2 mld. | 146 mld. |
plocha GPU | 331 mm² | 750 mm² | ½ MI250X | ? | 660 mm²? |
proces | 7 nm | 7 nm | 6nm | 6nm | 5nm+6nm |
datum | 2018 | 2020 | 2022 | 2021 | 2023 |
*s využitím sparsity
AMD avizovala, že Instinct MI300 posune energetickou efektivitu až na pětinásobek Instinct MI250X:
A zároveň, že výkon v AI stoupne až osminásobně. Tento údaj upřesnila, týká se výpočtů v FP8 formátu s využitím sparsity. Minulá generace režim sparsity nepodporovala, což znamená, že surový výkon v FP8 stoupl čtyřnásobně. Dále můžeme dedukovat na základě faktu, že FP8 nebyl na minulé generaci podporován nativně, takže pokud by ho někdo chtěl využít, byl by výkon v něm na stejné úrovni jako při FP16. Pokud tedy AI (tensor) výkon Instinct MI300 v FP8 bude na čtyřnásobku výkonu Instinct MI250X v FP16 a s využitím sparsity na osminásobku, pak se dostáváme na hodnoty 1532 / 3064 TFLOPS pro tento formát. Z toho by pak bylo možné odhadovat, že výkon v ostatních formátech v tensorových operacích (bez využití sparsity) stoupne na dvojnásobek a s využitím sparsity (bude-li na daných formátech podporovaná) na čtyřnásobek. Tím už se ale dostáváme na poměrně tenký led spekulací.
foto: Future
Instinct MI300 využije HBM3. Z konfigurace na snímku a údaji o 128GB kapacitě pak jasně vyplývá, že půjde o 8192bit sběrnici. Jak rychlé čipy AMD zvolí, zatím neprozradila, ale lze odhadovat, že datová propustnost stoupne minimálně na ~5 TB/s.
AMD oznámila, že v blízké době začne dodávat vzorky Instinct MI300 partnerům, rovněž v blízké době (tedy snad v návaznosti na to) zveřejní další informace, mimo jiné o způsobu propojení vrstev a čipletů. Distribuce sériově vyráběných kusů se chystá na druhé pololetí letošního roku.
AMD