AMD Instinct MI300 naroste na 4 čiplety
AMD v současnosti prodává Radeon Instinct MI100 s GPU Arcturus. Mezi tím, od letošního jara, dodává partnerským firmám vzorky Instinct MI200 s GPU Aldebaran. Ten přináší několik zásadních odlišností. Jednak z názvu vypadlo slovo „Radeon“. Jednak půjde o první čipletové GPU vůbec. A jednak půjde patrně o první GPU s nativní full-rate podporou double-precision. To znamená, že celkový aritmetický výkon v FP64 nebude poloviční (oproti FP32), ale totožný.
S formálním vydáním Instinct MI200 AMD nechvátá, nemá totiž důvod. Produkt vznikl primárně kvůli zakázkám na velké superpočítače (EFLOPS éra), které AMD získala, a primárně bude těmito akcelerátory vybavovat je. Teprve po jejich pokrytí, až půjdou akcelerátory do prodeje, dojde k formálnímu vydání - pravděpodobně na samém konci letošního roku. Od MI200 se očekává, že každý z obou čipletů bude vybaven podobným počtem stream-procesorů jako jededn čip MI100, takže hrubý výkon bude téměř dvojnásobný. Formáty, jejichž implementace bude rozšířena (např. zmíněný FP64), budou podporovány o 2× vyšším výkonu na výpočetní jednotku a tudíž celkem o téměř 4× vyšší výkonu ve srovnání s MI100. Jde sice o neoficiální informace, nicméně by to odpovídalo dalším známým údajům jako je použití dvou čipletů, 4× vyšší kapacita paměti, 3× vyšší propustnost pamětí a přechod z formátu dvouslotové PCIe karty (250-300W TDP) na OAM modul (možnost 600W i vyššího TDP).
AMD Radeon Instinct MI60 | Instinct MI100 | Instinct MI200 | Instinct MI300 | Nvidia A100 | |
---|---|---|---|---|---|
GPU | Vega 20 | Arcturus | Aldebaran | Rigel | GA100 |
architektura | GCN4 | CDNA | CDNA2 | CDNA3 | Ampere |
formát | PCIe | PCIe | OAM | OAM | SXM4 / PCIe |
CU/SM | 60 | 120 | 240 (256) | (384-512?) | 108 |
FP32 jader | 3840 | 7680 | 15360 (16384) | (24k-33k?) | 6912 |
FP64 jader | - | - | - | - | 3456 |
INT32 jader | - | - | - | - | 6912 |
Tensor Cores | - | ? | ? | ? | 432 |
takt | 1800 MHz | 1502 MHz | ≤1500 MHz | ? | 1410 MHz |
↓↓↓ T(FL)OPS ↓↓↓ | |||||
FP16 | 29,5 | 184,6 | 369 | ? | 78 |
BF16 | 92,3 | 185 | ? | 39 | |
FP32 | 14,7 | 23,5 | 92,3 | ? | 19,5 |
FP64 | 7,4 | 11,5 | 46,1 | ? | 9,7 |
INT4 | 118 | 184,6 | ? | ? | ? |
INT8 | 59,0 | 184,6 | ? | ? | ? |
INT16 | 29,5 | ? | ? | ? | ? |
INT32 | ? | ? | ? | ? | 19,5 |
FP16 tensor | 184,6 | 369 | ? | 312/624* | |
BF16 tensor | 92,3 | 369 | ? | 312/624* | |
FP32 tensor | 46,1 | 92,3 | ? | 19,5 | |
TF32 tensor | ? | 156/312* | |||
FP64 tensor | 46,1? | ? | 19,5 | ||
INT8 tensor | 184,6 | 369 | ? | 624/1248* | |
INT4 tensor | ? | 1248/2496* | |||
↑↑↑ T(FL)OPS ↑↑↑ | |||||
TMU | 240 | 480? | 960? (1024)? | ? | 432 |
sběrnice | 4096bit | 4096bit | 8192bit | ? | 5120bit |
kapacita paměti | 32 GB | 32 GB | ≤128 GB | ? | 40 GB 80 GB |
HBM2 | 2,0 GHz | 2,4 GHz | 3,2 GHz | HBM3? | 2,43 GHz 3,20 GHz |
pam. propustn. | 1024 GB/s | 1229 GB/s | 3277 GB/s | 1555 GB/s 2048 GB/s | |
TDP | 300 W | 300 W | ≤600W? | ~600W? | 400 / 250 W |
transistorů | 13,2 mld. | 50,0 mld. | >100 mld.? | ? | 54,2 mld. |
plocha GPU | 331 mm² | 750 mm² | ? | ? | 826 mm² |
proces (TSMC) | 7 nm | 7 nm | ? | ? | 7 nm N7 |
datum | 2018 | 2020 | 2021 | 2022-2023 | 2020 |
Podle aktuálních informací ale už běží práce na Instinct MI300 (zda se karta skutečně bude takto jmenovat, zatím není potvrzeno, prostě půjde o další generaci). Ta by měla být vybavena čtveřicí čipletů. Zdá se, že podobně jako u MI200 budou i u MI300 čiplety symetrické (což je rozdíl oproti desktopovým grafickým čipům, kde to alespoň zatím vypadá na dva typy čipletů, kdy jeden - obsahující Infinity Cache a paměťové rozhraní - bude zároveň sloužit jako propojka čipletů s výpočetními bloky).
Krom počtu čipletů zatím nejsou další parametry MI300 známé, ale leccos lze odvodit. Dá se očekávat, že zůstane fyzicky 128 CU / 4096 stream-procesorů na čiplet, část bude deaktivovaná a opět dojde k rozšíření podpory datových formátů, takže by u některých mohl být výkon navýšen více, než by odpovídalo prostému zvýšení počtu stream-procesorů. O čem můžeme jen spekulovat bez jakékoli pevné půdy pod nohama, je výrobní proces. Důvodem je, že není známé ani to, na jakém vznikne současný MI200. Některé zdroje tvrdí, že na 7nm (což je možné s ohledem na volbu formátu, který umožňuje citelné zvýšení TDP), ovšem jiné se k tomutu tématu nevyjadřují vůbec. Pro MI300 by pak připadaly v úvahu možnosti 5nm procesem počínaje, přes 4nm až po 3nm. Opět bude záležet, kdy má být akcelerátor vydaný. Některé zdroje hovoří o dvou letech po MI200, ovšem MI200 přichází rok po MI100 (což by mohlo značit, že MI300 dorazí dříve než po dvou letech).
Ať už bude MI300 hotový v roce 2022 nebo 2023, půjde s ohledem na výkon očekávatelný ze čtyř čipletů o neméně ambiciózní posun než byl / je / bude MI100 -> MI200. Bude-li se AMD držet dosavadního schematu kódových jmen podle velkých hvězd, měl by po Arcturu (MI100) a Aldebaranu (MI200) následovat Rigel (úvodní ilustrace). Ten také bývá nazvývaný jako Beta Orionis - podle souhvězdí Orion, v němž je nejjasnější hvězdou.