Obrázek Instinct MI300A ukazuje novou strukturu výpočetních bloků u CDNA 3
Instinct MI300A nese 6 CDNA 3 čipletů (+ tři procesorové), Inctinct MI300X nese 8 CDNA 3 čipletů. Právě jeho obrázek dala AMD k dispozici, vidíte jej v úvodu. Pokud si křemíkovou část srovnáme, bude vypadat takto:
Je patrné, že jednotlivé čiplety tvoří opakující se skupiny jednotek:
Každá obsahuje šest úzce obdélníkových polí a čtyři široce obdélníkové (blížící se čtverci). Toto uspořádání se nepodobá předchozím generacím CDNA, takže patrně půjde o novinku. Popisky k těmto blokům zatím AMD nezveřejnila, takže můžeme jen předpokládat, že alespoň jeden z těchto dvou typů obdélníků symbolizuje bloky stream-procesorů (druhý by mohl symbolizovat maticové akcelerátory - v tom případě by se poměr vektorových a maticových akcelerátorů změnil - nebo něco jiného).
Starší zprávy naznačovaly, že by Instinct MI300A mohl nést kolem 24 tisíc stream-procesorů. O struktuře čipu však nebylo známo nic, takže mohlo jít o hodnotu odvozenou ze struktury známé z CDNA 2.
Z obrázku je patrné, že celý čip obsahuje (6 × 4 × 10 × 2 × 4 =) 1920 úzce obdélníkových polí a (4 × 4 × 10 × 2 × 4 =) 1280 široce obdélníkových polí. Pokud by široce obdélníková pole symbolizovala stream-procesory (vektorové akcelerátory), pak by při 16 stream-procesorech na každé nesl čip fyzicky 30720 stream-procesorů (MI300X), což by znamenalo fyzicky 23040 stream-procesorů pro MI300A. V případě, že jsou stream-procesory integrované v široce obdélníkových polích, pak by jich bylo 20480 (MI300X) / 15360 (MI300A).
Maticových akcelerátorů by tedy v prvním případě bylo 1280 (oproti 880 u Instinct MI250X) pro MI300X a 960 pro MI300A, ve druhém 1920 pro MI300X a 1440 pro MI300A.
Instinct MI100 | Instinct MI210 | Instinct MI250X | Instinct MI300A | Instinct MI300X | |
---|---|---|---|---|---|
označení | Arcturus | Aldebaran | Rigel | ||
architektura | CDNA | CDNA 2 | CDNA 3 | ||
CPU | 24× Zen 4 | ||||
formát | PCIe | PCIe | OAM | socket SH5 | OAM |
CU/SM | 120 | 104 (128) | 220 (256) | ? | ? |
FP32 jader | 7680 | 6656 (8192) | 14080 (16384) | ? | ? |
FP64 jader | - | - | - | - | - |
INT32 jader | - | - | - | - | - |
Tens. Cores | 440? | 416 | 880 | ? | ? |
takt | 1502 MHz | ≤1700 MHz | ≤1700 MHz | ? | ? |
↓↓↓ T(FL)OPS ↓↓↓ | |||||
FP16 | 184,6 | 181 | 383 | ? | ? |
BF16 | 92,3 | 181 | 383 | ? | ? |
FP32 | 23,5 | 45,3 22,6 | 95,7 47,9 | ? | ? |
FP64 | 11,5 | 22,6 | 47,9 | ? | ? |
INT4 | 184,6 | 181 | 383 | ? | ? |
INT8 | 184,6 | 181 | 383 | ? | ? |
INT16 | ? | ? | ? | ? | ? |
INT32 | ? | ? | ? | ? | ? |
FP8 tensor | 1500 3000* | ? | |||
FP16 tensor | 184,6 | 181 | 383 | 750? | ? |
BF16 tensor | 92,3 | 181 | 383 | 750? | ? |
FP32 tensor | 46,1 | 45,3 | 95,7 | 190? | ? |
TF32 tensor | ? | ? | |||
FP64 tensor | 45,3 | 95,7 | 190? | ? | |
INT4 tensor | ? | ? | |||
INT8 tensor | 184,6 | 181 | 383 | ? | ? |
↑↑↑ T(FL)OPS ↑↑↑ | |||||
TMU | 480? | - | - | - | |
sběrnice | 4096bit | 4096bit | 8192bit | 8192bit | |
kapacita paměti | 32 GB | 64 GB | 128 GB | 128 GB | 192 GB |
HBM | 2,4 GHz | 3,2 GHz | 3,2 GHz | HBM3 >5 GHz | |
paměť. propustn. | 1229 GB/s | 1639 GB/s | 3277 GB/s | 5,2 TB/s? | 5,2 TB/s |
TDP | 300 W | 300 W | 500W 560W | ? | 750W |
transistorů | 50 mld. 25,6 mld. | 29,1 mld. | 58,2 mld. | 146 mld. | 153 mld. |
plocha GPU | 750 mm² | 362 mm² | 724 mm² | 660 mm²? | |
proces | 7 nm | 6nm | 6nm | 5nm+6nm | |
datum | 2020 | 2022 | 2021 | Q3 2023? | Q4 2023? |
Tím se sice nedostáváme k jistým konkrétním číslům, ale dozvídáme se, že některé poměry funkčních bloků v jádře se změní a můžeme si udělat alespoň orientační představu, v jakých mantinelech se výpočetní výbava MI300 může pohybovat. Vzhledem k tomu, že se má podle některých zdrojů výkon v maticových operacích mezigeneračně téměř zdvojnásobit (plus přibude podpora formátu FP8), nelze vyloučit ani možnost s 1280 maticovými akcelerátory, ani s 1920. Obojí může vést ke zdvojnásobení, jen v případě první možnosti (1280) by zároveň bylo potřeba zhruba o třetinu zvýšit taktovací frekvnece, zatímco při druhé možnosti (1920) by naopak mohly trochu klesnout.
AMD