Instinct MI250X: 5× vyšší výkon v FP64 než Ampere
Na počátku července jsme vám přinesli celkem podrobný rozbor, který na základě uniklých parametrů poskládal orientační specifikace GPU Alderbaran, dvoučipletového akcelerátoru postaveného na architektuře CDNA 2, který bude pohánět produkty rodiny Instinct MI200. Podle leakera ExecutableFix to vypadá, že je vydání karet prakticky za rohem, protože už byly stanovené finální názvy a parametry. Top model ponese označení Instinct MI250X, nejspíš později dojde i na model MI250 (bez X), jehož výkon bude nižší.
Údaje přinášejí několik překvapení. V první řadě taktovací frekvence nebude námi odhadovaných až 1500 MHz (jako u současné generace), ale až 1700 MHz. Což je s ohledem na mnohem větší plochu křemíku (při údajně stejném procesu) opravdu zajímavé. To znamená, že výkon je o něco vyšší, než jsme odhadovali. Na druhou stranu TDP akcelerátoru (OAM modul) nebude očekávaných ~600 wattů, ale jen 500 wattů.
ExecutableFix jmenovitě hovoří o FP64 výkonu (double-precision) 47,9 TFLOPS, což je bezprecedentní hodnota - oproti poslednímu modelu Nvidie (A100, generace Ampere) jde o pětinásobek. Při údajně stejném procesu. Oproti očekávání dojde k výraznějšímu zvýšení výkon ve formátu BF16. Nebude poloviční oproti FP16 (jako u Instinct MI200), ale stejný. Tedy mezigeneračně více než 4× vyšší. Nejasnosti zůstávají kolem FP32 - některé zdroje hovoří o poměru 2:1 oproti FP64 (tj. 95,7 TFLOPS), jiné 1:1 (47,9 TFLOPS). ExecutableFix hodnotu pro FP32 neuvádí, takže si ještě budeme muset počkat.
AMD Radeon Instinct MI60 | Instinct MI100 | Instinct MI250X | Instinct MI300 | Nvidia A100 | |
---|---|---|---|---|---|
GPU | Vega 20 | Arcturus | Aldebaran | Rigel | GA100 |
architektura | GCN4 | CDNA | CDNA2 | CDNA3 | Ampere |
CPU | |||||
formát | PCIe | PCIe | OAM | OAM | SXM4 / PCIe |
CU/SM | 60 | 120 | 220 (256) | (384-512?) | 108 |
FP32 jader | 3840 | 7680 | 14080 (16384) | (24k-33k?) | 6912 |
FP64 jader | - | - | - | - | 3456 |
INT32 jader | - | - | - | - | 6912 |
Tens. Cores | - | ? | ? | ? | 432 |
takt | 1800 MHz | 1502 MHz | ≤1700 MHz | ? | 1410 MHz |
↓↓↓ T(FL)OPS ↓↓↓ | |||||
FP16 | 29,5 | 184,6 | 383 | ? | 78 |
BF16 | 92,3 | 383 | ? | 39 | |
FP32 | 14,7 | 23,5 | 47,9? | ? | 19,5 |
FP64 | 7,4 | 11,5 | 47,9 | ? | 9,7 |
INT4 | 118 | 184,6 | ? | ? | ? |
INT8 | 59,0 | 184,6 | ? | ? | ? |
INT16 | 29,5 | ? | ? | ? | ? |
INT32 | ? | ? | ? | ? | 19,5 |
FP16 tensor | 184,6 | 383? | ? | 312/624* | |
BF16 tensor | 92,3 | 383? | ? | 312/624* | |
FP32 tensor | 46,1 | 95,7 | ? | 19,5 | |
TF32 tensor | ? | 156/312* | |||
FP64 tensor | 47,9? | ? | 19,5 | ||
INT8 tensor | 184,6 | 383? | ? | 624/1248* | |
INT4 tensor | ? | 1248/2496* | |||
↑↑↑ T(FL)OPS ↑↑↑ | |||||
TMU | 240 | 480? | 880? (1024)? | ? | 432 |
sběrnice | 4096bit | 4096bit | 8192bit | ? | 5120bit |
kapacita paměti | 32 GB | 32 GB | 128 GB | ? | 40 GB 80 GB |
HBM2 | 2,0 GHz | 2,4 GHz | 3,2 GHz | HBM3? | 2,43 GHz 3,20 GHz |
paměť. propustn. | 1024 GB/s | 1229 GB/s | 3277 GB/s | ? | 1555 GB/s 2048 GB/s |
TDP | 300 W | 300 W | 500W | ~600W? | 400 / 250 W |
transistorů | 13,2 mld. | 50,0 mld. | >100 mld.? | ? | 54,2 mld. |
plocha GPU | 331 mm² | 750 mm² | ? | ? | 826 mm² |
proces | 7 nm | 7 nm | 7nm? | ? | 7 nm |
datum | 2018 | 2020 | 2021 | 2022-2023 | 2020 |
Nově (byť stále neoficiálně) „potvrzené“ hodnoty jsou zvýrazněny tučně, výraznější změny červeně
Stejně tak zůstávají otazníky nad výkonem v tenzorových operacích. I ten se výrazně zvýší, otázka je o kolik. Existují konzervativnější zprávy, podle nichž nedošlo k žádným změnám ve výbavě tenzorových jader. To by znamenalo posun výkonu odpovídající navýšení množství výpočetních jednotek a frekvencí - tedy zhruba na mezigenerační dvojnásobek. Podle jiných zdrojů k určitým zlepšením došlo a ve formátu BF16 tensor by mohl být výkon 4× vyšší a nově podporován i formát FP64 tensor. Bez ohledu na to bude v tenzorových operacích s některými formáty Instinct MI250X více či méně rychlejší než Nvidia A100. V FP16 tensor o 23 %, v FP32 tensor to vypadá prakticky na pětinásobek.
S přelomem září a října ohlásila Advanced Scientific Computing Advisory Committee (ASCAC), že laboratoře Oak Ridge zahájily instalaci superpočítače Frontier, což bude vůbec první Exascale systém na světě. Právě ten je prvním známým projektem a zároveň největším projektem, který bude Instinct MI250X pohánět.
Dalším (byť menším) má být superpočítač pro australské výpočetní centrum v Pawsey, který bude zpracovávat data z rádioteleskopu Square Kilometre Array (SKA).
Na generaci Instinct MI200 je zajímavé, že ji AMD začala partnerům dodávat podstatně dříve než rok po vydání generace předchozí (Instinct MI100), dále že dokázala mezigeneračně zdvoj- až zečtyřnásobit její výkon při pouze 1,7× vyšších energetických nárocích. Toho všeho dosáhla bez potřeby nového výrobního procesu (dostupné zdroje shodně mluví o 7nm procesu, byť se to zdá být natolik neuvěřitelné, že bude lepší počkat na oficiální materiály) a nakonec, že AMD dokázala tento produkt dostat k zákazníkům již v roce 2021, zatímco konkurenční Intel Ponte Vecchio (Xe-HPC) a Nvidia H100 se chystají až na příští rok. Že by čiplety? Jistě však nejen ty.