Diit.cz - Novinky a informace o hardware, software a internetu

Výpočetní APU Instinct MI300A dosahuje až 4× vyššího výkonu oproti akcelerátorům

Zdroj: AMD

Platforma arXiv Cornellovy univerzity zveřejnila publikaci, podle které je díky sdílené paměti a unifikovanému adresnímu prostoru na Instinct MI300A možné dosáhnout násobků výkonu oproti odděleným řešením…

Existují zátěže, které jsou na současném hardwaru limitované jeho výpočetním výkonem. Stejně tak ale existují zátěže, u kterých není na současných akcelerátorech limit na straně výpočetního výkonu, ale datových přenosů. V situaci, kde jsou procesor a akcelerátor oddělené a každý má vlastní paměť, může dojít k situaci, kdy přesuny dat mezi pamětí procesoru a pamětí akcelerátoru vyžadují víc času než samotné výpočty.

Zdroj: DIIT

Právě Instinct MI300A od AMD je prvním výkonným řešením, které překonává klasický koncept CPU s vlastní pamětí a GPU s vlastní pamětí, která jsou vzájemně propojena poměrně pomalým rozhraním PCIe. S MI300A je paměť jednotná, sdílená a CPU i GPU část k ní mají rovnocenný přístup díky unifikovanému adresnímu prostoru. Pokud tedy má GPU pracovat s daty, nemusí docházet k jejich přesunu z jedné paměti do druhé (a pak případně výsledku zpět), ale vše se odehrává na jedné úrovni.

Zdroj: DIIT

V případě úloh, které jsou limitované právě datovými přesuny, je výkonnostní posun MI300A obrovský a může dosahovat až čtyřnásobku výkonu klasického řešení na bázi procesor / akcelerátor.

Zdroj: DIIT

Další graf ukazuje, kolik z času na zpracování úlohy jednotlivá hardwarová řešení spotřebují na samotné výpočty (tmavě) a kolik na datové přesuny (světle). Tento poměr zároveň vysvětluje, proč u tohoto typu úloh má na celkový výkon akcelerátorů navyšování výpočetního výkonu už jen minimální vliv.


Instinct MI300A je řešením, které vzešlo z původního projektu Exascale Heterogeneous Processor (EHP) alias Exascale APU, o kterém se mluvilo (již) v roce 2017. Retrospektivně je zajímavé, jak se AMD musela vypořádat se změnami ve vývoji technologií. Například původní předpoklad byl, že dojde k použití dvou čtyřjádrových procesorových čipletů, tedy celkem 8 jader na APU. Těch je nakonec 24 na APU (tři čiplety po osmi).

Amd Exascale Heterogeneous Processor Ehp

Zdroj: DIIT

Na druhé straně vývoj paměti HBM šel pomaleji, než se původně očekávalo. Což je důsledkem skutečnosti, že se výrobci paměti rozhodli udělat z tohoto řešení high-end, který se zaplatí jen na nejvýkonnějších akcelerátorech (namísto původně zamýšleného široce uplatnitelného produktu). Namísto původně zvažovaných HBM4, které měly být navrstvené na nízce taktovaných grafických čipletech (aby HBM neupekly) muselo dojít na HBM3, které nakonec byly umístěny klasicky „vedle“. Tím padla nutnost držet grafické čiplety na nízkých taktech (~1 GHz) a AMD si mohla dovolit takty lehce přes 2 GHz.

 Instinct
MI100
Instinct
MI210
Instinct
MI250X
Instinct
MI300A
Instinct
MI300X
označeníArcturusAldebaranRigel
architekturaCDNACDNA 2CDNA 3
CPU24× Zen 4
formátPCIePCIeOAMsocket SH5OAM
CU/SM120104
(128)
220
(256)
228304
FP32 jader76806656
(8192)
14080
(16384)
1459219456
FP64 jader-----
INT32 jader-----
Tens. Cores440?416880??
takt (max.)1502 MHz 1700 MHz2100 MHz
 ↓↓↓ T(FL)OPS ↓↓↓
FP16
184,6181383980,61300
BF16
92,3181383980,61300
FP32
23,545,3
22,6
95,7
47,9
122,6163,4
FP64
11,522,647,961,381,7
INT4
184,6181383??
INT8184,618138319602600
INT16?????
INT32?????
FP8 tensor3922,4*
1961,2
5229,8*
2614,9
FP16 tensor184,61813831961,2*
980,6
2614,9*
1307,5
BF16 tensor92,31813831961,2*
980,6
2614,9*
1307,5
FP32 tensor46,145,395,7122,6163,4
TF32 tensor
980,6*
490,3
1307,4*
653,7
FP64 tensor
45,395,7122,6163,4
INT4 tensor
INT8 tensor
184,61813833922,4*
1961,2
5229,8*
2614,9
 ↑↑↑ T(FL)OPS ↑↑↑
TMU480?---
cache??16 MB256 MB Infinity Cache
sběrnice4096bit4096bit8192bit8192bit
kapacita
paměti
32 GB64 GB128 GB128 GB192 GB
HBM2,4 GHz3,2 GHz3,2 GHzHBM3 >5 GHz
paměť.
propustn.
1229 GB/s1639 GB/s3277 GB/s5,3 TB/s
TDP300 W300 W500W
560W
550-760W750W
transistorů50 mld.
25,6 mld.
29,1 mld.58,2 mld.146 mld.153 mld.
plocha GPU750 mm²
362 mm²724 mm²660 mm²?
proces7 nm6nm6nm5nm+6nm
datum20202022202120232023

Navzdory tomu byla překonána původně cílená hladina energetická efektivity. Namísto cílených 50 GFLOPS na watt dosahuje Instinct MI300A 80-111 GFLOPS na watt (obojí univerzální výpočetní výkon v double-precision). Co se podstatně nezměnilo, je počet stream-procesorů, který se původně plánoval na 16 384 a nakonec dosahuje hodnoty 14 592.

O čem se v roce 2017 ovšem nemluvilo vůbec a co nakonec MI300A zvládá velmi obstojně, je AI akcelerace. Pokud jde o AI výpočty v double-precision, je efektivita oproti původnímu plánu ještě 2× vyšší než hodnoty uvedené v předchozím odstavci.

Tagy: 
Zdroje: 

Diskuse ke článku Výpočetní APU Instinct MI300A dosahuje až 4× vyššího výkonu oproti akcelerátorům

Úterý, 7 Květen 2024 - 23:36 | Lazar | Zajímalo by mne zda dnešní Macy zvládají v DR...
Úterý, 7 Květen 2024 - 14:32 | Kutil | OK. NAS je v tomto případě levná úzce zaměřená...
Úterý, 7 Květen 2024 - 14:30 | Kutil | Protože takto se nabízí násobně větší variabilita...
Úterý, 7 Květen 2024 - 14:23 | Lazar | Co to má co společného s routerem/firewallem?...
Úterý, 7 Květen 2024 - 14:18 | Lazar | Řešil jsem možnosti klasického PC conceptu (CPU+...
Úterý, 7 Květen 2024 - 13:47 | Kutil | Tomu rozumím. Nicméně bez toho, aby na tom...
Úterý, 7 Květen 2024 - 13:35 | Lazar | Smyslem dříve zmíněného rychlého NIC bylo...
Úterý, 7 Květen 2024 - 12:34 | Kutil | Asi tak. Pokud to nebude připojené ke značně...
Úterý, 7 Květen 2024 - 12:31 | melkor | Takže vezmu desku se Z790 a nějakým 14000 (ne F)...
Úterý, 7 Květen 2024 - 11:31 | Kutil | S tím NIC začal někdo jiný, já jen odvodil, že...

Zobrazit diskusi