Diit.cz - Novinky a informace o hardware, software a internetu

Aldebaran / Instinct MI200: historicky první GPU s >100 miliardami tranzistorů

V letošním roce plánuje AMD vydat GPU Aldebaran s architekturou CDNA 2, které bude pohánět akcelerátor Instinct MI200. Jeho předběžné parametry působí docela extrémně…

Již v době vydání GPU Arcturus pohánějícího akcelerátor Instinct MI100 zmínila AMD, že u ní zákazníci poptávají především vyšší výkon v double-precision, výpočtech s přesností FP64. Zatímco Nvidia v posledních letech výkon v FP64 nijak výrazně nezvyšovala a soustředila se především na tenzorové operace ve formátech s nižší přesností (INT4, INT8 aj.), AMD se tentokrát rozhodla šlápnout na plyn především ve formátech jako FP64 a FP32. Krom toho, že nové výpočetní GPU Aldebaran zvýší počet funkčních jednotek na dvojnásobek (oproti Arcturu) a tím prakticky zdvojnásobí výkon ve všech podporovaných formátech, dochází i ke zdvojnásobení výkonu na výpočetní jednotku tím, že architektura CDNA 2 podporuje FP64 nativně (tedy v plném výkonu oproti polovičnímu u CDNA) a FP32 zvládá zpracovávat jako tzv. packed ops, tedy obdobně jako předchozí architektury zacházely s FP16 (zpracovávány 2× rychleji oproti o stupeň vyšší přesnosti).

Jak už je známo, Aldebaran se bude skládat ze dvou velkých symetrických čipletů, které jsou vybaveny (každý) podobně jako předchůdce Arcturus. Každý čiplet tedy nese fyzicky 128 CU = 8192 stream-procesorů a čtyři kanály HBM. V případě Aldebaranu může být na každém z celkem osmi kanálů umístěno 16 GB HBM2E paměti o až 3,2 GHz efektivně, takže celková datová propustnost může dosahovat až 3,3 TB/s. Co na úvodním schematu není úplně správné, je zobrazení dvou PCIe rozhraní PCIe/xGMI. Ta jsou sice fyzicky přítomně na obou čipletech, ale v případě sekundárního by mělo být rozhraní deaktivováno.

 AMD Radeon
Instinct MI60
AMD Instinct
MI100
AMD Instinct
MI200
Nvidia A100
GPUVega 20ArcturusAldebaranGA100
architekturaGCN4CDNACDNA2Ampere
formátPCIePCIeOAMSXM4 / PCIe
CU/SM60120240
(256)
108
FP32 jader3840768015360
(16384)
6912
FP64 jader---3456
INT32 jader---6912
Tensor Cores-??432
takt1800 MHz1502 MHz≤1500 MHz1410 MHz
 ↓↓↓ T(FL)OPS ↓↓↓
FP16
29,5184,636978
BF16
92,318539
FP32
14,723,592,319,5
FP64
7,411,546,19,7
INT4
118184,6??
INT859,0
184,6??
INT1629,5???
INT32???19,5
FP16 tensor184,6369312/624*
BF16 tensor92,3369312/624*
FP32 tensor46,192,319,5
TF32 tensor
156/312*
FP64 tensor
46,1?19,5
INT8 tensor
184,6369624/1248*
INT4 tensor
1248/2496*
 ↑↑↑ T(FL)OPS ↑↑↑
TMU240480?960?
(1024)?
432
sběrnice4096bit4096bit8192bit5120bit
kapacita paměti32 GB32 GB≤128 GB40 GB
80 GB
HBM22,0 GHz2,4 GHz3,2 GHz2,43 GHz
3,20 GHz
pam. propustn.1024 GB/s1229 GB/s3277 GB/s1555 GB/s
2048 GB/s
TDP300 W300 W?400 / 250 W
transistorů13,2 mld.50,0 mld.
>100 mld.?54,2 mld.
plocha GPU331 mm²750 mm²
?826 mm²
proces (TSMC)7 nm7 nm?7 nm N7
datum2018202020212020

* pouze při využití sparsity / Sparse Tensor Cores
údaje k MI100, které AMD neuvádí, ale v některé zdroje ano, jsou označeny otazníkem (např. dle TechPoweUp obsahuje GPU Arcturus texturovací jednotky i ROP, ale počet ROP je omezen na 64 - což je pro 8192 stream-procesorů velmi nízká hodnota - u Navi 21 je na 5120 stream-procesorů přítomno 128 ROP; je tedy zřejmé, že vyvážení návrhu se silně kloní k výpočtům, ovšem grafiku by jádro mělo být schopno zvládat také - otázka jsou ovladače)

Specifikace v tabulce výše berte jako hrubě orientační. Přestože u některých formátů již víme, v jaké rychlosti je architektura zvládá zpracovávat, taktovací frekvence zatím nejsou známé a lze připustit, že budou mírně nižší než ~1500 MHz u generace minulé. Můžeme ale shrnout, že univerzální výkon v FP64 a FP32 bude mezigeneračně 4× vyšší a co se týče tenzorových výpočtů, bude nově podporován formát FP64, přičemž BF16 se dočká rovněž čtyřnásobného zrychlení. V ostatních formátech stoupne výkon 2× (nebo téměř 2×, bude-li takt o něco nižší).

Pokud jde o exotičtější a méně přesné formáty, zdá se, že strategie AMD nespočívá v implementaci všeho na úroveň univerzálního akcelerátoru, ale že tyto požadavky plánuje řešit pomocí semi-custom divize produkty na míru využívajícími mimo jiné FPGA společnosti Xilinx, jejíž akvizice (zatím zdárně) probíhá.

Vyjdeme-li z hodnoty 50 miliard tranzistorů, která se týká stávajícího GPU Arcturus, pak při prostém zdvojnásobení funkčních bloků docházíme k důvodnému předpokladu, že rozpočet tranzistorů na GPU Aldebaran nemůže být nižší než 100 miliard tranzistorů. Při takové hodnotě se jeví jaké méně pravděpodobné, že by Aldebaran mohl vzniknout na 7nm (ne-EUV) procesu, takže - ač zatím není nic jistého - lze oprávněně uvažovat o 6nm nebo 5nm výrobě. Na druhou stranu by to znamenalo, že AMD na 5nm procesu začne - poněkud neobvykle - výrobou ~500mm² čipletů. To ovšem nejspíš bude kompenzováno maržemi, které si na de facto bezkonkurenčním produktu může dovolit.

Zdroje: 

Diskuse ke článku Aldebaran / Instinct MI200: historicky první GPU s >100 miliardami tranzistorů

Středa, 7 Červenec 2021 - 09:10 | WIFT | Opravdu hodně nařvaná grafika (? ;-) )
Úterý, 6 Červenec 2021 - 21:29 | danieel | Ne, opravdu to tak nefunguje - v analogii kdyz...
Úterý, 6 Červenec 2021 - 20:17 | Peter Fodrek | Dnes skoro všetko treba akcelerovať mimo CPU,...
Úterý, 6 Červenec 2021 - 18:26 | FearlessFlyer | Tak z těch parametrů (hlavně FP64) mi spadla...
Úterý, 6 Červenec 2021 - 18:21 | franzzz | 100% souhlas. Jednak jsou dnes chipy limitovany...
Úterý, 6 Červenec 2021 - 18:02 | franzzz | > FPGA má výkodu najviav pri MIMD...
Úterý, 6 Červenec 2021 - 15:46 | blacksun | Potom by ale mohlo stacit FPGA mensich rozmerov,...
Úterý, 6 Červenec 2021 - 15:37 | Dudo | ok, teraz to v krátkosti preložte do reči nášho...
Úterý, 6 Červenec 2021 - 14:37 | danieel | Tohle delalo Microsoft - vygoogli si Project...
Úterý, 6 Červenec 2021 - 14:37 | Peter Fodrek | >Oproti tomu je kompilace pro FPGA (PnR -...

Zobrazit diskusi