Aldebaran / Instinct MI200: historicky první GPU s >100 miliardami tranzistorů

6. 7. 2021 | no-X | Hardware, Novinky, Grafiky

V letošním roce plánuje AMD vydat GPU Aldebaran s architekturou CDNA 2, které bude pohánět akcelerátor Instinct MI200. Jeho předběžné parametry působí docela extrémně…

Již v době vydání GPU Arcturus pohánějícího akcelerátor Instinct MI100 zmínila AMD, že u ní zákazníci poptávají především vyšší výkon v double-precision, výpočtech s přesností FP64. Zatímco Nvidia v posledních letech výkon v FP64 nijak výrazně nezvyšovala a soustředila se především na tenzorové operace ve formátech s nižší přesností (INT4, INT8 aj.), AMD se tentokrát rozhodla šlápnout na plyn především ve formátech jako FP64 a FP32. Krom toho, že nové výpočetní GPU Aldebaran zvýší počet funkčních jednotek na dvojnásobek (oproti Arcturu) a tím prakticky zdvojnásobí výkon ve všech podporovaných formátech, dochází i ke zdvojnásobení výkonu na výpočetní jednotku tím, že architektura CDNA 2 podporuje FP64 nativně (tedy v plném výkonu oproti polovičnímu u CDNA) a FP32 zvládá zpracovávat jako tzv. packed ops, tedy obdobně jako předchozí architektury zacházely s FP16 (zpracovávány 2× rychleji oproti o stupeň vyšší přesnosti).

Jak už je známo, Aldebaran se bude skládat ze dvou velkých symetrických čipletů, které jsou vybaveny (každý) podobně jako předchůdce Arcturus. Každý čiplet tedy nese fyzicky 128 CU = 8192 stream-procesorů a čtyři kanály HBM. V případě Aldebaranu může být na každém z celkem osmi kanálů umístěno 16 GB HBM2E paměti o až 3,2 GHz efektivně, takže celková datová propustnost může dosahovat až 3,3 TB/s. Co na úvodním schematu není úplně správné, je zobrazení dvou PCIe rozhraní PCIe/xGMI. Ta jsou sice fyzicky přítomně na obou čipletech, ale v případě sekundárního by mělo být rozhraní deaktivováno.

	AMD Radeon Instinct MI60	AMD Instinct MI100	AMD Instinct MI200	Nvidia A100
GPU	Vega 20	Arcturus	Aldebaran	GA100
architektura	GCN4	CDNA	CDNA2	Ampere
formát	PCIe	PCIe	OAM	SXM4 / PCIe
CU/SM	60	120	240 (256)	108
FP32 jader	3840	7680	15360 (16384)	6912
FP64 jader	-	-	-	3456
INT32 jader	-	-	-	6912
Tensor Cores	-	?	?	432
takt	1800 MHz	1502 MHz	≤1500 MHz	1410 MHz
	↓↓↓ T(FL)OPS ↓↓↓
FP16	29,5	184,6	369	78
BF16		92,3	185	39
FP32	14,7	23,5	92,3	19,5
FP64	7,4	11,5	46,1	9,7
INT4	118	184,6	?	?
INT8	59,0	184,6	?	?
INT16	29,5	?	?	?
INT32	?	?	?	19,5
FP16 tensor		184,6	369	312/624*
BF16 tensor		92,3	369	312/624*
FP32 tensor		46,1	92,3	19,5
TF32 tensor				156/312*
FP64 tensor			46,1^?	19,5
INT8 tensor		184,6	369	624/1248*
INT4 tensor				1248/2496*
	↑↑↑ T(FL)OPS ↑↑↑
TMU	240	480^?	960^? (1024)^?	432
sběrnice	4096bit	4096bit	8192bit	5120bit
kapacita paměti	32 GB	32 GB	≤128 GB	40 GB 80 GB
HBM2	2,0 GHz	2,4 GHz	3,2 GHz	2,43 GHz 3,20 GHz
pam. propustn.	1024 GB/s	1229 GB/s	3277 GB/s	1555 GB/s 2048 GB/s
TDP	300 W	300 W	?	400 / 250 W
transistorů	13,2 mld.	50,0 mld.	>100 mld.?	54,2 mld.
plocha GPU	331 mm²	750 mm²	?	826 mm²
proces (TSMC)	7 nm	7 nm	?	7 nm N7
datum	2018	2020	2021	2020

* pouze při využití sparsity / Sparse Tensor Cores
údaje k MI100, které AMD neuvádí, ale v některé zdroje ano, jsou označeny otazníkem (např. dle TechPoweUp obsahuje GPU Arcturus texturovací jednotky i ROP, ale počet ROP je omezen na 64 - což je pro 8192 stream-procesorů velmi nízká hodnota - u Navi 21 je na 5120 stream-procesorů přítomno 128 ROP; je tedy zřejmé, že vyvážení návrhu se silně kloní k výpočtům, ovšem grafiku by jádro mělo být schopno zvládat také - otázka jsou ovladače)

Specifikace v tabulce výše berte jako hrubě orientační. Přestože u některých formátů již víme, v jaké rychlosti je architektura zvládá zpracovávat, taktovací frekvence zatím nejsou známé a lze připustit, že budou mírně nižší než ~1500 MHz u generace minulé. Můžeme ale shrnout, že univerzální výkon v FP64 a FP32 bude mezigeneračně 4× vyšší a co se týče tenzorových výpočtů, bude nově podporován formát FP64, přičemž BF16 se dočká rovněž čtyřnásobného zrychlení. V ostatních formátech stoupne výkon 2× (nebo téměř 2×, bude-li takt o něco nižší).

Pokud jde o exotičtější a méně přesné formáty, zdá se, že strategie AMD nespočívá v implementaci všeho na úroveň univerzálního akcelerátoru, ale že tyto požadavky plánuje řešit pomocí semi-custom divize produkty na míru využívajícími mimo jiné FPGA společnosti Xilinx, jejíž akvizice (zatím zdárně) probíhá.

Vyjdeme-li z hodnoty 50 miliard tranzistorů, která se týká stávajícího GPU Arcturus, pak při prostém zdvojnásobení funkčních bloků docházíme k důvodnému předpokladu, že rozpočet tranzistorů na GPU Aldebaran nemůže být nižší než 100 miliard tranzistorů. Při takové hodnotě se jeví jaké méně pravděpodobné, že by Aldebaran mohl vzniknout na 7nm (ne-EUV) procesu, takže - ač zatím není nic jistého - lze oprávněně uvažovat o 6nm nebo 5nm výrobě. Na druhou stranu by to znamenalo, že AMD na 5nm procesu začne - poněkud neobvykle - výrobou ~500mm² čipletů. To ovšem nejspíš bude kompenzováno maržemi, které si na de facto bezkonkurenčním produktu může dovolit.

Tagy:

Aldebaran, CDNA 2, Instinct, AMD

Zdroje:

Locuza

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku Aldebaran / Instinct MI200: historicky první GPU s >100 miliardami tranzistorů

Středa, 7 Červenec 2021 - 09:10 | WIFT | Opravdu hodně nařvaná grafika (? ;-) )

Úterý, 6 Červenec 2021 - 21:29 | danieel | Ne, opravdu to tak nefunguje - v analogii kdyz...

Úterý, 6 Červenec 2021 - 20:17 | Peter Fodrek | Dnes skoro všetko treba akcelerovať mimo CPU,...

Úterý, 6 Červenec 2021 - 18:26 | FearlessFlyer | Tak z těch parametrů (hlavně FP64) mi spadla...

Úterý, 6 Červenec 2021 - 18:21 | franzzz | 100% souhlas. Jednak jsou dnes chipy limitovany...

Úterý, 6 Červenec 2021 - 18:02 | franzzz | > FPGA má výkodu najviav pri MIMD...

Úterý, 6 Červenec 2021 - 15:46 | blacksun | Potom by ale mohlo stacit FPGA mensich rozmerov,...

Úterý, 6 Červenec 2021 - 15:37 | Dudo | ok, teraz to v krátkosti preložte do reči nášho...

Úterý, 6 Červenec 2021 - 14:37 | danieel | Tohle delalo Microsoft - vygoogli si Project...

Úterý, 6 Červenec 2021 - 14:37 | Peter Fodrek | >Oproti tomu je kompilace pro FPGA (PnR -...

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

Aldebaran / Instinct MI200: historicky první GPU s >100 miliardami tranzistorů

Jiří "no-X" Souček

Diskuse ke článku Aldebaran / Instinct MI200: historicky první GPU s >100 miliardami tranzistorů

Komerční sdělení

CDR Hry

Existují mimozemšťané? Tohle dnes říká věda, armády i astronomové

„Budu v pohodě?“ ptal se ChatGPT. Krátce poté zemřel

Falešný TikTok znovu útočí. Nový malware krade bankovní účty i kryptoměny

Astronomové našli stopu k monstrózním černým dírám. Vznikají jinak, než čekali

AI má další problém. Obří datová centra začínají vysávat zásoby vody

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT