Aldebaran / Instinct MI200: historicky první GPU s >100 miliardami tranzistorů
Již v době vydání GPU Arcturus pohánějícího akcelerátor Instinct MI100 zmínila AMD, že u ní zákazníci poptávají především vyšší výkon v double-precision, výpočtech s přesností FP64. Zatímco Nvidia v posledních letech výkon v FP64 nijak výrazně nezvyšovala a soustředila se především na tenzorové operace ve formátech s nižší přesností (INT4, INT8 aj.), AMD se tentokrát rozhodla šlápnout na plyn především ve formátech jako FP64 a FP32. Krom toho, že nové výpočetní GPU Aldebaran zvýší počet funkčních jednotek na dvojnásobek (oproti Arcturu) a tím prakticky zdvojnásobí výkon ve všech podporovaných formátech, dochází i ke zdvojnásobení výkonu na výpočetní jednotku tím, že architektura CDNA 2 podporuje FP64 nativně (tedy v plném výkonu oproti polovičnímu u CDNA) a FP32 zvládá zpracovávat jako tzv. packed ops, tedy obdobně jako předchozí architektury zacházely s FP16 (zpracovávány 2× rychleji oproti o stupeň vyšší přesnosti).
Jak už je známo, Aldebaran se bude skládat ze dvou velkých symetrických čipletů, které jsou vybaveny (každý) podobně jako předchůdce Arcturus. Každý čiplet tedy nese fyzicky 128 CU = 8192 stream-procesorů a čtyři kanály HBM. V případě Aldebaranu může být na každém z celkem osmi kanálů umístěno 16 GB HBM2E paměti o až 3,2 GHz efektivně, takže celková datová propustnost může dosahovat až 3,3 TB/s. Co na úvodním schematu není úplně správné, je zobrazení dvou PCIe rozhraní PCIe/xGMI. Ta jsou sice fyzicky přítomně na obou čipletech, ale v případě sekundárního by mělo být rozhraní deaktivováno.
AMD Radeon Instinct MI60 | AMD Instinct MI100 | AMD Instinct MI200 | Nvidia A100 | |
---|---|---|---|---|
GPU | Vega 20 | Arcturus | Aldebaran | GA100 |
architektura | GCN4 | CDNA | CDNA2 | Ampere |
formát | PCIe | PCIe | OAM | SXM4 / PCIe |
CU/SM | 60 | 120 | 240 (256) | 108 |
FP32 jader | 3840 | 7680 | 15360 (16384) | 6912 |
FP64 jader | - | - | - | 3456 |
INT32 jader | - | - | - | 6912 |
Tensor Cores | - | ? | ? | 432 |
takt | 1800 MHz | 1502 MHz | ≤1500 MHz | 1410 MHz |
↓↓↓ T(FL)OPS ↓↓↓ | ||||
FP16 | 29,5 | 184,6 | 369 | 78 |
BF16 | 92,3 | 185 | 39 | |
FP32 | 14,7 | 23,5 | 92,3 | 19,5 |
FP64 | 7,4 | 11,5 | 46,1 | 9,7 |
INT4 | 118 | 184,6 | ? | ? |
INT8 | 59,0 | 184,6 | ? | ? |
INT16 | 29,5 | ? | ? | ? |
INT32 | ? | ? | ? | 19,5 |
FP16 tensor | 184,6 | 369 | 312/624* | |
BF16 tensor | 92,3 | 369 | 312/624* | |
FP32 tensor | 46,1 | 92,3 | 19,5 | |
TF32 tensor | 156/312* | |||
FP64 tensor | 46,1? | 19,5 | ||
INT8 tensor | 184,6 | 369 | 624/1248* | |
INT4 tensor | 1248/2496* | |||
↑↑↑ T(FL)OPS ↑↑↑ | ||||
TMU | 240 | 480? | 960? (1024)? | 432 |
sběrnice | 4096bit | 4096bit | 8192bit | 5120bit |
kapacita paměti | 32 GB | 32 GB | ≤128 GB | 40 GB 80 GB |
HBM2 | 2,0 GHz | 2,4 GHz | 3,2 GHz | 2,43 GHz 3,20 GHz |
pam. propustn. | 1024 GB/s | 1229 GB/s | 3277 GB/s | 1555 GB/s 2048 GB/s |
TDP | 300 W | 300 W | ? | 400 / 250 W |
transistorů | 13,2 mld. | 50,0 mld. | >100 mld.? | 54,2 mld. |
plocha GPU | 331 mm² | 750 mm² | ? | 826 mm² |
proces (TSMC) | 7 nm | 7 nm | ? | 7 nm N7 |
datum | 2018 | 2020 | 2021 | 2020 |
* pouze při využití sparsity / Sparse Tensor Cores
údaje k MI100, které AMD neuvádí, ale v některé zdroje ano, jsou označeny otazníkem (např. dle TechPoweUp obsahuje GPU Arcturus texturovací jednotky i ROP, ale počet ROP je omezen na 64 - což je pro 8192 stream-procesorů velmi nízká hodnota - u Navi 21 je na 5120 stream-procesorů přítomno 128 ROP; je tedy zřejmé, že vyvážení návrhu se silně kloní k výpočtům, ovšem grafiku by jádro mělo být schopno zvládat také - otázka jsou ovladače)
Specifikace v tabulce výše berte jako hrubě orientační. Přestože u některých formátů již víme, v jaké rychlosti je architektura zvládá zpracovávat, taktovací frekvence zatím nejsou známé a lze připustit, že budou mírně nižší než ~1500 MHz u generace minulé. Můžeme ale shrnout, že univerzální výkon v FP64 a FP32 bude mezigeneračně 4× vyšší a co se týče tenzorových výpočtů, bude nově podporován formát FP64, přičemž BF16 se dočká rovněž čtyřnásobného zrychlení. V ostatních formátech stoupne výkon 2× (nebo téměř 2×, bude-li takt o něco nižší).
Pokud jde o exotičtější a méně přesné formáty, zdá se, že strategie AMD nespočívá v implementaci všeho na úroveň univerzálního akcelerátoru, ale že tyto požadavky plánuje řešit pomocí semi-custom divize produkty na míru využívajícími mimo jiné FPGA společnosti Xilinx, jejíž akvizice (zatím zdárně) probíhá.
Vyjdeme-li z hodnoty 50 miliard tranzistorů, která se týká stávajícího GPU Arcturus, pak při prostém zdvojnásobení funkčních bloků docházíme k důvodnému předpokladu, že rozpočet tranzistorů na GPU Aldebaran nemůže být nižší než 100 miliard tranzistorů. Při takové hodnotě se jeví jaké méně pravděpodobné, že by Aldebaran mohl vzniknout na 7nm (ne-EUV) procesu, takže - ač zatím není nic jistého - lze oprávněně uvažovat o 6nm nebo 5nm výrobě. Na druhou stranu by to znamenalo, že AMD na 5nm procesu začne - poněkud neobvykle - výrobou ~500mm² čipletů. To ovšem nejspíš bude kompenzováno maržemi, které si na de facto bezkonkurenčním produktu může dovolit.