Nvidia ohlásila 80GB verzi A100 s rychlejšími pamětmi
Nvidia A100 80GB lze chápat jako reakci na vydání akcelerátoru Instinct MI100, který představila AMD jako první produkt postavený na výpočetním GPU Arcturus, prvním jádře s architekturou CDNA.
AMD Radeon Instinct MI60 | AMD Instinct MI100 | Nvidia Tesla V100 | Nvidia A100 | |||
---|---|---|---|---|---|---|
GPU | Vega 20 | Arcturus | GV100 | GA100 | ||
architektura | GCN4 | CDNA | Volta | Ampere | ||
formát | PCIe | PCIe | SXM2 | PCIe | SXM4 | SXM4 |
CU/SM | 60 | 120 | 80 | 108 | ||
FP32 jader | 3840 | 7680 | 5120 | 6912 | ||
FP64 jader | - | - | 2560 | 3456 | ||
INT32 jader | - | - | 5120 | 6912 | ||
Tensor Cores | - | ? | 640 | 432 | ||
takt | 1800 MHz | 1502 MHz | 1530 MHz | 1410 MHz | ||
↓↓↓ T(FL)OPS ↓↓↓ | ||||||
FP16 | 29,5 | 184,6 | 31,4 | 78 | ||
BF16 | 92,3 | 39 | ||||
FP32 | 14,7 | 23,5 46,1 | 15,7 | 19,5 | ||
FP64 | 7,4 | 11,5 | 7,8 | 9,7 | ||
INT4 | 118 | 184,6 | ? | ? | ||
INT8 | 59,0 | 184,6 | ? | ? | ||
INT16 | 29,5 | ? | ? | ? | ||
INT32 | ? | ? | 15,7 | 19,5 | ||
FP16 tensor | 184,6 | 125 | 312/624* | |||
BF16 tensor | 92,3 | 312/624* | ||||
FP32 tensor | 46,1 | 19,5 | ||||
TF32 tensor | ? | 156/312* | ||||
FP64 tensor | 19,5 | |||||
INT8 tensor | 184,6 | 624/1248* | ||||
INT4 tensor | ? | 1248/2496* | ||||
↑↑↑ T(FL)OPS ↑↑↑ | ||||||
TMU | 240 | 480? | 320 | 432 | ||
sběrnice | 4096bit | 4096bit | 4096bit | 5120bit | ||
paměť | 32 GB | 32 GB | 32 GB / 16 GB | 40 GB | 80 GB | |
HBM2 | 2,0 GHz | 2,4 GHz | 1,755 GHz | 2,43 GHz | 3,2 GHz | |
pam. prop. | 1024 GB/s | 1229 GB/s | 900 GB/s | 1555 GB/s | 2048 GB/s | |
TDP | 300 W | 300 W | 300 W | 250W | 400 W | 400 W |
Transistorů | 13,2 mld. | 50,0 mld.? | 21,1 mld. | 54,2 mld. | ||
plocha GPU | 331 mm² | 750 mm²? | 815 mm² | 826 mm² | ||
proces | 7 nm | 7 nm | 12 nm | 7 nm | ||
datum | 2018 | 11. 2020 | 2017 | 6. 2020 | 5. 2020 | 11. 2020 |
Rozdíl mezi 80GB a 40GB verzí V100 spočívá, jak označení napovídá, ve dvojnásobné kapacitě paměti, která zároveň byla zrychlena z efektivních 2,43 GHz na 3,2 GHz (tzv. HBM2E), což znamená datovou propustnost až 2048 GB/s. Konfigurace jádra a tudíž ani výpočetní výkon jako takový se nemění; Nvidia ovšem předkládá slajd o až násobném navýšení reálného výkonu.
Toho lze dosáhnout za podmínky, že se buďto blok dat, se kterým akcelerátor pracuje, u 40GB verze nevejde do onboard paměti, nebo se nevejde do paměti jako celek u žádné verze, ale do 80GB se vejdou jeho podstatné části.
A100 80GB bude dostupná v SXM4 provedení, tedy v podobě modulu, což znamená dostupnost pouze v rámci celého systému, nikoli maloobchodně (jako u PCIe karet). Cenu Nvidia nezveřejnila, pro hrubou orientaci lze připomenout, že 40GB A100 vychází asi na $10 000.