PCIe verze Nvidia A100: Parametry stejné, TDP 250W, výkon o 10-50 % nižší
Po šesti týdnech od uvedení SXM verze Nvidia A100 (již bez „Tesla“) ohlásila Nvidia verzi v provedení do PCIe slotu, podobnou jako u klasických grafických karet.
Není vybavena vlastním aktivním chladičem, nese pasiv, takže je určena pro serverové skříně, kde je pořádný průvan. Rozměry chladiče omezené prostorem pro PCIe kartu vedly ke sníženému TDP, což je jediný parametrový rozdíl oproti klasické SXM verzi:
Nvidia Tesla P100 | Nvidia Tesla V100 | Nvidia A100 | |
---|---|---|---|
GPU | GP100 | GV100 | GA100 |
architektura | Pascal | Volta | Ampere |
formát | SXM | SXM2 | SXM4 / PCIe |
SM | 56 | 80 | 108 |
TPC | 28 | 40 | 54 |
FP32 jader / SM | 64 | 64 | 64 |
FP32 jader / GPU (celkem) | 3584 | 5120 | 6912 |
FP64 jader / SM | 32 | 32 | 32 |
FP64 jader / GPU (celkem) | 1792 | 2560 | 3456 |
INT32 jader / SM | 64 | 64 | |
INT32 jader / GPU (celkem) | 5120 | 6912 | |
Tensor Cores / SM | 8 | 4 | |
Tensor Cores / GPU | 640 | 432 | |
GPU Boost Clock | 1480 MHz | 1530 MHz | 1410 MHz |
↓↓↓ T(FL)OPS ↓↓↓ | |||
FP16 tensor (FP16 acc) | 125 | 312/624* | |
FP16 tensor (FP32 acc) | 125 | 312/624* | |
BF16 tensor (FP32 acc) | 312/624* | ||
TF32 tensor | 156/312* | ||
FP64 tensor | 19,5 | ||
INT8 tensor | 624/1248* | ||
INT4 tensor | 1248/2496* | ||
FP16 | 21,2 | 31,4 | 78 |
BF16 | 39 | ||
FP32 | 10.6 | 15,7 | 19,5 |
FP64 | 5.3 | 7,8 | 9,7 |
INT32 | 15,7 | 19,5 | |
↑↑↑ T(FL)OPS ↑↑↑ | |||
texturovacích jednotek | 224 | 320 | 432 |
sběrnice | 4096bit HBM2 | 4096bit HBM2 | 5120bit HBM2 |
kapacita paměti | 16 GB | 32 GB / 16 GB | 40 GB |
HBM | 1,4 GHz | 1,755 GHz | 2,43 GHz |
paměť. propustnost | 720 GB/s | 900 GB/s | 1555 GB/s |
L2 Cache | 4096 KB | 6144 KB | 40960 KB |
Shared Memory / SM | 64 KB | ≤ 96 KB | ≤ 164 KB |
Register File / SM | 256 KB | 256 KB | 256 KB |
Register File / GPU (celkem) | 14336 KB | 20480 KB | 27648 KB |
TDP | 300 W | 300 W | 400 / 250 W |
Transistorů | 15,3 mld. | 21,1 mld. | 54,2 mld. |
plocha GPU | 610 mm² | 815 mm² | 826 mm² |
proces (TSMC) | 16 nm FinFET+ | 12 nm FFN | 7 nm N7 |
Nvidia ponechává beze změny papírové takty a jim odpovídající teoretický výkon. S ohledem na snížení TDP ze 400 na 250 wattů ale v souvislé zátěži takty zjevně klesnou, což se odrazí na reálném výkonu: Očekávat máme pokles o 10-50 % oproti SXM verzi.
Nvidia očekává, že do konce léta bude vydaných 30 serverů využívajících (některou z verzí) Nvidia A100 a do konce roku přibude přinejmenším dalších 20.