Blackwell ohlášen: Dva >800mm² kusy křemíku, TDP 700-2700 wattů
Výpočetní řada produktů postavených na architektuře Blackwell je jiná. Oproti svým předchůdcům je v několika ohledech cítit změna přístupu Nvidie, která je nyní značně pragmatická a do jisté míry reflektuje, co ve svém výroku shrnul CEO Jen-Hsun Huang: I kdyby ostatní výrobci rozdávali AI akcelerátory zdarma, pro Nvidii nebudou konkurencí.
4nm proces
V první řadě může překvapit volba výrobního procesu. Zatímco v PC segmentu Nvidia volila spíše zaběhlé procesy TSMC, aby mohla výrobní kapacity těch nejnovějších věnovat akcelerátorům, kde má nejvyšší marže, tentokrát ke všeobecnému překvapení nedošlo na 3nm proces, ale na 4nm. Nvidia se tedy rozhodla nic neriskovat a zvolit proces, na kterém může TSMC dodávat ve velkých objemech a za nižší cenu. Nevýhodou bude vyšší spotřeba, ale Blackwell v době vydání nebude mít výkonnostní konkurenci, takže kdo bude chtít to nejvýkonnější, si zkrátka se spotřebou bude muset poradit.
Podrobněji k procesu: 4NP, velká neznámá
Zajímavá není jen volba samotné generace procesu, ale i jeho konkrétní varianta. Ta je označována jako 4NP (neplést s N4P) a má jít o verzi na míru vyvinutou pro Nvidii. Což byla i 4N (neplést s N4) využitá pro minulou generaci, Hopper). Různé weby se snaží proces 4NP nějak obecně okomentovat (např. že má být výkonnější ap.), ale Nvidia žádné informace oficiální cestou nezveřejnila. Neoficiálně ale o 4NP prosakují obdobné zprávy, jaké k příležitosti prvních zmínek o 4N uvedl leaker kopite7kimi. 4N a 4NP nejsou deriváty standardních procesů N4 a N4P, ale vývojově má jít o větev vzešlou přímo z 5nm procesu (N5 a N5P), která je silně optimalizována pro denzitu i na úkor dosažitelných frekvencí. Což dává podstatně větší smysl: Nvidia potřebovala na dostupnou plochu křemíku dostat možné maximum tranzistorů.
Plocha a čiplety / moduly
Pouzdro nese dva symetrické funkční kusy křemíku, kdy každý dosahuje maximální plochy, jakou dokáže TSMC vyrobit (reticle limit). Přesnější čísla Nvidia nesdělila, ale s jistotou se pohybujeme nad 800 mm² (pro každý kus křemíku) a pravděpodobně ne výš než kolem 850mm². S ohledem na symetrické rozdělení by asi bylo vhodnější označovat tyto kusy křemíku jako moduly než čiplety, ale použít lze pravděpodobně oba termíny.
Zachování maximálního limitu ukazuje na proslýchanou neochotu Nvidie dělit křemík na čiplety ve smyslu vyššího počtu menších kusů křemíku, který by zvýšil výtěžnost výroby a umožnil skládat čip z plně aktivních kousků křemíku. Nvidia zjevně razí jinou filozofii: Nemusí (tolik) řešit propojení a případné další problémy, na které by narazila při rozdělení na menší kousky křemíku, přičemž při současné poptávce a výši snadno (a výhodně) udá i kusy, které nejsou plně funkční.
Sběrnice, paměti HBM3e
Každý kus křemíku je vybaven 4096bit sběrnicí pro čtyři moduly HBM3e, takže celý čip disponuje 8192bit sběrnicí a osmi moduly HBM3e. Pro výkonnější variantu B200 (která by krom 192GB varianty měla později nabídnout i 288GB konfiguraci) uvádí Nvidia datovou propustnost 8 TB/s (tedy méně než 10 TB/s odpovídajícím specifikaci HBM3e při této šíři sběrnice), takže buďto paměti poběží na nižším taktu, nebo nebude sběrnice fyzicky využita v plné šíři.
Nvidia A100 | Nvidia H100 | Nvidia B100 | Nvidia B200 | |||
---|---|---|---|---|---|---|
GPU | GA100 | GH100 | GB100(?) | |||
architektura | Ampere | Hopper | Blackwell | |||
formát | SXM4 | SXM5 | PCIe | SXM | ||
CU/SM | 108 | 132 | 114 | ? | ? | |
FP32 jader | 6912 | 15872 16896 | 14592 | ? | ? | |
FP64 jader | 3456 | 8448 | 7296 | ? | ? | |
INT32 jader | 6912 | 8448 | 7296 | ? | ? | |
Tensor Cores | 432 | 528 | 456 | ? | ? | |
takt | 1410 MHz | 1980 MHz | 1750 MHz | ? | ? | |
↓↓↓ T(FL)OPS ↓↓↓ | ||||||
FP16 | 78 | 120 134 | 102 | ? | ? | |
BF16 | 39 | 120 134 | 102 | ? | ? | |
FP32 | 19,5 | 60 67 | 51 | ? | ? | |
FP64 | 9,7 | 30 34 | 26 | ? | ? | |
INT4 | ? | ? | ? | ? | ? | |
INT8 | ? | ? | ? | ? | ? | |
INT16 | ? | ? | ? | ? | ? | |
INT32 | 19,5 | 30 34 | 26 | ? | ? | |
FP4 tensor | ![]() | ![]() | ![]() | 7/14 P | 9/18 P | |
FP6 tensor | ![]() | ![]() | ![]() | 3,5/7 P | 4,5/9 P | |
FP8 tensor | ![]() | 1979/3958* | 1513/3026* | 3,5/7 P | 4,5/9 P | |
FP16 tensor | 312/624* | 989/1979* | 757/1513* | 1,8/3,5 P | 2,3/4,5 P | |
BF16 tensor | 312/624* | 989/1979* | 757/1513* | ? | ? | |
FP32 tensor | 19,5 | 60? 67? | 51? | ? | ? | |
TF32 tensor | 156/312* | 495/989* | 378/757* | 0,9/1,8 P | 1,1/2,3 P | |
FP64 tensor | 19,5 | 67 | 51 | 30 | 40 | |
INT8 tensor | 624/1248* | 1979/3958* | 1513/3026* | 3,5/7 P | 4,5/9 P | |
INT4 tensor | 1248/2496* | ? | ? | ? | ? | |
↑↑↑ T(FL)OPS ↑↑↑ | ||||||
TMU | 432 | 528 | 456 | ? | ? | |
LLC | 40 MB | 50 MB | ? | ? | ||
sběrnice | 5120bit | 5120bit | ? | 8192bit | ||
paměť | 40 GB | 80 GB | 80 GB | 192 GB | 192 GB (288 GB) | |
HBM | 2,43 GHz | 3,2 GHz | HBM3 5,23 GHz | HBM2E 3,2 GHz | HBM3E | HBM3E |
pam. prop. | 1555 GB/s | 2048 GB/s | 3350 GB/s | 2048 GB/s | ? | 8 TB/s |
TDP | 400 W | 700-800 W | 350 W | 700W | 1000W | |
transistorů | 54,2 mld. | 80 mld. | 208 mld. | |||
plocha GPU | 826 mm² | 814 mm² | 2× >800 mm² | |||
proces | 7 nm | 4nm (4N) | 4nm (4NP) | |||
datum | 5. 2020 | 11. 2020 | 2022 | 2024 | ? |
*vyšší hodnoty platí pro tzv. sparse výpočty
P = P(FL)OPS
Výkon: o 75 % vyšší i krok zpět
Nvidia zatím zveřejnila jen fragmenty specifikací, takže nemůžeme mezigeneračně porovnávat všechny hodnoty. K dispozici jsou pouze údaje pro tenzorové výpočty a pouze pro přesnosti FP4/6/8/16, TF32 a FP64. Ostatní zatím nejsou známé. Většina hodnot mezigeneračně (B100 vůči H100) narostla asi o 3/4, ale v případě FP64 výpočtů výkon mezigeneračně podstatně klesl z 67 na 30 TFLOPS, tj. na zhruba 45 %. Jde patrně opět o důsledek pragmatického rozhodnutí: Tak vysokou přesnost využívá menší část potenciálních zákazníků, takže musela ustoupit, aby tranzistory zde ušetřené mohly být věnovány důležitějším účelům.
TDP od 700 do 2700 wattů
Informace zveřejněné Gigabytem již připravily značnou část obecenstva na skutečnost, že B200 přijde s 1000W TDP. Základní B100 si ponechala 700W TDP. Tím však nabídka nekončí. V přípravě je totiž i řešení nazvané Nvidia GB200, které nese 2× B200 (tzn. čtyři kusy křemíku) plus CPU Grace. Toto řešení má TDP nastavené na až 2700 wattů. Není to ještě tak dávno, co výpočetní moduly od Nvidie (generace Volta) měly 250W TDP. S Nvidia GB200 se posouváme o celý řád výše.
Nvidia zatím nezmínila žádné konkrétní datum vydání. Očekává se, že minimálně Nvidia B100 se na trhu objeví letos. Alespoň podle starších zpráv se Nvidia B200 s 288GB paměti chystá na rok 2025, ale Jen-Hsun Huang prezentoval pouze 192GB konfiguraci, takže lze připustit (respektive nelze vyvrátit ani potvrdit), že se i B200 objeví ještě letos.