Diit.cz - Novinky a informace o hardware, software a internetu

Nvidia Hopper: Nejvýkonnější AI akcelerátor na světě, až 6× rychlejší než Ampere

Zdroj: Nvidia

Říká se, že CEO Nvidie Jen-Hsun Huang je tak trochu megaloman. Na to může mít každý vlastní názor, faktem však zůstává, že Nvidia za včerejší den vydala 34 tiskových zpráv…

Nvidia si skutečně dala záležet, aby na GTC ohromila. Výpočetní GPU Hopper GH100 je nakonec (dokonce) 4nm (TSMC), skládá se z 80 miliard tranzistorů, používá HBM3, ve většině případů dosahuje 3× vyššího výkonu než Ampere GA100, ovšem v některých specifických situacích může jít až o 2-3násobek této hodnoty.

Komu by bylo 80 miliard tranzistorů málo, může se obdivovat switchi Spectrum-4, který jako první podporuje 400G, rovněž využije 4nm proces a stojí rovnou na 100 miliardách tranzistorů. Vzorky začne Nvidia partnerům dodávat na konci čtvrtého kvartálu letošního roku.

Superlativy padaly i ve vztahu k CPU Nvidia Grace chystaném na první pololetí 2023. Bude vybaveno 900 GB/s rozhraním k propojení například s druhým CPU Grace. V takovém případě vzniká tzv. Grace Superchip s celkem 144 procesorovými jádry, LPDDR5X sběrnicí o celkové propustnosti až 1 TB/s, 396MB cache a celkovým TDP 500 wattů. Nvidia očekává, že v době vydání bude dosahovat 2× vyšší energetické efektivity než ostatní procesory. Namísto druhého CPU lze připojit GPU Hopper. Případně ke dvojici CPU Grace až osm GPU Hopper.

Grace Hopper, modul spojující CPU Grace a GPU Hopper chystaný na rok 2023

K tomu Jen-Hsun Huang ohlásil řadu projektů týkajících se AI, samořídících (autonomních) automobilů, omniverse, sítí (zde stojí za zmínku otevření NVLINK) a jiných. Podrobnosti najdete ve zmíněných 34 tiskových zprávách.

Hopper GH100

Nyní se vraťme k Hopper. Jak se poslední týdny proslýchalo, není jádro GH100 složeno z čipletů. Jde o monolit nesoucí 80 miliard tranzistorů, což je mezigeneračně téměř 50% navýšení. Plocha je nakonec o chlup nižší než u Ampere GA100 (814 mm²), což je důsledkem nečekaného použití 4nm výroby (při 5nm by se plocha blížila 900 mm², takže je možné, že Nvidia zvolila pokročilejší proces v průběhu vývoje. 4nm proces TSMC je totiž vylepšená verze 5nm výroby.

Nvidia neupřesnila verzi - TSMC zatím ohlásila tři. První, nazvaná N4, se oproti 5nm procesu liší jen o 6 % vyšší denzitou a o 4-5 % vyšší takty. U té by k zahájení sériové výroby mělo dojít zhruba v současné době. Druhá, nazvaná N4P, ke zmíněné denzitě nabízí navíc o 11 % vyšší takty nebo o 22 % nižší spotřebu. Tento proces by byl podstatně přínosnější, ovšem výroba vzorků nezačne dříve než ve druhém pololetí (sériová výroba asi až příští rok). Na papíře existuje i výkonnější N4X proces chystaný kompletně na příští rok s až o 15 % vyššími takty (oproti 5nm výrobě). O výběru konkrétního procesu by mohlo napovědět datum dostupnosti Hopper GH100 / Nvidia H100, ale žádné datum CEO společnosti nezmínil. Podle neoficiálních leaků však nepůjde o první pololetí letošního roku a navzdory tomuto březnovému představení by produkty neměly být široce dostupné výrazně dříve než u konkurenční CDNA 3 od AMD. To však ještě uvidíme.

Nvidia Hopper prezentuje jako první GPU vybavené PCIe 5.0 a první GPU vyba bavené HBM 3. To je samozřejmě pravda za předpokladu, že za klíčové datum budeme považovat datum ohlášení, nikoli reálnou dostupnost. V té po stránce PCIe 5.0 nejspíš Nvidii předběhne Intel. A následně desktopová GPU samotné Nvidie a poté i AMD.

V době vydání Ampere GA100 prezentovala Nvidia toto výpočetní GPU jako univerzální řešení - jak pro akceleraci AI, tak pro HPC v klasickém slova smyslu. Za tu druhou polovinu tvrzení si odnesla oprávněnou kritiku, neboť výkonnostní posuny v ne-tenzorových operacích byly nízké a Nvidia se v tomto směru nechala záhy předběhnout řadou CDNA od AMD. S Hopper si zřejmě vzala ponaučení. Nikoli co do posunu výkonu v klasických operacích, ale v prezentaci Hopper jakožto nejvýkonnějšího AI akcelerátoru.

SM blok architektury Hopper

Aby posun výkonu nekopíroval pouze navýšení počtu funkčních jednotek a taktovacích frekvencí (ty zatím nebyly stanoveny, což by korespondovalo s očekáváním, že reálné vydání za dveřmi zdaleka není), došlo k vylepšení Tensor Cores, kterým nyní Nvidia říká Transformer Engine. Mohou využívat pro různé účely různé přesnosti, např. kombinovat výpočty v přesnosti FP16 s akumulací v přesnosti FP32 a podobně. Dále přibyla podpora přesnosti FP8, takže operace, pro které dostačuje, mohou probíhat 6,4× rychleji než původně přes FP16. Naproti tomu HPC výkon v FP16 stoupl pouze o polovinu.

 AMD
MI250X
AMD
MI300
Nvidia
Tesla V100
Nvidia A100Nvidia
H100
GPUAldebaranRigelGV100GA100GH100
architekturaCDNA 2CDNA 3VoltaAmpereHopper
formátOAMOAMSXM2SXM4SXM5
CU/SM220?80108132
FP32 jader14080?5120691215872
16896
FP64 jader--256034568448
INT32 jader--512069128448
Tensor Cores880?640432528
takt1700 MHz?1530 MHz1410 MHz?
 ↓↓↓ T(FL)OPS ↓↓↓
FP16
383?31,478120
BF16
383?39120
FP32
95,7
47,8
?15,719,560
FP64
47,8?7,89,730
INT4
383????
INT8383????
INT16?????
INT32??15,719,530
FP8 tensor?2000/4000*
FP16 tensor383?125312/624*
1000/2000*
BF16 tensor383?312/624*
1000/2000*
FP32 tensor95,7?19,560?
TF32 tensor
?156/312*
500/1000*
FP64 tensor
95,7?19,560
INT8 tensor
383?624/1248*
2000/4000*
INT4 tensor
??1248/2496*
?
 ↑↑↑ T(FL)OPS ↑↑↑
TMU-??320432528
LLC16 MB?6 MB40 MB50 MB
sběrnice8192bit?4096bit5120bit5120bit
paměť128 GB128 GB32 GB / 16 GB40 GB80 GB80 GB
HBM3,2 GHz?1,755 GHz2,43 GHz3,2 GHz4,8 GHz
pam. prop.3277 GB/s?900 GB/s1555 GB/s2048 GB/s3072 GB/s
TDP500 W
560 W
?300 W400 W700 W
transistorů58,2 mld.
?21,1 mld.54,2 mld.80 mld.
plocha GPU2× ?4× ?815 mm²826 mm²814 mm²
proces6 nm5nm12 nm7 nm4nm
datum11. 20212022?20175. 202011. 20202022?

S tenzorovými operacemi Nvidia utíká řadě AMD Instinct MI200, s HPC výkonem zůstává trochu ve skluzu. Je však potřeba dodat, že v praxi je vysoký HPC výkon řady MI200 v některých případech limitován paměťovou propustností, takže praktický rozdíl může být nižší než teoretický a Hopper může v některých situacích pomáhat velká cache. Datová propustnost Hopper je paradoxně o chlup nižší než u Instinctu a to HBM3 navzdory. Paměťová sběrnice totiž rozšířena nebyla a zůstává fyzicky 6144bit, z čehož je aktivní 5120bit část (pět kanálů ze šesti).

Krom Nvidia A100 v provedení 700W SXM5 modulu (jak popisuje tabulka), připravila Nvidia ještě verzi pro PCIe 5.0. Liší se nižším počtem aktivních jednotek (14592 namísto 15872 16896), nižšími takty, pamětmi HBM2e namísto HBM3 a TDP sníženým na 350 wattů.

Aktualizace 23. 3. 2022: Při odhalení 22. 3. 2022 uváděly specifikace pro Nvidia H100 SXM5 15872 stream-procesorů, následně Nvidia hodnotu změnila na 16896. Obě verze dokumentů jsou navzdory rozdílům označené jako „version 1.0“:

Videostream:

Diskuse ke článku Nvidia Hopper: Nejvýkonnější AI akcelerátor na světě, až 6× rychlejší než Ampere

Sobota, 26 Březen 2022 - 07:17 | Spirit_pcf | Alebo tu vytaznost odrazia v cene. :)
Sobota, 26 Březen 2022 - 07:16 | Spirit_pcf | Tak a ted utrit semeno a spat!
Sobota, 26 Březen 2022 - 06:21 | Spirit_pcf | Jo, este aby ne, ked si ten HW preplatis tak 2x...
Čtvrtek, 24 Březen 2022 - 14:36 | Ladis | Mám ve svém okolí spoustu lidí, co si nechali...
Čtvrtek, 24 Březen 2022 - 09:54 | IT Joker | Apple prostě dělá produkty pro ten druh uživatelů...
Čtvrtek, 24 Březen 2022 - 06:23 | Ladis | U PC tohohle form factoru taky moc nevyměníš....
Čtvrtek, 24 Březen 2022 - 05:24 | Peca | Měl jsem na mysli Apple Studio. U PC si například...
Čtvrtek, 24 Březen 2022 - 00:36 | Ladis | Jo a jak si rozšíříš a opravíš ten AI akcelerátor...
Středa, 23 Březen 2022 - 23:26 | peliculiar | Hmm, dobrý ... A pak budou ještě další nejméně 2...
Středa, 23 Březen 2022 - 14:33 | kolemjdouci | ...vylučovací metodou to základní verze N4 asi...

Zobrazit diskusi