Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Nvidia ukázala svůj Eos, 9. nejrychlejší superpočítač na světě

Zatímco nV marketing a nV positivie fans píšou:
".. Superpočítač Nvidia EOS pro umělou inteligenci nabídne 18,4 ExaFLOPS .."

S nějakou tou zanedbatelnou poznámkou drobným písmem někde pod čarou
".. pro úlohy AI, tedy v FP8 .."

Mezi 18,4 a 0,121 ExaFlops jou jisté nenápadné rozdíly.

+1
+11
-1
Je komentář přínosný?
+1
0
-1
Je komentář přínosný?

"Nvidia ukázala svůj Eos, 9...."
A spotřebu prozradili?

+1
+3
-1
Je komentář přínosný?

Urcite bude znama, jsou to MW jako vsechny tyhle stroje.

+1
+1
-1
Je komentář přínosný?

A proč není v tabulce uvedena?
Když je známá.

Jestli to jsou 2 (slovy dva) MW, tak to je úspěch.
Jestli to je ale 8 MW, tak to je zklamání.

+1
+4
-1
Je komentář přínosný?

H100 ve variante SXM (coz je platny pro DGX H100) ma 700W, kazdy Xeon ma 350W.

(8*700 + 2*350) * 576 = 6300 * 576 = 3.6288 MW jen pro "core silicon", bez infrastruktury. Takze rekneme ze to ma spotrebu 5-6 MW

jiny udaj: DGX H100 chassi ma 10.2 kW * 576 = 5.8752 MW

+1
+1
-1
Je komentář přínosný?

No ta hodnota v tý tabulce chybí :D Asi se s ní nechtěj chlubit.

+1
+2
-1
Je komentář přínosný?

Ja si kopnem do ineho superpocitacu, respektive platformy. Zaujimva je 4 priecka - Arm od Fujistsu. Hmm asi to je ciste nahoda ze v top je jediny superpocitac postaveny na Arme.Tak isto to bude cista zlomyselnost ze ma druhy najvyssi pocet jadier po najvykonnejsom Frontierovy ale vykon ledva polovicny. Tak urcite domena Armu, spotreba , bude uzasna. Ano je, zere to najviac, skoro o tretinu viac ako najvykonnejsi Frontier. Hmmm, Arm na vykonne stroje je dobra volba....

+1
0
-1
Je komentář přínosný?

Tam je výkon získaný z dvojice 512 bit vektorových jednotek na jádro a řekněme optimalizovaného programování pro co největší požití instrukci FMAC. A taky toho, že samotné CPU mají poměrně dost malé kapacity cache, ale místo toho je zde rychlý přístup do integrované HBM2. Čili je to celé stavěné poněkud jinak, než je u výkonných CPU zvykem. Technicky to ani není vývoj ARM jádra, ale pokračování superpočítaové linie SPARC, pouze na jiné instrukční sadě, aby to bylo prodejné i mimo Japonsko.

+1
+2
-1
Je komentář přínosný?

Ten procesor je dělený na 4 stejné části, každá má 13 jader (12 je pro aplikaci), celkem 8 MB L2 (L3 ten procesor vůbec nemá) a 8 GB HBM. Takže dohromady 32 BM L2 a 32 GB HBM. Toť vše. Maximálně optimalizováno na nízké latence a vysokou propustnost. V době vydání byla propustnost RAM 1 TB / s na CPU patici fakt hodně. A díky tomu čistému návrhu si 2 GHz varianta vystačí se 150 W. Asi ten procesor mohli udělat na vyšší takt, ale nechtěli. (Např. Fujitsu SPARC64 XII - 4,25 GHz - 12 jader / každé 4 vlákna, ale jen 8 kanálů DDR 4 - 153 GB/s)

+1
+1
-1
Je komentář přínosný?

To chce pro začátek pochopit rozdíl mezi CPU a GPU.
https://aibusiness.com/verticals/japan-s-fugaku-tops-1-45-exaflops-in-ai...

+1
0
-1
Je komentář přínosný?

Navíc, když vyšel, tak byl nejvýkonnější. Každý časem z přední příčky spadne.

+1
+3
-1
Je komentář přínosný?

Nejen, měl i nejlepší poměr výkonu a spotřeby.

+1
+4
-1
Je komentář přínosný?

2 lídři trhu společně postavili 9. nejrychlejší počítač světa. To zní jako úspěch.

+1
+10
-1
Je komentář přínosný?

Taky tomu moc nerozumím. Přímo v článku je tabulka, kde intel a intel a NV mají 2 a 3. místo. Nějak mi tento nový PC nepřijde moc zajímavý.

+1
+1
-1
Je komentář přínosný?

Rank System Cores Rmax (PFlop/s) Rpeak (PFlop/s) Power (kW)

1 - Frontier - HPE Cray EX235a, AMD Optimized 3rd Generation EPYC 64C 2GHz, AMD Instinct MI250X, Slingshot-11, HPE
DOE/SC/Oak Ridge National Laboratory
United States - 8,699,904 / 1,194.00 / 1,679.82 / 22,703

2 - Aurora - HPE Cray EX - Intel Exascale Compute Blade, Xeon CPU Max 9470 52C 2.4GHz, Intel Data Center GPU Max, Slingshot-11, Intel
DOE/SC/Argonne National Laboratory
United States - 4,742,808 / 585.34 / 1,059.33 / 24,687

3 - Eagle - Microsoft NDv5, Xeon Platinum 8480C 48C 2GHz, NVIDIA H100, NVIDIA Infiniband NDR, Microsoft
Microsoft Azure
United States - 1,123,200 / 561.20 / 846.84 / ??

4 - Supercomputer Fugaku - Supercomputer Fugaku, A64FX 48C 2.2GHz, Tofu interconnect D, Fujitsu
RIKEN Center for Computational Science
Japan - 7,630,848 / 442.01 / 537.21 / 29,899

5 - LUMI - HPE Cray EX235a, AMD Optimized 3rd Generation EPYC 64C 2GHz, AMD Instinct MI250X, Slingshot-11, HPE
EuroHPC/CSC
Finland - 2,752,704 / 379.70 / 531.51 / 7,107

6 - Leonardo - BullSequana XH2000, Xeon Platinum 8358 32C 2.6GHz, NVIDIA A100 SXM4 64 GB, Quad-rail NVIDIA HDR100 Infiniband, EVIDEN
EuroHPC/CINECA
Italy - 1,824,768 / 238.70 / 304.47 / 7,404

7 - Summit - IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband, IBM
DOE/SC/Oak Ridge National Laboratory
United States - 2,414,592 / 148.60 / 200.79 / 10,096

8 - MareNostrum 5 ACC - BullSequana XH3000, Xeon Platinum 8460Y+ 40C 2.3GHz, NVIDIA H100 64GB, Infiniband NDR200, EVIDEN
EuroHPC/BSC
Spain - 680,960 / 138.20 / 265.57 / 2,560

9 - Eos NVIDIA DGX SuperPOD - NVIDIA DGX H100, Xeon Platinum 8480C 56C 3.8GHz, NVIDIA H100, Infiniband NDR400, Nvidia
NVIDIA Corporation
United States - 485,888 / 121.40 / 188.65 / ??

10 Sierra - IBM Power System AC922, IBM POWER9 22C 3.1GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband, IBM / NVIDIA / Mellanox
DOE/NNSA/LLNL
United States - 1,572,480 / 94.64 / 125.71 / 7,438

Zajímavé, že u některých systémů s Xeon a NV není uvedena spotřeba.

+1
0
-1
Je komentář přínosný?

Za tím bych nehledal hned nějakou konspiraci, třeba ty velká čísla zatím nestihli sečíst.

+1
+2
-1
Je komentář přínosný?

Aurora je čistě Intel, tam si nVidia ani neškrtla, za to Intel s ní měl problémů až, až a de-facto je důvodem pro vývoj grafik Arc.

+1
+2
-1
Je komentář přínosný?

Tady jsem počítal jen poměr mezi teoretickým maximem a naměřeným výkonem.
1,40688442211055 Frontier - HPE Cray EX235a, AMD Optimized 3rd Generation EPYC 64C 2GHz, AMD Instinct MI250X, Slingshot-11, HPE DOE/SC/Oak Ridge National Laboratory United States

1,8097686814501 Aurora - HPE Cray EX - Intel Exascale Compute Blade, Xeon CPU Max 9470 52C 2.4GHz, Intel Data Center GPU Max, Slingshot-11, Intel DOE/SC/Argonne National Laboratory United States

1,50898075552388 Eagle - Microsoft NDv5, Xeon Platinum 8480C 48C 2GHz, NVIDIA H100, NVIDIA Infiniband NDR, Microsoft Microsoft Azure United States

1,21537974253976 Supercomputer Fugaku - Supercomputer Fugaku, A64FX 48C 2.2GHz, Tofu interconnect D, Fujitsu RIKEN Center for Computational Science Japan

1,39981564392942 LUMI - HPE Cray EX235a, AMD Optimized 3rd Generation EPYC 64C 2GHz, AMD Instinct MI250X, Slingshot-11, HPE EuroHPC/CSC Finland

1,2757017176372 Leonardo - BullSequana XH2000, Xeon Platinum 8358 32C 2.6GHz, NVIDIA A100 SXM4 64 GB, Quad-rail NVIDIA HDR100 Infiniband, EVIDEN EuroHPC/CINECA Italy

1,35121130551817 Summit - IBM Power System AC922, IBM POWER9 22C 3.07GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband, IBM DOE/SC/Oak Ridge National Laboratory United States

1,92163531114327 MareNostrum 5 ACC - BullSequana XH3000, Xeon Platinum 8460Y+ 40C 2.3GHz, NVIDIA H100 64GB, Infiniband NDR200, EVIDEN EuroHPC/BSC Spain

1,55395387149918 Eos NVIDIA DGX SuperPOD - NVIDIA DGX H100, Xeon Platinum 8480C 56C 3.8GHz, NVIDIA H100, Infiniband NDR400, Nvidia NVIDIA Corporation United States

1,3282967032967 Sierra - IBM Power System AC922, IBM POWER9 22C 3.1GHz, NVIDIA Volta GV100, Dual-rail Mellanox EDR Infiniband, IBM / NVIDIA / Mellanox DOE/NNSA/LLNL United States

Někde se jim optimalizace fakt nepovedly. Ale krásně to ukazuje, proč Japonci chtěli zůstat jen u CPU.

+1
+3
-1
Je komentář přínosný?

Je vidět, že praktické vypočty nejsou tvoje doména. Uvádět poměr dvou nepřesných čísel na 13 desetinných míst je hrubý prohřešek.
Jinak samozřejmě tento poměr moc o optimalizacích nevypovídá, protože záleží na tom, na co je daný počítač zaměřený.
To Rmax je výsledek jednoho benchmarku, kde se řeší náhodný set soustav lineárních rovnic. Je dost možné, že právě to sedí výpočtu na cpu.

+1
0
-1
Je komentář přínosný?

Hmm, ok nezaokrouhlil jsem. Tak se na nižší desetinná čísla prostě nedívej. Ale výkony jsou uvedeny všude na 2 desetinná místa. Spotřeba na celé kilowatty. Sranda, kde to nevychází, jsou počty CPU jader, nesedí zde počty patic.

+1
0
-1
Je komentář přínosný?

Přehledně v tabulce to je nejlepší. Je tam vidět nejmenší rozdíl mezi teoretickým a naměřeným maximem výkonu právě u Fukagu. Naopak některé systémy Nvidia jsou na hodnotě 1,9...

+1
+3
-1
Je komentář přínosný?

A když se k tomu připočtou rekordně nízké náklady na vývoj+výrobu (1 miliarda USD), tak je to ještě větší nádhera. Na takovou efektivitu by se s předraženou nvidií nikdy nedostali a s AMD/Intel také ne.

+1
0
-1
Je komentář přínosný?

AMD patrně ano, protože to přeci jen prodá víc kusů než Fujitsu. A to se na ceně promítne. Kromě toho AMD nemusí platit vývoj celého systému dělá jen CPU a akcelerátory. A celé systémy zas třeba HPE Cray nebo Bull Sequana. Jediný kdo zas dělá jak CPU taky systémy je IBM, ale už ne akcelerátory.

Výhoda Fujitsu, je ale ještě jiná. Je to výpočetní a logický / rozhodovací výkon současně. To akcelerátory ale ani většina CPU neumí tak zkombinovat. Právě proto AMD chystá i MI300A sice s nižším výkonem, ale 24. jádry CPU.

Ale těch rozdílů je ještě víc. U IBM, AMD i Intelu jsou potřeba síťovky. A64FX s Tofu Interconnect by je neměl potřebovat, takže jde o latence. Jestli to chápu správně IBM Power 10 má umět něco podobné - propojování přímo na úrovni CPU - CPU / RAM / RAM, bez ohledu na vzdálenost.

+1
+2
-1
Je komentář přínosný?

MI300A konečně pořádné APU.

+1
+3
-1
Je komentář přínosný?

Tak honem, je nutné aby se objevilo i v nějakém notebooku. :-)

+1
+1
-1
Je komentář přínosný?

Jako příslušenství budou sluchátka s aktivním potlačováním okolního hluku.

+1
+3
-1
Je komentář přínosný?

V dávných dobách měl Disney počítač na kreslení okének animace, který jako podklad ukazoval předchozí snímek, a ten byl jednoduše na druhé straně zdi ve vedlejší místnosti, abys ho neslyšel ;-) Nebo před pár lety jsem hrál s bráchou náročnou hru, kterou hlučný rack server, co přinesl z práce, zvládal na dvojnásobném výkonu než můj (nyní retro) desktop, tak jsme ho dali na půdu a hru jsem streamoval po LAN.

+1
-1
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.