Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Nvidia nachystala 80GB verzi výpočetní A100 PCIe

Přelepit čipra za většího když ho Samsung dodá, to není problém ne?

+1
-1
-1
Je komentář přínosný?

jasneze neni.. ale podle tech minusu si tu nejspis par nVfans mysli ze na tom dva roky makalo 800 lidi s Jensenem v cele..

+1
+1
-1
Je komentář přínosný?

Hlavně bude zajímavé kdy se podaří sesadit z trůnu Japonský super-počítač na bázi ARM procesorů Fujitsu A64FX (bez GPU) co dává naprdel všem GPU based x86 strojům.

Že by to bylo tím, že A64FX umí 2048-bit SVE vektory? :)
Že by to bylo tím, že latence do GPU přes PCIe je ukrutných 1500 ns?

Sranda je, že už tady máme nástupce SVE, nové SVE2. To bude ještě velká legrace...

+1
-9
-1
Je komentář přínosný?

No čo ti ja viem, ten tvoj ARM zázrak má 3x viac jadier, 3x väčší výkon a 3x väčšiu spotrebu ako druhý top. Čiže neviem či nejak 3xceluje tou bajniu efektivitou, len si proste zaplatili za 3x väčší počítač ako ostatní. Kľudne si môžeš spraviť domácu úlohu a porovnať to s top x86 že aký rozdiel v efektivite tam bude.

+1
+4
-1
Je komentář přínosný?

Ano, přesně. Takže efektivita CPU-only vychází stejně jako GPU .... to je právě na tom to zajímavé! Přitom teoreticky je GPU výkon v paralelních úlohách naprosto bezkonkureční. Tedy proti x86.

Docela dobře to ukazuje že pořádný procák s moderní instrukční sadou (ARM ) a pořádnýma vektorama (2048-bit SVE) se dokáže vyrovnat GPU. A teď si vem, že nemusíš řešit zvlášť C++ pro CPU a zvlášť kód pro CUDA, synchronizace, dvě různé RAM (RAM a VRAM, duplikace dat) atd. Prostě jeden program v C++ a jede to stejně rychle. To je bomba.

Kacířská otázka zní: Proč to neumí nikdo s x86?

+1
-6
-1
Je komentář přínosný?

no co ti ja viem :) neviem z copho vychadzas, ale mozes sa pozriet na efektivitu jednotlivych super pocitacov na https://www.top500.org/lists/green500/list/2021/06/
tam mas same x86+GPU CPU superpocitace, najvyssie umiestneny ARM je na 16 mieste, celkom slabota co sa tyka efektivity vykon/spotreba. v cislach to je najlepsie umiestneny x86+GPU je 2x efektivnejsi ako najlepsi ARM. A je uplne jedno ci to je CPU only alebo CPU+GPU, ide o vysledok aky to doda. Cize staci len postavit vacsi x86 superpocitac a strci hociaky ARM do vrecka :)

+1
+1
-1
Je komentář přínosný?

Ty ale používáš špatnou premisu, že lepší efektivita GPU+x86 je díky efektivitě x86. Efektivní x86 je hrubý protimluv :) Superkompy na x86 těží z toho, že na jeden x86 CPU mají 8x GPU Volta, tudíž 90% efektivity vychází z GPU.

A teď si vem, že druhá generace toho CPU od Fujitsu nebude mít fyzicky 2x512-bit FPU, ale oroštují to na 2x 2048-bit, což už hrubým výkonem začne konkurovat GPU. Přitom to pořád je moderní Out of order CPU s IPC jako Skylake (A64FX má 4xALU jednotky) a běhá na tom C++.

+1
-1
-1
Je komentář přínosný?

C++ na tom opravdu neběhá.

+1
0
-1
Je komentář přínosný?

C++ zvládá i 8-bit ATMEL, takže bych se divil kdyby moderní 64-bit ARMv8 procák neuměl C++ :D

Pointa byla ta, že na tom spustíš regulérní SW a nepotřebuješ CUDA a jiné GPGPU hovadiny.

+1
0
-1
Je komentář přínosný?

SW tam "pustis" ale nepobezi nijak akcelerovane - co se nepovedlo v dobe IA64 (itanium) se nedari ani ted v dobe sse/avx/sve - a to je automagicka idealni paralelizace.

Vzdy bude existovat urcita knihovna matematickych operaci napsana nativne na danou architekturu, at uz je to CUDA nebo SVE, a pak ji uzivatele budou volat.

A div se, nebyva to dnes uz C++, ale nejaky python, kde se z danych akcelerovanych primitivu sestavi slozitejsi vypocetni bastl.

+1
0
-1
Je komentář přínosný?

Ano, ale SVE jsou nativní instrukce CPU které mají latency v jednotkách ns.
CUDA a GPGPU obecně musí projít přes PCIe s latencí 1500 ns, zkopírovat data do VRAM, provést výpočet a potom opět kopírovat výsledky zpět do RAM s latencí 1500 ns. Proto se GPU nehodí na vše.

ARMu a Fujitsu se evidentně s 2048-bit SVE povedlo to co nikomu jinému. Autovektorizace, size-less typ pro zpracování nekonečně velkých vektorů daleko nad 2048-bit atd.

Vedle ARM+SVE opravdu vypadá x86 jako stará vykopávka i s těma AVX512.... které ani AMD nemá.

+1
-3
-1
Je komentář přínosný?

Dvě věci, co mě na tom postu zaujaly, jsou
- jestli se sjednotíš alespoň v psaní i/y při skloňování slova latence.
- jestli si uvědomuješ, že 1,5ms je běžná latence na nezatíženém Ethernetu (aplikační - ICMP protokol 2048B packet) ? Nevím jaká je latence na PCIe sběrnici, ale v zařazení do reálných čísel mi to nesedí. Pokud chceš měřit roundtrip s nějakým konkrétním objemem dat, tak bys ten objem měl uvést.

+1
0
-1
Je komentář přínosný?

Nezapoměls náhodou na mikrosekundy? :D

1,5 ms = 1500 um = 1 500 000 ns

+1
-2
-1
Je komentář přínosný?

Nemusels mi dávat mínus.

Takovej horolezec když si vezme lano s nosností 3 tuny nebo 3 kg.... by poděloval za odhalení takové chyby :D

+1
-1
-1
Je komentář přínosný?

Jak je Fugaku efektivní u úloh vyžadující výrazně větší než 32GB dataset/node?

+1
0
-1
Je komentář přínosný?

Takové úlohy pro super-počítače neexistují, takže těžko říct. Asi by to dost swapovalo :D

2 TB RAM potřebují servery pro virtuálky, kde na jednom CPU běží 128 klientských OS a každý má v průměru cca 16 GB. Nevím jestli jsi dělal někdy FEM nebo CFD výpočty, ale moc RAM to nepotřebuje zato je to obrovsky výpočetně náročné.

+1
-1
-1
Je komentář přínosný?

Moc dlouho už mu to první místo nevydrží, pokud se nic nestane, Frontier by měl najet do konce letošního roku a Aurora začátkem příštího, oba jsou exascale supercomputers (tj mají výkon vyšší než 1exaflops)

+1
0
-1
Je komentář přínosný?

Tak jasně že jej sesadí.

Ale kdo by řekl, že CPU-only stroj může někdy nakopat zadek GPU superpočítačům? A se stejnou efektivitou výkon/watt? Tohle kdyby mi někdo řekl před pár lety tak se mu vysměju.

Zajímavé bude kolik je to bude stát peněz. Ty obří výpočetní GPU jsou pekelně drahé a serverové CPU taky nejsou low-cost. Kdežto ty ARMy si dnes může každý licencovat jádra Neoverse (V1 a N2) a platit jen za křemík. To je rozdíl jako kráva. Uvidíme jak na tom bude výkonově ten EU superpočítač SiPerl a Korejský bazmek - oba mají jádra V1 (neplést s Fau1 z druhé světové :) ).

+1
-4
-1
Je komentář přínosný?

Fugaku stál miliardu dolarů, u Frontieru se předpokládá že bude stát cca 700 milionů

+1
+1
-1
Je komentář přínosný?

22 miliard Kč za vývoj custom CPU a nejvýkonější super-počítač na světě není špatná cena.

Tohle by ČR ze státního rozpočtu zvládla uplně vpohodě.

+1
-2
-1
Je komentář přínosný?

To neni za vyvoj, ale za celkovou realizaci. Pri temer 160K procesorech, to vypada na $6K per socket - vcetne pameti, disku a sitove omacky. To je bezna cena standardniho serveru, a jeste v tom nebude sitarina ani integrace.

+1
0
-1
Je komentář přínosný?

Velmi zajímavé, máš pravdu. $6300 za socket je luxus, v ceně máš i HBM2 paměti na drahém interpozéru. Za $7000 máš holý AMD EPYC CPU bez boardu a RAM, který výkonově na ten vodou chlazený Fujitsu nemá.

+1
-2
-1
Je komentář přínosný?

Zas na druhou stranu je to miliarda za něco vs 700M za třikrát výkonnější něco

+1
0
-1
Je komentář přínosný?

Škoda že Fujitsu neprodává ty 52-jádrové A64FX s HBM2 pamětí do pracovních stanic. Mohli rozpustit náklady na vývoj a za $2000 by to byl vynikající stroj....

Uvidíme s čím přijde nový Fujitsu. 2x 1024-bit FPU místo 2x 512-bit, 5nm, 104-jader, 2x víc nodů...... a hned máš 4 ExaFlops. A opět první místo s CPU-only strojem. Já bych ty ku*vyšikmooké nepodceňoval....

+1
-1
-1
Je komentář přínosný?

Prodava dvojsocketove systemy za $39K. Takze sup, nakupuj!

+1
0
-1
Je komentář přínosný?

2S Epyc přijde na 2x $7K za CPU, plus board a RAM.... to vyšlo na cca $30K a pořád to nemá HBM2 a 2048-bit SVE vektory. Hergot kdyby to mělo SVE2 aby to bylo už ARMv9, tak by to stálo za úvahu :D

+1
-2
-1
Je komentář přínosný?

Nestalo.

Epyc dava 1-2 Tflop/socket dle modelu, muze mit nekolik TB pameti osazeno.
A64FX ma jenom 32 GB pameti na socket, a muze udelat 2 Tflop/socket.

Je to zcela stejny problem a kompromis jako u M1 - procesor sice jede rychle, ale prakticke omezeni jsou tak silena, ze to je nepouzitelny na seriozni praci (zejmena mnozstvi ram per core).

Ale pokud stavite vypocetni node, a la BOINC, tak vam nic nebrani si poridit takovej kripl-cpu, co umi pocitat specificke ukoly. Nastesti pro ostatni jsou k dispozici normalni, a mene omezene, nekompromisni platformy.

+1
+4
-1
Je komentář přínosný?

1) Praxe ukazuje že A64FX je nejrychlejší CPU pro super-počítač na světě
2) Epyc (2x256-bit FPU) nemůže dát stejné Tflops jako A64FX (2x512-bit SVE) ani teoreticky
3) x86 zbyla akorát výhoda větší RAM, to nepopírám
4) Intel teď bude mít HBM v Saphire Rapids, ale to je 3 roky zpoždění za ARMem. AMD bude mít HBM v CPU kdy? x86 bude mít klon 2048-bit SVE kdy?

Ten A64FX je ultimátní výpočetní CPU, nejvýkonějsí na světě. Fujitsu kvůli němu vyvinula revoluční 2048-bit SVE, což změnilo svět SIMD. RISC-V už zareagoval klonem SVE, x86 musí taky. Teprve Saphire Rapids od Intelu jej má šanci sesadit (ovšem s AVX512 je to otázka).

Nazývat takový revoluční CPU jako kripl-cpu, to si fakt nezaslouží. Jak bys potom nazval Bulldozer, nejhorší architekturu všech dob? :)

+1
-3
-1
Je komentář přínosný?

2) Epyc (2x256-bit FPU) nemůže dát stejné Tflops jako A64FX (2x512-bit SVE) ani teoreticky

Zapominas na to, ze to ma 2x vice jader a na 2x vetsi frekvenci :) A rekni nam, co vlastne potrebujes pocitat - kdyz ti prijde jako lepsi volba pocitac s omezenou pameti a omezenou konektivitou?

+1
+1
-1
Je komentář přínosný?

52-jader A64FX @ 2,2 GHz fix
64-jader EPYC @ 2,25 GHz base + turbo (turbo ve full loadu nevyužiješ)

Ani dvakrát víc jader, ani dvojnásobná frekvence, konektivita mezi CPU naopak díky custom řešení a dedikovaným CPU jádrům naprosto špičková, 2x výkonější FPU, 10x rychlejší RAM :)

Výpočty fyzikálních simulací, ať už FEM (napětí v konstrukci a simulace deformace při crash testu aut) nebo CFD (proudění vzduchu a kapalin, aerodynamika aut a letadel, proces hoření ve spalovací komoře motoru auta a predikce emisí). Samozřejmě se počítá i tepelné namáhání nebo el mag pole, výpočty stínění HF obvodů, simulace HF tranzistorů v CPU atd.

Hlavně na to pustíš genetické algoritmy s AI a přes noc ti to spočítá tisíce variant, ze kterých vybereš tu nejlepší. Dokáže to najít lepší řešení než člověk. V tom je budoucnost.

+1
-2
-1
Je komentář přínosný?

Ono to ma jen 48 pracovnich jader, 4 jsou pro manazement / OS.
Epyc bude mit i 96 jader. FX jede spis na 2 GHz, Zen3 klidne na 5 GHz, takze single core vykon je zcela stejny, per package bez turba taky. A ma to hromadu Gen4 pcie (FX jen 16xGen3) a hromadu pameti.

To, ze jsou ve FX ty skupiny 13 jader identicka a jen 1 je vycleneno na OS, znamena ze zbylych 12 jader se neucastni operacniho systemu ale je to pouzivano ve smyslu DSP / GPU, kde bezi zcela separatni, vypocetne optimalizovana uloha s nejakym autonomnim mikrojadrem. Ono totiz nema smysl vykonne jadro brzdit klasickou kodovou omackou z neparalelizovatelneho rizeni toku.

Tudiz tvoje predstavy, jak je to vse soucasti OS a zaroven nabizi uzasny vykon bez prace - jsou zcela falesne. Je videt ze nevis jak to v HPC chodi :) Modelem pouziti se to vubec nelisi od APU (cpu+gpu), jenom ty jadra to nema dvojiho druhu.

+1
0
-1
Je komentář přínosný?

GPU+CPU se teda liší setsakra hodně:

1) 1500 ns latence PCIe je o dost víc jak 80ns do vedlejšího jádra přes L3 cache.
2) Duplikace a přesouvání dat mezi VRAM a RAM (Fujitsu má jednu superrychlou HBM2 RAM)
3) GPU má CUDA / OpenCL, CPU zase x86, programuješ to odděleně, musíš pěčlivě oddělit co poběží rychle na paralelním GPU a co víc vyhovuje sériovému zpracování na CPU (Fujitsu má stejnou ISA a stejné vlastnosti na všech jádrech).

Nejsem expert na HPC, ale i jako obyč programátor Atmelů bych řekl, že nějaký dobrý důvod proč je to nejrychlejší na světě tam bude :)

Ukaž mi serverový Epyc co má turbo na 5 GHz :) Jedno jádro Zen3 má spotřebu 20W, to by 64-jádrový Epyc měl TDP 1300W. Neblázni, to by museli chladit tekutým dusíkem. Škoda že něco takového AMD neudělá, nějak vyměkli. Hm, co chceš od ženské :D

+1
-3
-1
Je komentář přínosný?

Psal jsem APU - mel by ses naucit cist. Sdili to stejnou RAM takze neni potreba zadnych prenosu, viz HSA. Stejnym modelem se bude programovat i to FX.

+1
+3
-1
Je komentář přínosný?

Super-počítače žádné APU nepoužívají. Vždy je to x86 CPU + několik GPU od Nvidie v PCIe slotech.

Programování A64FX s jednotnou ISA a RAM bude řádově jednodušší. I to blbé APU musíš řešit v CUDA/OpenCL s jinou ISA (je to big-endian nebo little-endian? a případně data převádět) a stejně má APU vyhrazenou VRAM v rámci RAM. Jediné co ti odpadne jsou latence PCIe, ale to je furt málo.

Takže nemáš pravdu, FX se bude programovat úplně jinak: jednodušeji.

+1
-2
-1
Je komentář přínosný?

Nebude se programovat jednoduseji. Viz ten rozpis - 48C pro compute, 4C pro OS/management. Tech 48C bude ve zcela oddelenych "GPU" like knihovnach. Nikdo dnes neprogramuje nativne, ale pouziva knihovny vypocetnich primitiv. A tem je latence putna, protoze se jedna vzdy o seriozne velky dataset.

+1
0
-1
Je komentář přínosný?

a ktomu ARM superpocitace maju o dost horsi pomer vykon/watt ako x86+GPU, nemyl si to s mobilnymi arm jadrami :)

+1
0
-1
Je komentář přínosný?

JJ, ARM-only superpočítač žere cca 1,7x víc jak Perlmuter GPU+x86.
To není špatné na 1. generaci která má jen 2x512-bit FPU.
Taková hypotetická 2. generace s 4x2048-bit FPU by nakopala zadek i NV Ampere. Jak výkonem tak i v efektivitě :)

Apple M1 i Cortex X1 už mají 4x FPU (sice jen 128-bit), takže stačí jen rozšířit na 2048-bit. Technicky tomu nestojí nic v cestě. ARMv9 je na to již nachystaný. Japonci jsou takoví blázni, že toho jsou snad i schopni. Však uvidíme co přinesou příští rok nová jádra pro super-počítače V2. V1 umí jen 2x 256-bit SVE, což je zatím chudý příbuzný v porovnání s Fujitsu A64FX.

+1
-1
-1
Je komentář přínosný?

Apple M1 má výhodu v efektivite kvôli menšiemu procesu, ináč to nieje nejaký zázrak čo sa tyka výkonu na watt, hlavne keď tak zatracujes akceleratory výkonu na ktorých je výkon a efektivita M1 závislá. Čiste CPU M1 veľa vody nenamuti. A tie tvoje 2048 bitove vektory pri rozumnom takte budú mať akú spotrebu podľa teba? Si myslíš že efektivitu budú čerpať z nejakej inej dimenzie? Fyzika platí pre tranzistory všeobecne, čiže očakávajú že takéto navýšenie šírky registrov sa pri zachovaní frekvencie odzrkadlila brutálnou spotrebou.

+1
+2
-1
Je komentář přínosný?

Neblázni, M1 má výkon vyšší jak Zen3 na 5 GHz při spotřebě 5W (Zen3 žere cca 20W). To je efektivita vyšší o +300% (4x). Těch 30% co získáš díky lepšímu 5nm procesu nehraje zásadní roli.

2048-bit SVE2 vektory jsou z hlediska SW, samotná HW FPU může být 128 až 2048bit a cokoliv mezitím s násobkem 128, třeba 768-bit FPU. Nové licenční Cortexy mají SVE2 FPU s šířkou 128-bit. Ale zpracovat umí i SW pro 2048-bit SVE2, dopředná KOMPATIBILITA. Nabušený serverový CPU může mít klidně 2048-bit FPU někdy v budoucnu a dnešní SW na něm poběží násobně rychleji. AVX512 ti starý SW se SSE instrukcemi naopak nijak nezrychlí.

+1
-3
-1
Je komentář přínosný?

Fujitsu je dlouhodobě známé svými procesory ... jen se nikdy moc nerozšířily. SPARC64 na svou dobu s takovým výkonem, že SPARC mohl jen tiše závidět. Přesto ho v moc systémech nenajdeš. Jasně nějaké Solaris systémy, SuperCluster ...

+1
0
-1
Je komentář přínosný?

Nevěděl jsem, že si Japonci kutí vlastní CPU už delší dobu, akorát na SPARC ISA.
Taky že SPARC je otevřená ISA, proto ji Sun a Fujitsu používali.

To je tak když člověk chodí na Diit. Za celou historii 2 články o Sparc od Ježka. Dnes je to ještě horší. ARM a RISC-V je tady prakticky cenzurován. Cortex X2 s IPC o +20% než Zen3? Umí 2048-bit SVE2? Ani čárka, naprosto nezajímavé pro IT.

+1
-1
-1
Je komentář přínosný?

Boze hodte pres nej deku. Kdo ma tehle kafemlejnek poslouchat...

+1
+4
-1
Je komentář přínosný?

Jen aby ta deka měla dost ALU, já bych na něj hodil rovnou mainframe ze superpočítače Fugaku.

+1
+3
-1
Je komentář přínosný?

Fugaku má jen 4xALU :D ....... ale umí 2048-bit SVE a má HBM2 paměť na čipu

https://www.nextplatform.com/2018/08/24/fujitsus-a64fx-arm-chip-waves-th...

K-computer měl 128-bit SIMD, další SPARC měl 256-bit a nynější ARM má 512-bit. Vypadá to, že další generace bude mít 1024-bit SIMD, to teprve bude legrace. Protože SVE podporuje až 2048-bit FPU. Přitom tento SVE software poběží i na nejpomalejším úsporném ARM Cortex A510 jádru v mobilu.

Tomu říkám kompatibilita. A ne udržovat 16-bit x86 nebo SSE který nikdo nepoužívá.

+1
-1
-1
Je komentář přínosný?

Kdyby na tebe ten mainframe „upadl“ tak by ti bylo jedno kolik má ALU.

Ale jedno se musí nechat, Jardu Crhů jsi zastoupil zdařile.

+1
0
-1
Je komentář přínosný?

Že jo? Zejména, když lidi překonají kognitivní disonanci, zapátrají aby mi to vyvrátili a zjistí že mám pravdu ;-)

+1
-3
-1
Je komentář přínosný?

Tak sem zapatral. A nenasel sem zadny produkcni hw co by podporoval tech tebou oslavovanych 2048-bit SVE. Nemas pravdu a mesice tu lzes o necem, co je tak maximalne testovany nekde v laborce. To tvoje oslavovany fujitsu ma jen 512-bit.

+1
+1
-1
Je komentář přínosný?

Ano, A64FX má 2x512-bit HW FPU, ale umí zpracovat SW používající 2048-bit vektory :)

To je ta pointa, kterou se tu snažím vysvětlit. I malá úsporná jádra v telefonu nebo v mikrokontroleru v pračce budou umět spustit SW který používá 2048-bit SVE2 vektory. Ano, na 64-bit HW FPU sdílené mezi dvěma jádry (viz architektura Cortex A510) to bude pomalé jak cyp..... ale pojede to, bude to kompatibilní. Jedna binárka pojede úplně všude, od pračky po nejrychlejší super-počítač na světě. To je bomba.

Vývojáři SW se nemusí bát, že jejich práce přijde vniveč s další verzí AVX jako je to tradice u x86 - rovnou to zoptimalizují na 2048-bit a na budoucích CPU to poběží násobně rychleji. Na Atomu AVX512 nespustíš, dokonce ani Zen3 neumí AVX512. To je fragmentace a zaostalost, kterou SVE2 úplně eliminovalo.

Chápeš?

+1
-2
-1
Je komentář přínosný?

"Ano, A64FX má 2x512-bit HW FPU, ale umí zpracovat SW používající 2048-bit vektory "

Jistě, i staré SSE umí zpracovat SW používající 2048-bit vektory. V obou případech se to děje "po kouskách".

+1
0
-1
Je komentář přínosný?

Stačí to vypnout přes Tampermonkey... duševní zdraví je nenahraditelný. :)

+1
+2
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.