Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Xeon Sapphire Rapids má 56 jader, ovšem s 350W TDP

Wow, tak nejen energetické společnosti, ale i prodejci klimatizací budou dávat "novému" serverovému Intelu palec nahoru.

+1
+6
-1
Je komentář přínosný?

Btw. všiml jsem si, že JirkaK začal mít v diskuzích označený účet jako autorský - tj. červeně. Jestli tady tenhle expert začne vydávat články....

+1
+10
-1
Je komentář přínosný?

Nesranduj.

+1
+3
-1
Je komentář přínosný?

No to snad ne :)
Objevil se v autorech, pokud se tady od něj objeví článek tak je to pro mě konečná.

+1
+5
-1
Je komentář přínosný?

Kdo to je JirkaK? :)

+1
0
-1
Je komentář přínosný?

To jsme na tom podobne :))
V tom pripade davam diit na 'black list" ;)

+1
+4
-1
Je komentář přínosný?

Já bych to předem neposuzoval, jakej byl MuchDoge flamer a jaký píše články Karáš

+1
-1
-1
Je komentář přínosný?

Ja klidne ano. Pokud ma nekdo v hlave demagogicky vygumovano, tak z nej nakonec nic soudneho stejne nevypadne.

+1
+3
-1
Je komentář přínosný?

Jenže MuchDoge prostě dělal rozruch a provokoval, téměř vždy inteligentně a byla to sranda (alespoň pro ty kdo to pochopil :) ). Kdežto Jiřina tady lže, manipuluje a je demagog. Neumí ani počítat s procenty.

+1
+4
-1
Je komentář přínosný?

Je prostě rozdíl mezi humorem a tumorem. ;)

+1
+4
-1
Je komentář přínosný?

Bud rad, ze se zatim nechystam psat ja. :-D

+1
+12
-1
Je komentář přínosný?

No, pokud by sis se psaním článků dával stejně načas, jako s nákupem komponent, tak bychom se nebáli :D

+1
+6
-1
Je komentář přínosný?

omg co napsal? tohle?

Jak zapojit chytré telefony do vašich milostných hrátek?

:-D

+1
+6
-1
Je komentář přínosný?

Jo, pod těma tedy budou flamewars!

+1
0
-1
Je komentář přínosný?

"Onou architekturou je Willow Cove"

není to náhodou Golden Cove ?

+1
0
-1
Je komentář přínosný?

Key changes from Ice Lake
Sunny Cove → Willow Cove
https://en.wikichip.org/wiki/intel/microarchitectures/sapphire_rapids

The processors will introduce an IPC uplift over "Ice Lake-SP" processors, as they use the newer "Willow Cove" CPU cores.
https://www.techpowerup.com/278110/intel-xeon-sapphire-rapids-lga4677-x-...

+1
+1
-1
Je komentář přínosný?

z té dikuze dole pod odkazem co jsi poslal :

" dicktracy
You're saying it's Willow Cove, but some websites are saying it's Golden Cove. Which is it? It's using DDR5 and PCIe 5.0, so all signs are pointing towards Golden Cove.

Intel are saying it's a new architecture, and Sapphire Rapids has been known as the successor of Ice Lake for many years. Jim Keller also said the front-end is significantly bigger than Sunny Cove, while Willow Cove is just a small improvement over Sunny Cove. So I believe Sapphire Rapids is Golden Cove (or another relative we don't know of yet).

But there are contradictory information from Wccftech etc. claiming it's Willow Cove, but with zero sources as always."

\\

navíc podle tohoto slajdu sdílí Sapphire Rapids stejné instrukce s Alder Lake, což by znamenalo novější jádra Golden Cove
https://www.hardwaretimes.com/wp-content/uploads/2020/09/EimA9bXVoAErIvJ...

"As you can see, both the microarchitectures share the same extensions, most notably Advanced Matrix Extensions. These are the first matrix (tensor) based instructions to be natively supported by an x86 CPU."

+1
+1
-1
Je komentář přínosný?

Možné je leccos, ale k obsahu toho příspěvku bych si dovolil říct, že informace o použití Golden Cove jsou rovněž bez zdrojů. K instrukční sadě zase to, že podle ní nikdy nebylo možné jednoznačně identifikovat architekturu, protože se mezi serverovými a desktopovými procesory Intelu lišila. Např. AVX-512 podporuje serverový Skylake, ale v desktopu až Cannon Lake. Rozhodně nelze říct, že když serverový Skylake a desktopový Cannon Lake podporují AVX-512, tak jde o stejnou architekturu. Podobně třeba s BFLOAT16, jehož podpora taky v serverech přišla dříve.

+1
+2
-1
Je komentář přínosný?

Je možné že to bude Tiger Lake, protože Intel nedávno vydal Ice Lake SP, takže má zvyk vydávat do serverů o generaci starší jádra.

Podle toho obrázku Bfloat16 uměl Cooper Lake, ale ten nový Ice Lake to už zase neumí. Co to je za bordel v tom Intelu že ubírají funkcionalitu? Ten nový Sapire Rapids taky Bfloat16 neumí přes AVX512, ale zase to umí přes nějaké AMX/TMUL. Hergot co to je to AMX/TMUL, to je něco nového?

https://diit.cz/sites/default/files/intel_xeon_sapphire_rapids_specifica...

A taky Sapire Rapds budou umět 8x soketů!!!! Pokud vím tak Epyc umí jen 2x soket. To je 448 Intel jader proti 128 AMD jader. A taky DDR5 s PCIe5, ale to by měl umět Zen 4 taky.

+1
-1
-1
Je komentář přínosný?

Tyvole ty AMX jsou brutální - 8 registrů po 16x 512 bit vektorech.
https://fuse.wikichip.org/news/3600/the-x86-advanced-matrix-extension-am...

Takže AMX jsou něco jako 65536 bit vektory. Pokud AMD uvede svoje AVX4096 bit s flexibilní šířkou vektoru jako mají ty pitové army, tak by ani to nemuselo na Intel stačit. Ikdyž zase ty Intelácké AMX nejsou s ničím kompatibilní a nemají flexibilní šířku, takže nepůjdou použít pro Atomy nebo do notebooků.

+1
-2
-1
Je komentář přínosný?

AVX-4096? :D To by museli chladit zkapalněným heliem, dusík by na to nestačil...

+1
+1
-1
Je komentář přínosný?

Intel píše že by to mělo být 10x rychlejší než když počítáš matice přes vektory. To by znamenalo že to bude výkoné jako 655 360 bit vektory.

To budou muset chladit nejmíň na -500°C.

+1
-1
-1
Je komentář přínosný?

BTW zas tak brutální to není, moderní GPU mají už dlouho "tiled" výpočty právě pro matice, protože u velkých matic naivní algoritmus pro násobení moc nespolupracuje s vyrovnávací pamětí, takže ty dlaždice to hezky urychlí. U Intelu a jejich CPU jsem velice zvědav na příkon v případě použití AMX na více jádrech (nebo i jen jednom).

+1
0
-1
Je komentář přínosný?

Údajně výpočet matic přes tenzory je matematická vychytávka, která umožňuje výpočet výrazně zkrátit oproti vektorům. Dobře je to popsané tady:

https://en.wikipedia.org/wiki/Matrix_multiplication

Klasické násobení matic přes vektory má náročnost: n^3
Přes tenzory to jde stlačit až na: n^2,373

Taková matice 1000x1000 jde vypočítat přes tenzory 76x rychleji než přes vektory. Intel uvádí zrychlení výpočtů jen 10x, což mi vychází pro rozměr matic 40x40. Sranda je že na těch tenzor algoritmech matematici bádají i dnes:

"This was further refined in 2020 by Josh Alman and Virginia Vassilevska Williams to a final (up to date) complexity of O(n2.3728596)."

+1
0
-1
Je komentář přínosný?

"Klasické násobení matic přes vektory má náročnost: n^3 Přes tenzory to jde stlačit až na: n^2,373"

?? Netuším, co tohle má společného s tenzory. Každopádně ani jeden z těch algoritmů s O(n^(číslo_blízké_2,37)) se v praxi nepoužívá, protože mají příliš velké konstanty. Takže to urychlení pro matice s N=1000 si vymýšlíte, to s těmito algoritmy rozhodně nemůže mít nic společného.

+1
+2
-1
Je komentář přínosný?

On jen blábolí, co komentář, to kravina.

+1
0
-1
Je komentář přínosný?

(1000^3) : (1000^2,373) = 76
(32^3) : (32^2,373) = 8,7

Neumíte použít kalkulačku ve Windows nebo co?

(Intel AMX umí 16x512bit takže 16x32 Bfloat16 matice, takže odtud asi pramení těch jeho udávaných 10x rychlejší výpočet. Navíc to bude asi 10x méně žrát elektriky což by byla geniální výhoda oproti nenažraným AVX512 vektorům. Průser by byl kdyby to Intel nasadil v Alder Lake i do desktopu, protože 8 velkých jader Intelu by mělo výkon jako 80 jader Ryzenů, to by nebylo vůbec dobré pro AMD)

Přes tenzory se počítají zrychleně matice pro ML/AI. Pokud vím tan Nvidia má speciální tensor cores které právě tohle umí a velmi tím urychluje výpočty ML. DLSS tím upscaluje obraz na 4K.. A neuronové sítě nejsou nic jiného než matice závislostí mezi vrstvami neuronů.

"Upper bound for Coppersmith–Winograd-like tensors"
http://www.cs.toronto.edu/~yuvalf/AmbFilLeG14.pdf

Takže já bych jako laik řekl že všechny tyto vychytávky zrychlených maticových počtů jsou tenzorové výpočty.

+1
0
-1
Je komentář přínosný?

"(1000^3) : (1000^2,373) = 76
(32^3) : (32^2,373) = 8,7"

Jenže to není N^3 vs. N^2,373, ale jedna funkce s O(N^3) vs. jiná funkce s O(N^2,373). Takže pro žádné konkrétní N jejich poměr prostě neznáte. Skoro mi přijde, že vám unikl smysl asymptotické analýzy.

+1
0
-1
Je komentář přínosný?

Takže jaká tedy bude ta úspora času při tom tenzorovém řešení? Přes tenzory to pořád musí být rychlejši ne? Jinak by Nvidia se nepiplala s tezorovými jednotkami v herních GPU a zbytečně tak zabírala místo normálním vektorovým jednotkám.

+1
0
-1
Je komentář přínosný?

Nic nemusí být rychlejší. Důvod, proč je to rychlé, je, že to je specializovaný hardware. Nikoli to, že to má v sobě nějaké magické algoritmy.

+1
0
-1
Je komentář přínosný?

Ale magické algoritmy se používají všude od počátku historie počítačů. Si vem Karnaughovy mapy. Nebo třeba obyčejnou 4-bit sčítačku 74HC83:
https://cdn.hackaday.io/files/8121347448864/74HC283.pdf
Podívej se na stranu 4 na schema zapojení tranzistorů: to taky není obyčejná sčítačka full-adder jako tady: https://en.wikipedia.org/wiki/Adder_(electronics)

Normálně bys potřeboval na 4-bit sčítačku zřetězit čtyři full-addery, což by znamenalo 12 tranzistorů v sérii a 20 celkem. Kdežto 74HC283 to zvládne s jen 4 tranzistory v sérii. Takže díky "magickému" zapojení je 3x rychlejší. A pokud bych chtěl sečíst 64-bit čísla tak je musíš propojit přes carry bit a ten má 74HC283 dokonce jen 3 tranzistory dlouhý, takže bude dokonce 4x rychlejší. Sice bude víc žrát protože má 36 tranzistorů a 4xfull-adder má jen 20 tranzistorů, ale to je daň za tu čtyřnásobnou rychlost. A to je technologie údajně z 1970 co dělali na papíře.

A teď si vem kde jsme dnes v roce 2021 se vší tou výpočetní silou na optimalizaci obvodů a algoritmů a pokrok v matematice. Já bych řekl že to nebude tak triviální jak si myslíš.

+1
0
-1
Je komentář přínosný?

Ale já netvrdím, že chytrý návrh se nepoužívá na úrovni malých logických bloků. Samozřejmě, že ano - dokonce to asi bude nutné kvůli měnícím se poměrům rychlostí různých věcí na nejmenší úrovni (třeba klesající rychlost úzkých místních propojů, která už je jen zlomkem rychlosti světla v porovnání se širokými "dálkovými" propoji). Jistě, na této úrovni každý výrobce bude používat to nejmodernější, co může.

Je ale docela veselé domnívat se, že někdo použije něco tak abstraktního a odtrženého od reality, jako jsou současné teoreticky asymptoticky nejrychlejší algoritmy pro maticové násobení. Ty jsou například založené na probabilistických úvahách, takže v pokusu o reálnou implementaci (ani není zřejmé, že nějaká seriózní vůbec existuje!) byste kvůli náhodným přístupům ani nemohl prefetchovat data (což je triviální u "naivního" násobení), protože byste nevěděl, která budete potřebovat. Možná jste si všiml, že grafické karty jsou na optimálních přístupech do paměti tak nějak založené. Tenhle současný výzkum prostě ignorujte; takovéto stanovování horních mezí je z pohledu praxe jenom teoretická hříčka.

+1
0
-1
Je komentář přínosný?

Zajímavé, ale pořád jste mi neřekl na jakém principu pracují ty Nvidia Tensor cores. Nepoužívají tam třeba ten Strassen algoritmu násobení matic?:
https://en.wikipedia.org/wiki/Strassen_algorithm

Sice má jen O(N^2,8), ale u velkých matic opět může být výrazně rychlejší

Ještě jsem narazil na Laser algoritmus kde se počítají tenzory pro 79% a 21% pravděpodobnost. To jako Nvidia třeba počítá jen se sníženou přesností? To by dávalo smysl. Neuronové sítě nepotřebují přesné výpočty, spíš jim stačí hodně nepřesných výpočtů.

+1
0
-1
Je komentář přínosný?

(1000^3) : (1000^2,373) = 76
(32^3) : (32^2,373) = 8,7

Ale Nvidia tensor core používá pro výpočty ML a to nejsou nic jiného než matice.

"Upper bound for Coppersmith–Winograd-like tensors"
http://www.cs.toronto.edu/~yuvalf/AmbFilLeG14.pdf
strana 31

+1
0
-1
Je komentář přínosný?

I akcelerátory používají pro násobení matic kubický algoritmus, jejich výhodou oproti CPU/GPU je značně vyšší počet operací na watt.

+1
0
-1
Je komentář přínosný?

Žádný kubický algoritmus neexistuje, jedná se o "naive multiply" neboli klasické násobení matic jak máme v prváku na vejšce. Kubickou náročnost má kvůli rozměrům matice NxN kdy pro každý prvek musíš vynásobit sloupec s řádkem a sečíst to dohromady, tedy NxNxN násobení a NxNx(N-1) sčítání.

Pitomá malá matice 16 x 16 Bfloatů16 (16 x 256 bit vektor) potřebuje 4096 operací násobení a 3840 sčítání. To při použití 256 bit AVX FMAC je pořád 4096 : 16 bfl = 256 instrukcí vektorových AVX a nevleze se ti to do registrů, takže pořád sahat do L1 keše.

S AMX nebo NPU to vykonáš pomocí jedné instrukce sice v desítkách taktů, ale o dost rycheji díky tomu že máš všechno v registrech a nemusíš žádné data loadovat ani storovat do paměti. To je u Atmelu pohroma zvlášť když máš SRAM na SPI sběrnici.

+1
0
-1
Je komentář přínosný?

Fajn, takže Intelí topidlo další generace bude určitě ještě později než Q2/2022, protože se budou snažit něco udělat s tím odběrem a poladit 10nm proces, takže uvedení se potká s AMD Zen4/Genoa na 5nm, které budou mít ještě menší odběr na jádro než Milan, plus v sobě HBM2...

A to ještě je docela možné, že Zen4 bude podobně revoluční rozšíření x86 ISA jako bylo amd64 - tentokrát o rozumně pojaté univerzální vektorové instrukce ve stylu SVE rozšíření ARMu9. Aneb konec Intelího bordelu s AVX-512. Plus podobné bezpečnostní prvky ohledně virtualizace jako to anoncuje ARMv9... A díky chipletovému designu to AMD vyjde velmi levně, a ještě ke všemu budou mít za ty necelé 2 roky značně vyšší výrobní kapacity na 5nm než dnes na 7nm.

+1
+5
-1
Je komentář přínosný?

Kde jsi slyšel o tom, že "je docela možné, že Zen 4 bude podobně revoluční rozšíření x86 ISA jako bylo amd64"?

AMD už několikrát naznačilo a řeklo, že půjdou cestou Zenu, tj. místo maximálního výkonu a spotřeby alá Intel, preferují výkon/watt a ekonomickou výrobu. A protože musí držet krok především s Intelem, tak musí přidat AVX-512. Nicméně to mohou skládat. A tedy, místo stávajících 4x256bit (jen 2 jsou komplexní), Zen 4 měl 6x256bit komplexních jednotek. Výhoda oproti Intelím CPU by byla, že 256bit nebude vyžadovat podtaktování a může běžet na vysokých frekvencích, příp. i boostovat, což by mohlo vykompenzovat penalizaci za skládání instrukcí. To by mi přišlo jako chytré řešení už i proto, že spousta kódu dnes běží ve 128bit/256bit.

+1
0
-1
Je komentář přínosný?

Avx-512 Intel tak roztříštil, že se stalo prakticky zbytečné a nepoužitelné.

+1
+1
-1
Je komentář přínosný?

Já se přikláním k tomu, že AMD v novém Zen 4 uvede AVX4096, jako ten ARMv9 s jejich 2048 bit SVE2 vektory. AMD by mohlo umět od 128 bit až po 4096 bit. Tím by nahradili 128 bit SSE, 256 bit AVX i 512 bit AVX512 a zároveň by poskytlo dost prostoru pro budoucnost pro superpočítače. A mohly by to používat i malé úsporné Atomy na kterých by šel spustit SW napsaný pro 4096 bit superpočítač. Prostě super.

Když flexibilní šířku vektorů může mít pitomej ARM, proč by to nemohlo zavést AMD pro x86?

+1
0
-1
Je komentář přínosný?

Nezname vykon tech 56 jader, takze udaj TDP 350W mi neprijde az tak vypovidajici.

+1
-7
-1
Je komentář přínosný?

Přesto se na základě zkušeností dá odhadnout, že to ve špičkách půjde někam mezi 700 a 800 W.

+1
+6
-1
Je komentář přínosný?

Tak v serveru by to mohlo odpovídat. Ale jestli se tyhle procesory dostanou i do nového Intel HEDT, tak to potěš ;)

+1
+1
-1
Je komentář přínosný?

JJ. Jednojádrového boostu si naprostá většina mnohojádrových serverů neužije ...

+1
+1
-1
Je komentář přínosný?

Heeee? Jak ze nezname? Mikroarchitekutra je znama a frekvencie tiez s odchylkou 10%. Tym padom vsjo jasno 1,5 roka pred uvedenim. Vacsie odchylky jak 10-15% od kvalifikovanych odhadov by boli preto divne. Nic z toho Intel nevytrhne, pokial AMD v Q4 2022 (Q1 2023) uvedie serverovy Zen4 vykonnejsi (v multiT) o 80% (+20% IPC +50% pocet jader no a 1,2x1,5 = 1,8), frekvencie predpokladame plus/minus autobus totozne.

Wono totiz keby ten 56C SaphireRaphids existoval uz hned a teraz, nevedel by konkurovat ani terajsim serverovskym 64C Zen3 !!!!!!!!!!!!!!!!! CHAPES ??????????? Vykonom ani pomerom vykon/spotreba ani vykon/cena. Ako asi tak preboha bude konkurovat serverovskym Zen4? Odpovedz si sam ...

Hovori za vsetko: https://www.cpubenchmark.net/high_end_cpus.html

+1
+1
-1
Je komentář přínosný?

O narustu vykonu nejen v serverovem Zenu 4 toho take moc nevime. Nicmene souhlasim, ze pro Intel, ikdyz to nechce a nemuze priznat, bude uz prvni meta, aby vubec dokazal prekonat vykon Zenu 3, zase plati jak pro desktop, tak pro servery.

+1
0
-1
Je komentář přínosný?

Hlavně ten Sapire Rapids bude umět 8S takže 448 jader na jeden board. Zen 4 bude mít v 2S kolik jader? Obávám se že na hrubou sílu vyhraje Intel.

Navíc jsem četl že Intel bude mít taky čiplety a bude mít 64 GB HBM RAM přímo v pouzdře, což by mohlo mít super latence. Jestli Zen 4 nepřinese nějakou novou AVX4096 po vzoru těch nových armů, tak se prosadí opět jen výkonem/watt.

+1
-1
-1
Je komentář přínosný?

To už umi i Cascade Lake

+1
0
-1
Je komentář přínosný?

AMD má patent na obří infinity cache v interposeru a Intel bude mít 64 GB HMB paměť přímo na CPU. Těžko říct co bude výkonější pro 1S systém.

Hlavně mám strach z těch Inteláckých nových instrukcí AMX, to má 8 registrů po 16x512 bit. Mám strach aby AMD neujel vlak, protože nemá ani AVX512 a Intel už zbrojí do serverů s o dost brutálnějším AMX. Do toho ten Arm s 2048 bit vektory je taky brutál. No nevím, jestli Zen 4 přijde s AVX512 tak budou nejpomalejší na trhu.

+1
0
-1
Je komentář přínosný?

jeste ze AVX je na serverech v 99% uplne k nicemu...

+1
+1
-1
Je komentář přínosný?

4S a 8S Xeony okrem celo-planetarnych multi-miliardovych konglomeratov v korporatnej/podnikovej sfere nepouziva nitkto, celkovo ma teda take servery skutocne malokto
drviva vacsina je 1S a 2S podobne ako Epyc

+1
+2
-1
Je komentář přínosný?

Zen 4 128 jader / 256vláken na jednu patici. Výkonnějších, než Intel.

+1
0
-1
Je komentář přínosný?

Výkonějších asi ne když Intel bude mít brutální 65536 bit AMX. AMD bude muset narvat více slabších procáků jako Arm. Jenž i ten pitomej arm bude mít 2048 bit. To je v pytli.

+1
0
-1
Je komentář přínosný?

tak Mrko potapi servery do more, pripadne ted rovnou do te spec. tekutiny od 3M ...

tohle bude zn. ideal na nejakou peknou zatezovku techto reseni ne? ;-)

+1
0
-1
Je komentář přínosný?

Jako že hodí serverovou buňku do moře a na hladině bude kroužit na lodi někdo se sítkou a lovit uvařené ryby? Případně plovoucí restaurace? Rovnou na talíř.

+1
+2
-1
Je komentář přínosný?

Willow Cove, ok...

Tady napriklad typek s ocividnym pristupem k Intel dokumentaci 1. brezna uvadi dnes potvrzenou konfiguraci a Golden Cove jadra: https://twitter.com/davidbepo/status/1366164971139325959

Neni pravda, ze by ICL a SPR mely stejny 10nm proces - SPR je o dve generace 10nm dal...

Tabulku pro Genoa uz je mozne doplnit. Maximalni konfigurace ma TDP 400W a tim padem 4.2W na jadro.
https://twitter.com/ExecuFix/status/1365981401808580614

+1
0
-1
Je komentář přínosný?

IMO by SPR s Willow core nedávalo žádný smysl...

+1
0
-1
Je komentář přínosný?

upozorneni: ac se to zda jako nepravdepodobne, toto NENI april

+1
+1
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.