Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Tři nové Epycy 7Fx2 jsou optimalizované pro výkon na jádro

Trefa do černého, super!

+1
+5
-1
Je komentář přínosný?

Ale ja som sa trafil keď mi kolrga odpovedal

>danieel | před 21 hodinami

>Ja pochybuji ze existuje ruzny microcode pro
>ruzne OS.
https://diit.cz/clanek/ryzen-7-3700c-ryzen-3-3250c-pro-chromebooky/diskuse

A dnes AMD pre (pravdepodobne) Zen3 a pokračovateľov zväčšili limit na mikrokód na TROJnásobok (prečo tak divný násobok z pohľadu dvojkovej sústavy. Nárast z 2^12 B na 1,5 x 2^13 B je divné. Prečo nie 2^14?

The Linux Kernel Prepares For Larger AMD CPU Microcode Updates
Written by Michael Larabel in AMD on 15 April 2020 at 06:48 AM EDT.
Future AMD CPUs (more than likely, Zen 3) will be bearing larger CPU microcode sizes, resulting in the Linux kernel needing a change to load them.

Currently the AMD Linux CPU microcode handler has a static upper limit of the page size, which is generally 4K.

With a change now pending as part of the x86/urgent work, that upper limit is being bumped to a factor of three times the page size. In other words, up to 12K microcode update size.

https://www.phoronix.com/scan.php?page=news_item&px=AMD-Larger-Microcode...

+1
0
-1
Je komentář přínosný?

Spíš do modrého, řekl bych.

[Pardon, to mělo být pod komentář výše.]

+1
+10
-1
Je komentář přínosný?

pri ty kapacite l3 na jadro to imo budou x86 procaky s vubec nejlepsim ipc..

+1
+3
-1
Je komentář přínosný?

Ne, nemají 6x ALU a frekvence se ani trochu neblíží 5GHz.

+1
+15
-1
Je komentář přínosný?

Jó kde jsou ty časy, když si vzpomenu na p4 a řeči intelu o 10ghz před xx lety...

+1
+5
-1
Je komentář přínosný?

Tomu Epycu ta obří L3 cache pomohla v jednotkách procent. Vždyť si ten 2P EPYC F namazal na chleba i ThreadRipper se steným počtem jader. To je pro ty mamlasy co si myslí že IPC se zvyšuje zvětšováním L3 cache. Chtěli byste aby nové GPU od AMD měli 2x větší cache a počet CU zůstal stejný? To by bylo kvikotu, že to nemá výkon. Výkon dělají výpočetní jednotky a cache je pomáhá jenom krmit, nic víc.

Hoši, dokud bude mít AMD ubohé 4xALU tak z toho žádný pořádný výkon nedostanou a pořád budou ztrácet 80% IPC na Apple. Už i ten pitomej Cortex A77 v čínských telefonech je širší než Zen2.
A77 - 4xALU+2xBranch …….. 2xLSU+2xStore ……. 2xFPU
Zen2-4xALU...………………….2xLSU+1xStore...…...4xFPU

Nebýt 2x větší FPU tak Zen2 prohrává úplně ve všem. A příští rok budou mít nové ARMy místo 128 bit NEONu 2048-bit SVE2. To chci vidět s čím přijde AMD a Intel. Po 7-mi letech co je AVX512 venku je jeho rozšíření prakticky nulové. Game over x86.

+1
-3
-1
Je komentář přínosný?

Až na to že vektorová jednotka ARM procesorů má šířku 128 bit, kdežto AMD ZEN 2 256 bit. Taky nejde přímo porovnávat RISC architektura a x86-64. Přidání nových instrukcí nebo jiných jednotek neznamená automaticky nárůst výkonu. Záleží na programátorech.

+1
+2
-1
Je komentář přínosný?

Ano správně. Přestože Apple A13 používá jen 128-bit NEON instrukce, tak má FPU IPC(PPC) vyšší o 65% než Zen2, který má 256-bit. Podobné jako když Zen2 s 256bit AVX2 drtí Intel s jeho 512bit. Akorát že AMD nemá oproti Intelu náskok 65%.

Ty 2048-bit SVE2 jsou důležité kvůli stabilitě vývoje SW. ARM už žádnou větší šířku implementovat nebude, takže SW který ručně optimalizuješ bude prakticky nafurt. Než se Intel s AMD dohrabou na 2048bit tak mezitím vydají 4 verze AVX což bude znamenat pokaždé znovu SW předělávat. Proto AVX512 prakticky nikoho nezajímá.

+1
-2
-1
Je komentář přínosný?

Ty gdybys pracoval ve vietnamské večerce, tak mi prodáš i pičifuk a vložky...

+1
+2
-1
Je komentář přínosný?

S tím že chutnají o 89% líp jak originál hamburger...

+1
+1
-1
Je komentář přínosný?

"Přestože Apple A13 používá jen 128-bit NEON instrukce, tak má FPU IPC(PPC) vyšší o 65% než Zen2, který má 256-bit. "

Takže A13 pouze se 128b jednotkami zvládne 40 double-precision FP operací na takt?

+1
0
-1
Je komentář přínosný?

Žádný serverový procesor AMD, Intel ani IBM nejde přes 4 GHz. U těchto procesorů je důležitá efektivita. ZEN 2 má vyšší IPC než stávající i "nově uvedené" Intel, protože ty mají už několik generací stejné jádro, pro Intel je přidání plochy křemíku daleko dražší. IPC není daná jen počtem výpočetních jednotek a taktem, je to daleko složitější. U desktopových 8. a 10. jader Intelu je TDP udáváno jen pro základní takt, běžná spotřeba je větší a v maximu podle kvality chlazení až 3,35x větší a to bez přetaktování. Podobné to je i u modelů pro notebooky. Intel měl být už dávno jinde a ne na 14+++ nm.

+1
+2
-1
Je komentář přínosný?

Mně by zajímalo, jestli ten boost u serverových CPU (Xeon, Epyc) je garantován pro všechny jádra a záleží jen na tom, zda se to uchladí. Nebo se ten boost projeví jen u "výběrových" jader.

+1
0
-1
Je komentář přínosný?

Pretoze so 6x ALU nebudu stracat cas a sustredia sa rovno na 8x ALU :)

+1
+1
-1
Je komentář přínosný?

Nejde jen o počet jednotek, je třeba taky uzpůsobit dekodéry instrukcí, předpovědi skoků a zajistit datovou propustnost, jinak se ty jednotky navíc budou víc flákat než pracovat.

+1
+1
-1
Je komentář přínosný?

nenenenene.. dekodery a prediktory sou k nicemu, jen zabiraj misto, kde by mohly byt dalsi alu.. vic alu, vic adidas..

+1
+5
-1
Je komentář přínosný?

Presne tak a zaberaju miesto 4096 vektorovym instrukciam

+1
+4
-1
Je komentář přínosný?

To jako místní experti trvdí, že Apple má 6xALU, ale nemá žádný decode a prefetch? Tak to jo, odborníci k pohledání. Samozřejmě že Apple má 6xALU a k tomu neméně brutálně výkonný prefetch a decode. Apple ukazuje že těch 80% IPC tam je a lze toho dosáhnout. Problém je že AMD ani Intel žádnou podobně výkonnou architekturu nejsou schopni vytvořit, protože Intel seděl 5 let na zadku jako monopol a AMD po uvedení Bulldozeru 5 let bojovalo o přežití.

+1
0
-1
Je komentář přínosný?

Myslím že reálný výkon Apple ARM bude možno reálně srovnat s Intel a AMD procesory teprve až na nich pojede stejný software, tj až budou mít procesor aspoň do NTB. Srovnání různé architektury ještě v různém softwaru může být zavádějící. Krásně se to ukázalo při srovnání pracovních stanic Raptor Talos II na linuxu, kdy v něčem byly procesory IBM Power 9 nedostižné a jinde na chvostu.

+1
+2
-1
Je komentář přínosný?

No co se týče Linuxu a spousty aplikací, tak to není problém ...

+1
0
-1
Je komentář přínosný?

Jen výkon ARM Apple tam jaksi není vidět, ale možná jsem málo hledal

+1
0
-1
Je komentář přínosný?

Těžko hledat, co existuje výhradně ve vlhkých Richieho snech ;-)

+1
0
-1
Je komentář přínosný?

Nie, miestni exprerti tvrdia, ze az Apple CPU bude porovnatelne s Intel a AMD vo VSETKYCH typoch HPC zataze (nie len tych par, ktore si si ako modlu vybral a ktorej svedci vyssi pocet ALU), mozme porovnavat jeho efektivitu a architekturu. Pretoze je nutne si uvedomit, ze zvysovanie IPC od urcitej hranice vyzaduje (zjednodusene povedane) exponencialne naklady na zdroje a ARM to len teraz zacne mat tazke v dotahovani sa.
Az Apple procesor bude mat dostatocne velku cache, bude podporovat velky pocet RAM modulov, multi-socket systemy, bude mat naozaj vela jadier, atd atd. mozme zacat porovnavat, za akych podmienok (cene/spotrebe/...) to dokazal. Dovtedy je to len vlhky sen.
Inak keby Apple CPU bol skutocne tak dobry, ako hovoris, uz davno nahradi Intel vo VSETKYCH svojich produktoch a zacne ho tlacit aj do HPC segmentu.

+1
+1
-1
Je komentář přínosný?

Multi socket systémy a vyměnitelná RAM zní jako něco z devadesátých let. Na vše stačí iPhone.

+1
+1
-1
Je komentář přínosný?

To by ste to dopracovali..

vypnuté väčšinu prediktorov znižuje výkon CPU o cca. 93%

Google Engineer Shows "SESES" For Mitigating LVI + Side-Channel Attacks - Code Runs ~7% Original Speed
on 21 March 2020

Čisto iba lfence na intel only chybu LVI výkon -78%..

LFENCE barrier instruction around loads, indirect branches, and RET instructions. The tests on Kabylake found that the mitigated performance overall was about 22% that of the performance without the LVI mitigations.

Google engineer in working to avoid LVI and other side-channel vulnerabilities in one of her tests saw just ~7% the original performance based on the geometric mean.

https://www.phoronix.com/scan.php?page=news_item&px=LLVM-SESES-Mitigatin...

+1
-1
-1
Je komentář přínosný?

Ale Tom si dela prcu z mistniho saska Richieho, ktery tlaci mantru 6xALU = singularita je zarohem :D

+1
+4
-1
Je komentář přínosný?

"vypnuté väčšinu prediktorov znižuje výkon CPU o cca. 93%"

Ano, všichni pamatujeme Itanic. :D

+1
0
-1
Je komentář přínosný?

U Itania šlo o naprosto odlišnou architekturu velmi širokého jádra, kde optimalizaci kódu měl na starosti kompilátor. A to byl celý problém. Že na vydávání nových CPU Intel ke konci dlabal, bylo dané tím, že v tom už tak utopil hodně peněz. Ale neúspěšných projektů měli v minulosti víc.

+1
0
-1
Je komentář přínosný?

Ano, vždyť o tom to je - ukázalo že, spoustu věcí staticky v kompilátoru řešit nelze. Ty obvody navíc tam mají svůj smysl.

+1
+1
-1
Je komentář přínosný?

Intel to chtěl zabalit dřív, ale HP si soudně zajistilo, že něco ještě vydají, protože prodali HW nějakým zákazníkům, kteří chtěli v rámci Itanium rodiny upgrade a podporu.

+1
+1
-1
Je komentář přínosný?

A hele jak se daří ladit 7nm u TSMC.
Že mně výčet těch firem vůbec nepřekvapil. Epycy 7Fx2 jsou jak dělané pro OS v cloudu. Hodně lidí v tom vidí budoucnost IT. AMD nechce zůstat pozadu.
Homeoffice zažívá ohromný boom díky pandemii. Takže přišli na trh v pravý čas.

+1
+1
-1
Je komentář přínosný?

Nikde nevidím podporu AVX-512 ?

+1
+1
-1
Je komentář přínosný?

Protože jsou to fyzicky stejné EPYC Rome, jen mají jinou konfiguraci L3 cache, aktivních čipletů, frekvence a TDP.

+1
+1
-1
Je komentář přínosný?

AVX-512 až se ZEN 4 na 5 nm, zabírají moc místa a papají moc energie a v desktopu nejsou k ničemu

+1
0
-1
Je komentář přínosný?

Ale keby dali AVX-1024 a SVE-16384 spolu s 16 ALU, to by bolo!

+1
0
-1
Je komentář přínosný?

A k tomu 256 jader a 8GB L3 cache!

To by konečně Crysis běžel plynule i s 64 protivníky!

+1
+2
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.