Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Lisa Su demonstrovala 3D cache na Ryzenu o 15 % navyšující herní výkon

Hmm, ak to bude pravda + budu pravdive leaky o Zen 4 , tak intel tazke casy este len cakaju a doteraz to bol len odvar toho co pride.

Samozrejme aj Intel nas moze niecim prekvapit, ale zatial z ich strany nic take zaujimave neuniklo.

+1
+16
-1
Je komentář přínosný?

Akurát má AMD obrovský náskok

GPU Fiji: 596 mm², interposer: 1011 mm² a 8,5 roku práce navrch
18. 6. 2015
https://diit.cz/clanek/amd-fiji-rozmery-jadra

V roku 2017 masové MCM s Ryzeom

V roku 2019 čiplety

V roku 2021 3D čiplety

a medzi CPU Buldozer a Zen bolo bez 5 dní 5,5 roku 4 roky vývoj a 420 dní ladenia výroby - 1 rok a 2 mesiace

AMD Ships First "Bulldozer" Processors
September 07, 2011 7:45am EDT
https://ir.amd.com/news-events/press-releases/detail/32/amd-ships-first-...

AMD Ryzen(TM) 7 Desktop Processors Featuring Record-Breaking Overclocking Performance Available Worldwide Today
March 02, 2017
After four years and thousands of hours of development, AMD today released the first three models of its highly anticipated, high-performance AMD Ryzen™ desktop processor
https://ir.amd.com/news-events/press-releases/detail/753/amd-ryzentm-7-d...

Intelácke CPU pre rok 2021 sa teda stále začali vyvíjať v druhej polovici roku 2015 , teda pred Zenom,

A hlavne ak 4 roky po vydaní Zen-u Inte odvolal CEO, teda v Intel ani v tom čase nemali vyvinutý ani prototyp niečoho významného

Intel mění CEO, Boba Swana nahradí Pat Gelsinger
15. 1. 2021
Přesně za měsíc, 15. února 2021, opustí kancelář nadepsanou písmeny CEO Bob Swan a nahradí je Pat Gelsinger.
https://diit.cz/clanek/intel-meni-ceo-boba-swana-nahradi-pat-gelsinger

+1
+1
-1
Je komentář přínosný?

Super prehlad ale nie celkom rozumiem co tym chcete povedat :)

+1
0
-1
Je komentář přínosný?

No, tak to je opravdu zajímavý a vcelku inovativní a originální technický řešení. Asi to nepomůže v úplně všech situacích, ale dovedu si představit, že pokud něco podobnýho zavedou i u APU, tak to bude mít asi pořádnej vliv na navýšení výkonu iGPU. Samozřejmě otázka bude, o kolik tohle řešení navýší cenu konečnýho produktu ku poměru ke zrychlení. Tam se teprve bude, jak se říká, lámat chleba.

+1
+9
-1
Je komentář přínosný?

Tipuji že se cena zvýší na úroveň toho kolik bude ten dodatečný křemík stát+ pouzdření.

+1
+2
-1
Je komentář přínosný?

tak myslis, ze o 5-7$?

+1
0
-1
Je komentář přínosný?

Spíš pár desítek dolarů.

+1
+1
-1
Je komentář přínosný?

Super!

Chytrý způsob, jak zvýšit výkon beze změny procesoru samotného.
Myslím, že zvýšení +15% u her je celkem nevýrazné, proti zvýšení výkonu u mnoha jiných úloh, které velmi závisí na velikosti L3 cache, a kde to může dělat klidně i několik set procent. Například různé vědecké výpočty nebo databázové operace. Jakmile se používaná data celá vejdou do cache, průchodnost pamětí přestane být úzkým místem. Hodně ten rozdíl může být vidět u desktopových Ryzenů jen se dvěma paměťovými kanály proti TR nebo EPYCům se čtyřmi nebo osmi - kde rozdíl bude také, hlavně jestli ta přidaná cache bude opravdu tak velká.

Před pár lety dělal Intel různé modely Xeonů, které byly procesorově podobného výkonu, ale lišily se velikostí L3 cache, a rozdíl ve výkonech při výpočtech byl značný. Také to mělo velký význam u některých databází.

Úloh, které profitují z velké L3 cache, je poměrně hodně. Něco potřebuje pro cílovou velikost cache optimalizovat - přepsat nebo jen překompilovat s jiným nastavením, něco ne.

Teď ještě, kolik si za to AMD řekne peněz navíc... aby se to v poměru cena/výkon vůbec vyplatilo.

+1
+15
-1
Je komentář přínosný?

To čumím. Optimistický příspěvek k x86-64 od uživatele kvolaa. Tahle platforma ještě není u konce s dechem.

+1
+1
-1
Je komentář přínosný?

To není otázka fandění jako na hokeji, ani optimismu či pesimismu, ale exaktních faktů.

Že má x86-64 instrukční množinu (ISA) plnou vykopávek jako třeba "realmode 8086", že majitelé licence - firmy Intel/AMD/VIA - měly ISA dávno tomu segmentovat jako to udělali v ARM nebo v MIPS (dokonce i v jednočipech Atmel/Microchip ISA průběžně segmentoval) - prostě jako to udělal úplně každý, to je prostě pravda. Nesegmentace měla v minulosti některé výhody (softwarovou kompatibilitu bez námahy), ale dnes je to podstatná nevýhoda, proti jiným architekturám. Do budoucna je to kámen na krku.

Jenže to neznamená, že x86-64/AMD64 je špatná, nebo že procesory jsou špatné. Nástup nových architektrur bude navíc nějaký ten čas trvat. Výhody nových ISA se ukazují hlavně v tom, že lze snáze udělat vysoké IPC, s menší obvodovou složitostí, než tomu je u x86-64 (jablečné M1 rychlé obří jadro je tak veliké zejména proto, že je optimalizované také na emulaci x86-64 instrukcí s co nejvyšším výkonem - ale čistě ARMv9 jádro s vysokým IPC bude o dost jednodušší než x86-64 jádro se stejně velkým IPC). To je prostě fundamentálně dané, matematikou - a je zbytečné kolem toho střečkovat nebo dělat nějaké "flame" tanečky.

Navíc, jak jsem koukal, Lisa Su mluvila o 2x 64MiB cache na R5900X - tj. cache čip je na procesorovém čipletu přidělaný jenom jeden, ale obrázek serverových EPYCů ukazuje více vrstev. Což by znamenalo, že EPYCy budou mít L3 cache klidně i násobně větší (než by odpovídalo počtu čipletů). To bude v mnoha nasazeních úplný "game changer". Výkon to může zvednout pro některé úlohy klidně i o řád.

Takových úloh, které mohou těžit z obří L3 cache, je ve skutečnosti hodně. Zpracování obrazu, simulace a výpočty metodami konečných prvků, in-memory databáze, kryptografie, numerická matematika, ... všechno, co používá k výpočtu/vyhodnocení větší - ale nějak omezené - datové objemy. Pokud se potřebná data k výpočtu vejdou do cache... a když je cache takto obrovská, takových úloh bude o dost větší počet. Sice latence té L3 cache bude větší než u L1 cache, ale rychlost je přibližně stejná jako u L1. To je prostě bomba...

Každopádně profesionální vědecký segment, HPC clustery, to může "obrátit vzhůru nohama", takovéhle polepšené procesory s obřími L3 cache. Z hlediska AMD naprosto skvělý počin, protože u těchto cílových oblastí to vymete Xeony do posledního.

+1
+7
-1
Je komentář přínosný?

Zrychlení u her může být nakonec také o hodně větší, než těch průměrných 15%, stačí aby se herní firmy věnovaly trošku optimalizaci pro takto obrovské cache, dříve nevídané. Hodně pomůže také to, že dnes je na 3. generaci Zenů cache mezi všemi jádry čipletu plně sdílená.

Od včerejšího "key-note" Lisy Su se v tomhle strhl celkem poprask, hlavně mezi vědeckou komunitou výpočtářů, protože takto obří cache u procesorů mohou některé výpočty urychlit značně, no a rychlost znamená samozřejmě peníze, vědecké úspěchy, granty, ...

Tipoval bych, že u Intelů mají dneska velmi smutné ráno... :-D

Ohledně těch nových ISA (ARMv9, čínský MIPSoidní 64-bit, RISC-V) a "legacy" ISA x86-64/AMD64, věřím tomu, že časem se Intel/AMD/VIA pochlapí a provedou segmentaci ISA také. Prostě to vyčistí/vyškrtají a dnešní verzi x86-64/AMD64 budou emulovat, ve prospěch nové verze, nezatížené tím historickým balastem. Pokud to neudělají, v budoucnu nebudou jejich procesory konkurenceschopné v IPC a tím tedy ani v celkovém výkonu, ST ani MT (při stejné technologii a příkonu). Na tom není nic věšteckého, jde o matematiku a inženýrství...

+1
+4
-1
Je komentář přínosný?

Nie som si isty, ze tu emulaciu ma zmysel vobec riesit. Ono aj to, co sa dnes pridava do x86_64, nie je zrovna najcistenie (staci sa pozriet na to, aky bordel je v AVX). AMD urobilo kus roboty, aby to pri prechode z 32 na 64 bitov upratalo, ale mam pocit, ze v tej architekture je aj tak stale prilis velky bordel a bolo by dobre to proste casom hodit zo stola. Strict memory ordering bude dost velka prekazka, cez ktoru nepojde ani emulacia.

+1
+2
-1
Je komentář přínosný?

Souhlas. Ten memory model x86-64 (strict memory ordering) je BTW hlavním důvodem, proč má to Applí čudo M1 tak velká ta výkonná jádra, větší než Zen3; proč má jejich jádro takovou složitost - protože pro výkonnou emulaci x86-64 na ARMu je to potřeba. Fakt je, že časem taková výkonná emulace, podporovaná hardwarem, nebude potřeba - co bude potřebovat výkon, bude se muset prostě překompilovat (assembler přepsat) na novou ISA. A staré věci pojedou na nových rychlejších procesorech dostatečně rychle i při obyčejné softwerové emulaci.

S tím ale souvisí další otázka budoucnosti Intelu nebo AMD: jakou novou ISA zvolí? Jelikož na starou x86-64/AMD64 nijak "seamless" navázat nelze, mohou prostě přejít přímo na ARMv9. Jenže tím se zbaví podstatné konkurenční výhody, kterou jim dával jejich x86-64 oligopol. Jsem zvědavý, jak tohle vyřeší...

+1
0
-1
Je komentář přínosný?

Nejaky zdroj k tomu tvrzeni o velikosti M1 zpusobene velikosti casti pro emulaci x86-64 ? Protoze oficialne tam k emulaci nedochazi. Rosetta 2 pri instalaci binarky bez podpory arm provadi ahead-of-time compilation s kompletnim prekladem x86-64 na ARM. To je oficialni popis toho jak to funguje podle Apple.

+1
+1
-1
Je komentář přínosný?

Nejde o emulaciu. Podstata je v tom, ze jadro M1 ide prepnut do rezimu, kedy HW dodrziava strict memory ordering tak ako 8086. ARM strict memory ordering samo od seba nema, pouzivaju sa explicitne bariery. Ine dynamicke translatory musia kvoli tomu do prelozeneho kodu generovat znacne mnozstvo barier a to takto prelozeny kod dost spomaluje, kedze bariera naplni pipeline procesora jednym alebo viacerymi NOPmi, kym sa neflushnu vsetky zapisy indukovane instrukciami po tu barieru. Appli dynamicky translator toto robit nemusi, pretoze si proste prepne procesor do strict ordering modu a potom mu staci generovat ARM bytecode, ktory dodrziava poradie pristupu k pamati povodneho x86tkoveho kodu.

Z brucha odhady hovoria, ze toto pridava niekde okolo 30% vykonu toho dynamickeho translatora. Inac kvalita jeho prekladu nie je podstatne lepsia nez trebars kvalita prekladu u veci typu Qemu a box86.

Pri politike Applu je predpoklad, ze ako samotnu prekladovu vrstvu, tak podporu na preklad v procesoroch podrzia tak jeden - dva releasy po ukonceni predaja posledneho x86 procesora v ich zariadeniach, potom to z kremika aj z OS vyhodia. Strict memory ordering nativny ARM kod nepotrebuje, takze to k nicomu nebude dobre.

+1
+1
-1
Je komentář přínosný?

Nemyslim si, ze x86 ISA ide fixnut. Strict memory ordering je len jeden z problemov, co to ma. Dalsim je extremne nechutna kodovacia schema instrukcii, kedy nie je mozne zistit dlzku instrukcie bez jej kompletneho sparsovania. To znacne brzdi frontend a neumoznuje urobit jadro sirsie. No a potom je tu implicitny zasobnik. Smiesne maly pocet registrov a segmentove registre nastastie uz AMD okolo roku 2000 fixlo.

Intel v tomto nepovazujem za kompetentny, aj keby na to mali schopnych inzinierov, zatrhne im to menezment kvoli rozbitiu spatnej kompatibility. Radsej budu ohybat mikroarchitekturu a pridavat dalsie tisicky instrukcii do x86tky. VIA na to asi nema prostriedky a spokojne si riesi svoj low power business. AMD by to spravit mohlo, ale zasa oni uz aj v minulosti ukazali zajacie umysly s ARM. Takze by som skor cakal, ze jedneho dna pride sprava, ze AMD pripravuje high power serverove procesory na RISC-V a tentokrat aj skutocne dojde k ich vydaniu. Ale to este par rokov potrva, RISC-V este potrebuje vyzriet, upratat sa a zistit, co vlastne chce byt.

Pre AMD by to bola strategicka vyhoda, so svojim know how by mohli dodavat extremne vykonne procesory s relativne nizsou spotrebou nez buduca konkurencia. Zaroven to s RISC-V vyzera tak, ze sa uchyti a nebude to trvat zdaleka tak dlho ako pri ARMe, takze bude do akeho ekosystemu take procesory dodavat.

+1
0
-1
Je komentář přínosný?

Som si isty, ze zakaznici, co po tomto budu slintat, sa najdu. Vsade, kde su vypocty memory-bound zrychlenie v radoch desiatok % pri mierne vyssom TDP (lebo ta cache tiez nieco pozere) a potreba mensieho poctu packages potesi. Maticne dosky ani racky v datacentrach nie su nafukovacie a cenovka viacsocketovych dosiek (a v konecnom dosledku cena za licencie na SW) je taka, ze nejakych par desiatok % na cene procesora, ktory bude mat vyssi vykon sa strati.

+1
+1
-1
Je komentář přínosný?

AMD v tomto ohledu opravdu příjemně překvapilo a vyřešili to navíc velice elegantně a bez potřeby velkého předělávání původního návrhu a dokonce bez HBM ( jako Sapphire Rapids ) a s lepší proprustností a menší spotřebou. Intel bude mít docela problém :-D Navíc procesory s V-cache s brzkou dostupností a ještě v generaci Zen3. Palec nahoru

"This technology will be productized with 7nm Zen 3-based Ryzen processors. Nothing was said about EPYC.
Those processors will start production at the end of the year. No comment on availability, although Q1 2022 would fit into AMD's regular cadence.
This V-Cache chiplet is 64 MB of additional L3, with no stepped penalty on latency. The V-Cache is address striped with the normal L3 and can be powered down when not in use. The V-Cache sits on the same power plane as the regular L3.
The processor with V-Cache is the same z-height as current Zen 3 products - both the core chiplet and the V-Cache are thinned to have an equal z-height as the IOD die for seamless integration
As the V-Cache is built over the L3 cache on the main CCX, it doesn't sit over any of the hotspots created by the cores and so thermal considerations are less of an issue. The support silicon above the cores is designed to be thermally efficient.
The V-Cache is a single 64 MB die, and is relatively denser than the normal L3 because it uses SRAM-optimized libraries of TSMC's 7nm process, AMD knows that TSMC can do multiple stacked dies, however AMD is only talking about a 1-High stack at this time which it will bring to market."

https://www.anandtech.com/show/16725/amd-demonstrates-stacked-vcache-tec...

škoda, že tohle ten šestiALU zázrak od ARMU nemá .-)

+1
+1
-1
Je komentář přínosný?

No, tak toto by mohol byť recept, ako vyrobiť medzigeneračné XT procesory. Palec hore :)
Prípadne rozšíriť portfólio o špeciálnu sériu herných CPU, prípadne PRO verzie určené na použitie v segmente, kde to bude mať ešte väčší prínos ako 15%.

+1
0
-1
Je komentář přínosný?

Chápu dobře že výkon se zvedl mezi Zen2 a Zen3 o cca 15% díky IPC a že výkon ve hrách ze mezi Zen3 a Zen3+(s V-cache) se zvedne o dalších 15%? Tedy +30% za jeden a půl generace pro hry a minimálně +15% pro aplikace? Hmm, nice.

+1
0
-1
Je komentář přínosný?

32% ;)

+1
+2
-1
Je komentář přínosný?

Jasně. Mezi Zen2 a Zen3+. :)

+1
0
-1
Je komentář přínosný?

1,15*1,15 = 1,3225

a teda o 32 a 1/4 % :))))

Akurát vďaka tomu mám obavu o Zen4, kde mala vzorka výkon len 29% nad Zen3, takže lne
12 a 1/6% nad Zen3+

Pri 25% náraste IPC Zen4 vs Zen3 a očakávanému nárastu výkonu 40% Zen4 oproti Zew3, ide na DDR5 (ak nezdvihneme takty)
1,4/1,25= 1,12 teda DDR5 prinesie 12% nárast výkonu. Takže Zen4 je Zen3+(Zen s 3D cache) +DDR5 a to je veľmi málo.

Zvěsti: Zen 3+ na 6 nm zvýší IPC o ~5 % IPC, Zen 4 na 5nm o ~20 %
10. 2. 2021
https://diit.cz/clanek/zen-3-na-6-nm-zvysi-ipc-o-5-ipc-zen-4-na-5nm-o-20

February 11, 2021
Apparently, a Zen 4 engineering sample was 29% faster than a Zen 3 processor with the same core configuration at the same clocks.

Lastly, there’s Zen 5. Considering we are still far away from its release, there’s still a lot that might change, but as per this report, the Zen 5 design goal is to offer the same generational leap as from Piledriver to Zen (40% IPC gain).
https://www.kitguru.net/components/cpu/joao-silva/amd-zen-3-zen-4-and-ze...

Zdroje hovoří o celkovém nárůstu o nějakých 40% výkonu u ZEN 4 verze proti srovnatelné ZEN 3 konfiguraci.

http://www.ddworld.cz/aktuality/procesory-cpu/amd-zen-4-procesory-uz-beh...

Jediná "záchrana" je, že AMd bude pokračovať v tradícii prekonávania cieľov

Bleskově: Ryzen překonal slíbené IPC, AMD zveřejnila specifikace a české ceny
22. 2. 2017
AMD připravila velké překvapení: IPC procesorových jader Zen není zvýšené o „až 40 %“, ale o „více než 52 %“.
https://diit.cz/clanek/oficialni-specifikace-ceny-ryzen

+1
-3
-1
Je komentář přínosný?

Uvidím, tohle je zatím rovnice o všech neznámých. Jaký skutečný nárůst IPC, o taktech nevíme nic, vliv nárůstu sběrnic DDR5 a PCIe5, velikosti cache, TDP....

+1
0
-1
Je komentář přínosný?

Takže B2 stepping má určitě "rozhraní pro druhé podlaží" a nejspíš půjde vyrábět se stejnými maskami na normálním i ztenčeném křemíku.
Nebo bude jen tenký a výšku doženou dummy křemíkem?

+1
0
-1
Je komentář přínosný?

Cim viac 3D to bude, tym vacsi problem bude to uchladit. Tieto procaky budu mat vyssie teploty. Ale zrejme este maju rezervu vdaka procesu.

+1
+1
-1
Je komentář přínosný?

Zoufalost. Přidáním obří 128 MB cache se výkon zvýší jen o trapných 15%. Chápu, že frekvence už zvyšovat nejdou, ale tohle už není efektivní řešení problému. Měli to prezentovat v nějakých jiných programech. Intel se ve hrách drží i se 16MB.

+1
-6
-1
Je komentář přínosný?

Niekde sa spominalo, ze napr. kompilovanie zdrojovych suborov vratane JIT prekladu bezi ovela rychlejsie na procesoroch s vyssou L3 cache pamatou (vid. 3900X, 5900X+), takze okrem hier si to vyuzitie urcite najde. Viac odhalia testy samozrejme

+1
+5
-1
Je komentář přínosný?

to je masakr. Už vidím jednočipletové 8C Zen3(4) APU s RDNA2 grafikou co má tu SRAM jako infinity cache. Stačí i těch 64Mb. Ve fullHD to pořád bude mít slušný hitrate, čímž se eliminuje značně velký bottleneck v podobě sdílené RAM.
Všechno už mají, nepotřebují nic dalšího vymýšlet, jen to zkombinovat

+1
0
-1
Je komentář přínosný?

Jojo taky mě nechávají 5xxx APU chladným. Ale s DDR5 a InfinityCache bude APU hodně zajímavé.

+1
0
-1
Je komentář přínosný?

Už 5600G vypadá jako supr alternativa pro BFU, kteří ještě dnes kolikrát frčí i na 4j Sandy/Ivy Bridge, přip. Haswelech s obstarožní low-end grafikou. Souhlasím, že s nástupem DDR5 dojde ke zvýšení grafického výkonu APU. Tohle je ovšem produkt Q1 2023.

+1
-1
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.