Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Dual V-Cache Ryzen 9 9950X3D2 se 192 MB L3 ohlášen, vydán bude 22. dubna

veru tu energiu a vyrobne kapacity a suroviny mohli investovat do gpu radsej ako taka somarina

+1
-7
-1
Je komentář přínosný?

Taky investovali.
Do MI4xx.

Tohle jsou zbytky, co se neměly dost dobré parametry pro Epyc.
A je to dost dobré aby se o tom psalo a dělalo to reklamu.

+1
+12
-1
Je komentář přínosný?

A to jsem tu četl názorů, že nebude, protože by to bylo k ničemu...

+1
+5
-1
Je komentář přínosný?

K ničemu?
Použít se to dá ... pokud to neodpálí deska :(

Všimněte si, komu to nabízí.
Pro hráče se to nevyplatí.
Pro vetšinu aplikací nárůst výkonu neodpovídá nárůstu ceny.
Příprava dat pro A.I. a menší modely počítané přímo na CPU tu cenu zaplatí velmi rychle.

+1
-5
-1
Je komentář přínosný?

Ja jsem odhadoval ze nebude, ale ne protoze by byl k nicemu - spis proto ze Intel nevydal nejvyssi 290K v ramci refreshe. No nic, mylil jsem se, nakonec bude prijemne prekvapkani.

Na hry je to zbytecne (to jsou IMO na 99% her vsechny soucasne ryzeny >8 jader), ale pokud na stejnem PC nekdo i pracuje, muze to mit vyznam, pokud ta pracovni zatez tezi z L3 cache.

+1
+3
-1
Je komentář přínosný?

Však z herního hlediska to oproti Ryzen 7 9850X3D nemá přínos a z aplikačního jde o niche záležitost. Je to spíš stop-gap produkt, aby letos vyšel nějaký nový Ryzen 9.

+1
+2
-1
Je komentář přínosný?

Tak forbesáři mají teď problémy někde úplně jinde.

A jasně, že je to niche, jako skoro cokoli v téhle kategorii.

+1
0
-1
Je komentář přínosný?

"A jasně, že je to niche, jako skoro cokoli v téhle kategorii."
.. 16C ryzen bude samzorejme vzdycky "niche product", pokud se srovnava s mainstreamem. Nicmene 16C ma svuj vlastni trh a v tomto trhu bude 9950X3D2 niche, protoze aplikacne oproti 9950X pridava malo a herne oproti 9950X3D pridava malo. Oba dva jsou levnejsi. Proto je to "niche product", protoze v ramci sve vlastni kategorie, pridava za priplatek malo.

+1
+3
-1
Je komentář přínosný?

S generací Zen 7 by 16C ryzen mohl být mainstream produkt :-)

+1
+2
-1
Je komentář přínosný?

Jiz Zen 6 nam nakousne Threadripper serii, Zen 7 jeste vic .-)

Predpokladam Threadripper Zen 6 koncici na 144 jadrech, Zen 7 na 192.

Prece se to zaplati.

+1
0
-1
Je komentář přínosný?

Největší procesor postavený na jádrech Zen 6 má být 96jádrový (tj. 8× 12C čiplet). Vše s vyšším počtem jader má stát na Zen 6c (8× 32C čiplet). Threadripper většinou bývá cílen na vyšší takty než Epycy, ale céčková jádra nejsou na vysoké takty příliš vhodná. Takže bych se nedivil, kdyby Threadripper zůstal na 96 jádrech a výš šel až se Zen 7 (8× 16C čiplet = 128 jader).

+1
+1
-1
Je komentář přínosný?

Počtem jader ano, jinak ne. ThreadRipper je o propustnosti a kapacitě RAM a o počtu PCIe linek a tím víc PRO verze, která se i počtem jader vyloženě s Ryzen kryje.

+1
+1
-1
Je komentář přínosný?

> protoze aplikacne oproti 9950X pridava malo

To zalezi od aplikace. Dovolim si odhadnout ze v AI nebo AVX512 zatezich to prida desitky procent. Jestli je to "malo" to zalezi na uzivateli...

+1
+2
-1
Je komentář přínosný?

Proc by mel v AVX512 pridavat desitky procent? Jako, ze vetsi cache prida desitky procent?
Neverim

+1
0
-1
Je komentář přínosný?

Věřte si čemu chcete.

Architektura x86 má jeden velký problém - dekódování instrukcí.
Pomocí různých fint, µOp chache a dalších opatření se dosaneme někam k 6 Instrukcím.
Největší výhodou AVX-512 je, že umožní zvýšit propustnost zpracování dat nad rychlost, kterou by šlo dosáhnout klasickými instrukcemi.

A pak je potřeba tam ta data dodat.

Smotné AVX-512 pomáhá.
Velká cache pomáhá.
Ale synergický efekt použití obou zároveň ... desítky procent dá.

+1
+2
-1
Je komentář přínosný?

Prave jsem tomu uveril...
Mozna by misto viry v teorii, bylo lepsi dat ty 'desitky a desitky procent" nekde v namerenych programech. Pak bychom nemuseli verit, ale vedeli bychom :)
Ps: neprije ti zvlastni, ze AMD ty "desitky a desitky procent" sama pri uvedeni neuvadi, polud by to takto fungovalo? Ze by misto nejdelsiho pindoura v grafech +13% mela treba +35 nebo 45%..
;)

+1
-1
-1
Je komentář přínosný?

L3 Cache se používá podobně jako RAM.
Slouží pro všechny spuštěné aplikace.
Spuštěných aplikací mám hodně.
V dávných dobách jednojádrových jsem si všimnul že aplikace spící na pozadí mi bere výkon CPU. Jak je to možné?
RAM jsem měl dost a výpočty dělala jen jedna aplikace.
Jediné vysvětlení bylo že spící aplikace žere cache. Po ukončení a někdy až po restartu se cache uvolnila a já měl opět plný výkon.
S příchodem víc jader problém zmizel protože každé jádro má vlastní L2.
Dnes se problém přesunul do L3.
V-cache může zrychlit multitasking.
Jenže v naměřených programech se to neprojeví. Protože snahou každého testera je omezit vliv ostatních aplikací.

+1
+3
-1
Je komentář přínosný?

>> Mozna by misto viry v teorii, bylo lepsi dat ty 'desitky a desitky procent" nekde v namerenych programech.

Doporučená literatura: phoronix.com

+1
0
-1
Je komentář přínosný?

Vira tva sily ti dodava :)
.. mne by zajimalo, jestli jsi je jako zdroj v prve rade videl sam a nebo jen s Franzzem ostatnima fabulujes, protoze je to zabava.
Phro ma par testu, ktere sedi X3D cachim. Ale je to "par testu'. Prumerem je x3d varianta par procent nad ne-x3d. Co z toho normalni logikou (pokud clovek nefabuluje) muze vyplyvat, ze v idealnim pripade u idealnich testu to prida mozna podobny narust jako mezi nonx3d a x3d. Mozna. Vyplyva z toho tvrzeni, ze avx512 bude prumerne rust o desitky procent...tezko.

+1
-1
-1
Je komentář přínosný?

Napiš rovnou, že si to neumíš najít.

+1
-1
-1
Je komentář přínosný?

Tak asi by byla slusnost mu dat konkretni odkaz, aby nemusel tipovat, zda nasel ten spravny.

+1
+1
-1
Je komentář přínosný?

Ja si nejsem jisty, jestli chapes na co odpovidas..v kontextu toho, jak ta debata vznikla :)
A napisu to znova.. pokud by 9950X3D2 v nejakem sirsim spektru aplikaci, typu aplikaci a podobne, dosahovala +2x,3x,4x% ("desikty procent")..oproti tomu, co AMD uz v portfoliu ma, fakt si myslis, ze by to AMD neuvedla a misto toho dala +13% (MAX) do svych slidu...

+1
-1
-1
Je komentář přínosný?

Treba AMD neni Intel. A diskuse neni o sirsim spektru aplikaci, ale o tom, ze nejake aplikaci to muze jooo sednout. A ja si takovou aplikaci dokazi predstavit. Treba Kontakt (sampler), ktery muze pouzivat hodne velke samply, nebo treba Reaktor, kde si pak developer muze dovolit mit v cache presnou tabulku s prubehem ruznych funkci.

A urcite z velke cache mohou profitovat i jine programu.

A neni to o tom, ze se neco zrychli o 10%, je to o tom, zda to pouzitelne funguje nebo ne. Proste, pokud se dana vec nespocita vcas, tak je to na nic. Vse musi byt spocitano v realnem case.

+1
+1
-1
Je komentář přínosný?

aneb kdyz nemam odpoved, nejakou si vymyslim :))

+1
-1
-1
Je komentář přínosný?

Stačí si ověřit, kolik instrukcí dokáže za takt dekódovat. Ale taky se zamyslet nad tím, že x86 je typicky složena z více mikroinstukcí než jak tomu je u RISC. Takže skutečné hrdlo všech CPU je ve schopnosti správě přerovnat a rozdělit ty mikroinstukce, aby byly výkonné jednotky co nejlépe využity. A SIMD využívají naprosto všechny moderní výkonné architektury, ostatně SIMD i multithreadig i schopnost out of order jsou techniky ještě z dob mainframů superpočítačů před vznikem mikroprocesoru.

+1
0
-1
Je komentář přínosný?

Nejen AVX-512, ale obecně mnohovláknové výpočty mají problémy se škálováním na vysoké počty jader, protože narazí na propustnost dvoukanálových pamětí na desktopu. Jádra a jednotky by mohly chroustat, ale nemají co, protože nestíhá téct dost pracovních dat z RAM do jader a z jader se výsledky nestíhají lifrovat zpět do RAM. Výsledek že jádra nepojedou naplno.
AVX-512 tím může být postižené ještě víc proto, že zvyšuje výpočetní kapacitu, kterou by jádro mohlo vyvinout, kdyby tohle nebyl problém a výpočty běžely na datech co se vejdou či stíhají plnit do L1 cache a registrů. Projeví se to tak, že to ukáže hezký nárůst výkonu v 1T, ale nepohne to s MT výkonem, protože ten je zastropovaný propustností RAM.

3D V-Cache by v tomhle případě mohla pomoct výkonu stejně jako to dělá Infinity Cache u grafik. Za předpokladu, že dostupnost větší L3 cache dovolí udržet v ní tolik opětovně používaných dat, že se vyeliminuje část toho provozu do RAM. Pokud spuštěná úloha je taková, že se významná část výpočtů změní z režimu data v RAM -> AVX-512 kód -> RAM na L3 Cache -> AVX-512 kód -> L3 cache (s tím, že je pak kód znovu zase použije a ne jen pošle dál do RAM), tak se může dostavit zajímavý nárůst výkonu.

+1
0
-1
Je komentář přínosný?

Jenže v běžném kódu nejsou vektorové instrukce tak nahusto, jsou tam i logické operace na ALU, řídící běh, instrukce pro datové přenosy... Žádný reálný SW nejede ani z víc jak 50 % na SIMD. A zpracování není průtokové, není to Load / SIMD a hned Store. To by ty procesory musely být řešené úplně jinak.

+1
0
-1
Je komentář přínosný?

To ale nezaručuje, že to nemůže být bottleneckováno propustností DRAM, když jede optimalizovaný kód na 16 jádrech...
(Edit: Není to samozřejmě něco, co se musí týkat všech aplikací. Ale některých jo a je to důvod, proč AMD s tou 3D V-Cache přišlo, nebo proč Intel vymýšlel ty Xeony s HBM2).

+1
+1
-1
Je komentář přínosný?

AMD na ZEN4 mělo EPYC pro Microsoft Azure - 96 jader 4 GHz a HBM2 - reálně tam byl vypnutý MT a jelo to jako 88 jader - to souvisí s SW, opravdu peklostroj. Takže když je potřeba, udělat to jde - jinou věcí je cena. Musí to být opravdu potřeba, aby se to vyplatilo. EPYC 9V64H se to jmenuje a umí 6,9 TB/s.

+1
0
-1
Je komentář přínosný?

Dotlac realny vysledky na realnych programech, kde ty "desitky procent" naskacou oproti 9950X a 9950X3D v AVX512 zatezich. Jeste k tomu v prumeru.. Tyhle "realne teorie" jsou krasne. Nicmene v silne TEORETICKE rovine...

+1
-2
-1
Je komentář přínosný?

Proc v prumeru. Muze to mit pro nekoho vyznam v pripade jedne jedine aplikace, pokud v ni intenzivne pracuje. Treba.

+1
+2
-1
Je komentář přínosný?

Treba, protoze vlakno je o nejakem topicu, topic mluvi o necem a ty do toho plantas to, co se hodi tobe a co je mimo topic. To si rovnou muzes povidat s Ladikem :)

+1
-1
-1
Je komentář přínosný?

Nemali hry s R9 9950X3D problémy kvôli tomu, že hra preskakovala na druhý chiplet? X3D2 to vyrieši.

+1
0
-1
Je komentář přínosný?

Neměli.
Problémy má 9900X a 9900X3D v situacích kdy nestačí 6 jader.
9950X3D může mít teoretický problém v situaci kdy hra využije víc než 8 jader.
Jak často taková situace nastane se dozvíme z testů. Jediné testy které máme jsou ty od AMD. Podle nich to vypadá že herní přínos nestojí za řeč.

+1
+1
-1
Je komentář přínosný?

Ide o scheduler, nie o počet jadier. OS priradí hru len a len 1. chipletu?

+1
0
-1
Je komentář přínosný?

Latence mezi CCD <=> CCD jiz AMD poresila(snizila) a to vydanim noveho mikrokodu a rovnez ovladaci, ja problem v Ryzen-u 9 9950X3D2 tedy nevidim, samozrejme jeho vykon vypilovanim dal poroste, k tomu kto bude chtit efektivnejsi beh, nastavi si prece negativny offset na curve optimizer v PBO v rozmezi -20 az -30 a nebo zvoli ECO mod, pujde tak o produkt s kterym clovek hrave vydrzi az do mikroarchitektury / generace Zen 7, 16 jader(32v) + velka L3 cache a takty sahajici ke 6GHz...

+1
+4
-1
Je komentář přínosný?

vazeni - vsetko je to o specifickom nazadeni !
pozrime sa na luskanie mersennovych prvocisel v Prime95

sustredme sa na 8M FFT size:

Ryzen 9 9950X3D : 774 it/s
https://www.mersenne.ca/benchmark/AMD/Ryzen_9/Ryzen_9_9950X3D

Ryzen 9 9950X : 454 it/s
https://www.mersenne.ca/benchmark/AMD/Ryzen_9/Ryzen_9_9950X

Ryzen 9 7950X3D : 728 it/s
https://www.mersenne.ca/benchmark/AMD/Ryzen_9/Ryzen_9_7950X3D

Ryzen 9 7950X : 422 it/s
https://www.mersenne.ca/benchmark/AMD/Ryzen_9/Ryzen_9_7950X

proste pri luskani mersennovych prvocisel v Prime95, su modely s 3D cache cca o 70% rychlejsie !!!!!!
(vzdy uvazujem so 16-jadrom kde 3D cache bola na jednom chiplete)

tipujem ze X3D2 bude 2,0x-2,2x (t.j. o 100% az o 120%) rychlejsi v luskani mersennovych prvocisel v Prime95 v porovonani s non-3D modelmi

vazeni, tu ide o to ze luskat mersonove prvocisla na VGA (v GPUowl programe) ci hladat delitele na VGA (v mfaktO programe) bude na 16C32T CPU 9950X3D2 UPLNE POROVNATELNE s vykonom na VGA RX 7900XT(X) ... a to uz je riadna sila .... proste otestovat exponent v oblasti 140-150 mega (kde su dnes prve testy), bude na 9950X3D tiez trvat 2,5 dna cisteho vypoctovejho casu (rovnako ako na grafike)

+1
+2
-1
Je komentář přínosný?

> proste pri luskani mersennovych prvocisel v Prime95

No jo. Ale hadam ze "luskani mersennovych prvocisel" konkretne asi neni zatez, ktera by zajimala velkou cast zakazniku. Je to spis benchmark nez neco uzitecneho.

Spis jde o to, ze ta velka L3 pomuze vsude tam, kde se dela nasobeni velkych matic nebo vektoru, jako treba AI inference, nebo jine AVX512 vypocty. Tam to IMO zvedne vykon klidne o desitky procent. Ten duvod je jednoduchy, staci si udelat maly vypocet:
1) rekneme ze mas DDR5 o propustnosti 64GB/s
2) pri 16 jadrech to vychazi na 4GB/s na jadro
3) pri konzervativni 4GHz all-core frekvenci to vychazi na 1byte / cyklus.

Tj pri plnem zatizeni CPU muze jedno jadro udelat jeden AVX512 load/store z/do DDR5 kazdych 64 cyklu. Kdyz si vemes ze Zen5 jadro umi 2x FMA + 2x FPADD kazdy cyklus, za 64 cyklu to dela 256 instrukci. Vysledek je, ze abys plne vytizil jadro Zen5 s AVX512, musis na kazdy jeden DDR5 AVX512 load/store udelat ~256 instrukci. Absurdni, ale je to tak. Teoreticky vykon pri vyuziti AVX512 tech 9900X/9950X Zen5 se pohybuje kolem 2-5 TFLOPS, problem je vzdy pamet.

TLDR: L1/2/3 cache hraje dnes extremne velkou roli ve vykonu procesoru, hlavne pokud chce clovek naplno vyuzit jeho FP jednotky.

V nekterych hrach to muze pomoct taky, treba BeamNG.drive, Factorio, kde bezi na pozadi AI nebo simulace, ale to jsou spis vyjimky.

+1
0
-1
Je komentář přínosný?

jo, ved preto pisem, ze pri specifickyxch kejsoch kde na velkej L3 cache zalezi a kde sa data zmestia do tej L3 cache, resp. ma relevantnu velkost (a o kejsoch o ktorych BFU prakticky ani netusi), vykon 9950X vs. 9950X3D2 stupne ani nie ze o desiatky percent, ale 2-nasobne

(napr. v tom Prime95 vyhoda 9950X3D2 vs. 9950X konci pri 12M FFT size, vsetko nad je uz nad moznosti tej 3D cache, takze exponenty v rozsahu 332 mega (miliarda-cirefne mersonnove prvocislo) pojdu rovnako ako na bez 3D cache ...)

+1
0
-1
Je komentář přínosný?

aaaaaa pardon - exponent v range 332 mega = 100 milion ciferne mersonnove prvocislo

+1
0
-1
Je komentář přínosný?

Reálně to ještě záleží kolik výpočtů se s každým operandem provede, ty zátěže kdy jádro načte data, provede jeden výpočet a hned lifruje výsledek, jsou dost vzácné. Spíš by se na to hodil DSP nebo rovnou GPU. Ostatně x86 přece ani akcelerátor matic nemá. Jediný o kterém vím, je Power a asi i Telum, ale třeba se pletu.

+1
0
-1
Je komentář přínosný?

Top End přece nikdy neni pro každého.

+1
+3
-1
Je komentář přínosný?

Veď to nie je nič extra drahé. Ak niekto náhodou potrebuje pracovné PC s RAM viac ako 64GB, tak cena za CPU ho nebude vôbec trápiť. Ale DDR5, ktoré už mimozemšťan ponúka na splátky, to je fakt chuťovka....

+1
+1
-1
Je komentář přínosný?

9700X stojí 7 300Kč
Duál edition 9950X (2*9700X-IOD) stojí 13 000Kč. IOD vychází na 1600Kč

9800X3D (9700X obohacená o V-cache) stojí 10 000.
Příplatek na jednu V-cache je cca 3000Kč

9950X3D (9800X3D+9700X-IOD) stojí 16 000Kč což odpovídá tomu že IOD stojí 1300Kč.

9850X3D stojí 11 600Kč
9950X3D2 dual edition (9950X3D+V-cache nebo 2*9850X3D-IOD) ≈ 20 000Kč tedy $999

AMD má portfolio poskládané z IOD, CCD a V-cache.
Doteď se prodávali všechny kombinace až na jednu. Tu nejvyšší.
Teď je nabídka ucelená. Dává smysl.
Má logiku. Vychází to i cenově.
Prostě jsou na trhu všechny kombinace a zákazník si může vybrat. Záleží jen na něm kolik utratí. Za svoje peníze dostane odpovídající produkt.
To že přínos je jen pár procent a příplatek se nevyplatí je problém botlenecku který leží mimo CPU.

+1
+1
-1
Je komentář přínosný?

HAHAHA, a kde je teraz ten exot, ktorý tvrdil, že to nevydajú, lebo ich netlačí konkurencia, a ešte sa bol ochotný aj staviť? Na každého tu bol hustý a tvrdil, že vydanie neprichádza do úvahy. Každému sa vysmieval a písal, že nechápe trhové pravidlá. Úprimne by som rád videl jeho výraz, keď tento procesor oznámili. Mne jeho názor nevadil – na to diskusia je. Vadila mi tá arogancia a istota, s akou to prezentoval.

+1
+3
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.