Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k 105W dvoukanálový Ryzen 9 5950X rychlejší než 280W osmikanálový Threadripper PRO

Zaujimalo by ma, ako by JirkaK napisal tento clanok..

+1
+6
-1
Je komentář přínosný?

co pak nejaky jirkak, ale jak obr
to by bolo kecov a kydov a verdikt: no wono je to vlastene ubohe, je to sklamani

+1
+6
-1
Je komentář přínosný?

Obr o nových Ryzenech nic psát ani dělat nebude. To jeho čeření vody nepočítám, za to co nedávno předvedl by si zasloužil 20 ostrejch nejen od čtenářů, ale i od prodejců, které si vzal do huby.Obr a testy? To by mu musel někdo půjčit hodně osekanou B450 a RAMky z Aliexpressu :D

+1
+5
-1
Je komentář přínosný?

Veď už kecy o cene napísal. Našiel akýsi neznámy obchod so zverejnenými cenami a poukázal na to, že Zen 3 bude drahší o niekoľko tisíc (u 8jdadra o 5609 Kč). Dnes už suntech ceny neuvádza :D.

+1
+6
-1
Je komentář přínosný?

Suntech je jeden z mensich obchodu, ktery sidli v Praze. Ja jsem u nej parkrat neco koupil. Z meho pohledu normalni shop. Kde vzali ty ceny, co si Zlobr vypujcil, netusim..

+1
+2
-1
Je komentář přínosný?

To klidně mohly být jen placeholderové ceny, nic více.

+1
0
-1
Je komentář přínosný?

A teď si představte až vydaj 64 jádrový TR na ZEN3. Weeeeeeeee!!

+1
+4
-1
Je komentář přínosný?

>Jak přesně Infinity Cache funguje, se teprve dozvíme, detaily implementace a využití
>ve streamu popsány nebyly. Zmíněna byla jen jistá inspirace u L3 cache Zen 3

>Infinity Cache v kombinaci s 256bit GDDR6 sběrnicí umožňuje AMD dosahovat více >než dvojnásobné paměťové propustnosti oproti 384bit GDDR6 sběrnici, přičemž
>energetické nároky tohoto paměťového řešení jsou o 10 % nižší než 384bit GDDR6
>řadič / sběrnice.
https://diit.cz/clanek/amd-uvedla-radeony-rx-6000-128mb-infinity-cache-1...

2,17*384/256=3,255 Teda v GPU dokáže Zen3 style Infinity cache zvášiť dátovú priepustnosť TRI A ŠTVRŤ NASOBNE

Vs článok:
>Přes tyto výhody na straně Threadripperu dosahuje Ryzen 9 5950X o 8,1 % vyššího
>výkonu. AMD se podařilo architekturou více než vykompenzovat deficit v podobě 4×
>nižšího počtu paměťových kanálů
https://diit.cz/clanek/105w-dvoukanalovy-ryzen-9-5950x-rychlejsi-nez-280...

Ak sa top bude škálovať podobne aj pri 8 kanálovom radiči Zen3

Tak buide mať pri osemkanálovom zapojení tok dát na úrvni 26 kanalového zapojenia bez Infinity cache

3,255*8=26,04

A to sa nečudujem (česky nedivím), že o Epyc Milan so Zen3 s Infinity Cache je väčší záujem z podľadu uvedneia na trh modelov s ním ako pri Epyc Rome so Zen2 bez Infinity cache..

Ak tam nie je bezpečnostná chyba ako v prediktoroch.... Lebo vypnutie Infinity Cache bude mať dôsledky pre istý typ úloph asi ako má vypnutie prediktorov (-78% a -93% výkonu CPU) pre na predikciu citlivé úlohy

Google Engineer Shows "SESES" For Mitigating LVI + Side-Channel Attacks - Code Runs ~7% Original Speed
on 21 March 2020

As we outlined when benchmarking the GNU Assembler mitigations for LVI, the software mitigation impact can be quite significant. The assembler work is adding an LFENCE barrier instruction around loads, indirect branches, and RET instructions. The tests on Kabylake found that the mitigated performance overall was about 22% that of the performance without the LVI mitigations.

While performing at just ~22% the original performance is already a brutal hit, an LLVM mitigation proposed by a Google engineer in working to avoid LVI and other side-channel vulnerabilities in one of her tests saw just ~7% the original performance based on the geometric mean
https://www.phoronix.com/scan.php?page=news_item&px=LLVM-SESES-Mitigatin...

+1
0
-1
Je komentář přínosný?

Ve vašich příspěvcích se neorientuje jednoduše.

Každopádně na srovnání fugování Infinity cache v GPU a u Epycu jsem poctivě zvědavý taky.

+1
+4
-1
Je komentář přínosný?

Ufff... tak to je zase snuska nesmyslu. Navic tak dlouhe. Nemate pribuzneho Babise? To je jak to jeho "cau lidi", stejna vypovidaci hodnota, stejne dogmatismy.

Delate katastrofalne spatny zaver. I$ v Radeonu si bere lehkou inspiraci ze Zen3, ale ne tak jak myslite. Mohli by rici, ze si berou inspiraci obecne z CPU sveta jak tam funguje L3 sdilena cache, ale proc by si Lisa nemohla krapet vice prihrat polivcicku, ze? :) To je proste zaklad dobreho marketingu. Nelze, jen prikrasluje zlehka a posiluje hype na spojeni Ryzen + Radeon.

Rozhodne to neimplikuje nic o tom, ze L3 v Zenu je naka bozska. Prosla normalne znamymi upravami, nic svetoborneho. Ale v kombinaci se zbytkem Zen3 to pomohlo odstranit nektera uzka hrdla atp.

Zatimco v GPU svete je 128mega cache, ke ktere maji pristup vsechny exekucni jednotky velka zmena, a pomaha to odstranit uzka hrdla, tak ve svete CPU to nic prevratneho noveho neni. Samozrejme ze to pomuze, ale je naprosto zjevne, ze CPUMark neni benchmark, ktery by dokazal vyuzit 8 kanalove rozhrani. Takze protoze ten narust vykonu je zpusoben proste lepsimi jadry. Vyssi frekvence, vyssi IPC.

A tech 26 kanalu, to je vypocet tedy, slusnej matros.

+1
0
-1
Je komentář přínosný?

Pri Infinity cache ide o prediltivtu načitania do nej (nie o kapacitu) čím zvyšuje effective bandwidth a zráža latencie 3,25x a to urobí aj CPU(ak bude mať kapacitu dostatočnú)

+1
+1
-1
Je komentář přínosný?

Sice nevim co je "prediltivtu" ale hadam, ze jste myslel prefetch. Cili predpovidani co se bude potrebovat a tak se to nacita do cache v predstihu.

Opakuji, tohle neni zadny novy koncept. Tohle je zakladni funkcionalita cache. Redukce latenci tim, ze se z pomalejsi pameti nacita do rychlejsi drive, nez je to potreba, cimz dojde ke zrychleni, kdyz ten pozadavek skutecne prijde. O tom ty cache jsou pane.

Navic v clanku o Radeonu bylo jasne zmineno, ze ta cache neslouzi k predcitani, ale k "pracovní (operační) buffery."

Je tedy zrejme, ze se v pripade I$ Radeonu jedna o odkladiste. Data se tam sypou a pac je hodne (na pomery GPU) velika, nemusi se to cpat do VRAM a tim padem to zrychluje hromadu beznych operaci, cimz padem setri tu sirku pro nacitani velkych objemu dat, jako treba textury. Cimz efektivne stoupa rychlost prenosu, kdyz se vezmou obe veci spolecne.

Posledni poznamka. Samozrejme ze velikost (kapacita) hraje velikou roli. Mala cache musi byt velmi agresivni co se tyce toho co nacita. Nemuze si dovolit nacitat veci kolem, musi se dost dobre trefovat. Cim je kapacita vetsi, jsou naroky na spravnost vyberu (fetche) nizsi a vice dat "kolem" se muze natahnout. Nevyhoda je, ze vetsi kapacita znamena bezne i vyrazne vyssi spozdeni (latence).

+1
0
-1
Je komentář přínosný?

predikcia nie princíp cache (to je odkladanie práve použitých dát na použitie za "malú chvíľu". Áno dnešné cache majú prediktivne načítanie(fetch) ale Infinite /Infinity je o úspešnoti tej predikcie nie o "kapacitnej rezerve" napr. v podobe riadkov cache.

+1
0
-1
Je komentář přínosný?

Tohle je definice Cache:
https://en.wikipedia.org/wiki/Cache_(computing)

Cache nefunguje JEN jako odkladiste. To si spatne pamatujete/vykladate. Cache slouzi jako pamet, skrze kterou tecou data. At uz primo skrze, coz znamena, ze se natahnou z pomalejsi pameti a pak zrychluji system tim, ze se nemusi do ni sahat, to je ten pre-fetch.

A nebo slouzi k odkladani dat, ktera se porad pouzivaji.

Predikce, prefetch je jeden ze zakladnich veci, ktere cache potrebuji aby plnili svou roli v CPU svete.

A ted doslova z AMD white-paperu o I$ v GPU svete:
"We propose shared L1 caches in GPUs. To the best of our knowledge, this is the first paper that performs a thorough characterization of shared L1 caches in GPUs and shows that they can significantly improve the collective L1 hit rates and reduce the bandwidth pressure to the lower levels of the memory hierarchy."

Vidite zcela jasne, ze to neni nic jineho, nez to co je v CPU svete zname uz dlouho. Cili jak jsem rikal, I$ neni zadna bozska cache, naprosto normalni sdilena keska. V GPU svete to je mozna novinka, pri spravne implementaci vyrazne zvysuje vykon, ale tohle je clanek o CPU, takze vas argument, ktery jste sem prinesl, je uplne spatny.

Uspesnost cache je primo umerna tomu, co kolik si muzete dovolit nacist, cili jakou ma relativni kapacitu. Neni to jediny parametr, ale je dulezity. A takhle velka (opakuji ohromna na pomery v GPU svete), sdilena "L1" cache v GPU prinasi podle AMD 22-52% vykonu navic, pri az 49% uspore energie (nejspis mineno pametoveho subsystemu).

Jenze tohle je clanek o CPU, specificky o tom, ze v jednom benchmarku je novy, 2kanalovy Ryzen rychlejsi, nez 8kanalovy predchudce. Ja tvrdim, ze to je hlavne proto, ze tenhle benchmark nedokaze zatizit to CPU vhodnymi ulohami, kde by tech 8 kanalu zazarilo. Naopak tim, ze novy Ryzen je rychlejsi o cca 20-30%, dokaze se pred nej dostat.

+1
-1
-1
Je komentář přínosný?

v originále minimálne do K5 / Pentium tam cache prefetch nebolo

+1
0
-1
Je komentář přínosný?

K5 mela hlavne 16KB L1 instrukcni kesku, takze je jasne, ze "instrukce" z RAM nacitat ani nemohla. Navic mela dohromady 24KB, takze se tam ani poradne nic neveslo.

Pouzijte mozek ve svych argumentech.

Opakuji jeste jednou. To co je Infinity Cache neni zadny novy, radikalni, ani skvely system. Je to naprosto bezny (po desitky let) znamy koncept.

+1
0
-1
Je komentář přínosný?

Myšlenka je stará, ale konkrétní implementace je velmi inovativní

+1
0
-1
Je komentář přínosný?

Nekonečná vyrovnávacia pamäť (Infinite cache)
je taký systém cache, ktorý má 100% cache hit.
Pre každý cache miss bez infinity cache to dá pre Zen+ 69,5x vyšši výkon
(1-CMR)*1 + 69,5 CMR = 3,25
1 + 68,5CMR = 3,25
68,5 CMR = 2,25
CacheMissRate= 2,25/68,5= 0,03285

Ak originálna cache mala 3,285% miss teda 96,715% cache hit a nová má 100% cache hit, tak zrýchlim tok dá cez CPU 3,25x pri Zen+. Čiže prediktivny mechanizmus, ktorý mi zabezpečí, že potrebné dáta sú už v cache je mega zrýchľovač (vačši by bol len taký, ktorý dá dáta na internú zbernicu CPU alebo do registrov(samozrejme do správnej sady registrov pri ich premenovávaní)

Zen ... Zen+.
L1 ? cl 1,1 ns ? ? ? cl 0,95 ns (-13 %)
L2 17 cl 4,6 ns 12 cl 11 cl (?) 11 cl 3,0 ns (-34 %)
L3 39 cl 11 ns ? ? 30 cl 9,2 ns (-16 %)
řadič ? cl 74 ns ? ? ? cl 66 ns (-11 %)

https://diit.cz/clanek/latence-cache-zen-ryzen-2000

+1
0
-1
Je komentář přínosný?

Infinity nebrat doslova. Je to marketingove spojeni.

Kde mate zdroj vasich cisel, speficicky "Ak originálna cache mala 3,285% miss teda 96,715%"?
A kde mate zdroj, ze I$ je 100%?

Jako vzdy placate hovadiny. Clanek z DiiT, ktery linkujete nerika nic o "CMR", ale je o latencich. Dve uplne jine veci.

Lobotomii a vypolstrovanou celu pro vas :D

+1
-2
-1
Je komentář přínosný?

práveže to súvisí. latecia vyššieho stupňa csche sa uplatní len pri cache miss. A áno bral sondo úvahy len L1 cache, ake skutočný odborník neuráža.

Zjavne máte problém pochopiť, čo Vám píšem.

ja nikde netvrdím, že originál cache mala 97% cache hit, ale to, že ak by infinity bola ideálna a teda mala 100 % cacje hit, tak by stačilo, aby stará cache mala cache hit 97% a CPU by prešlo v prvom priblížení len 100/325 dát len z dôvodu latencie radiča RAM.

Teda píšem, že malý nárast cache hit rate zvýši priepustnosť pamäťového systému radikálne.

+1
+2
-1
Je komentář přínosný?

1) Mate problem neco vubec rici, natozpak neco smysluplneho. Pletete tuny blbosti dohromady, delate silene dlouhe posty, opakujete vecne stale stejne informace, ktere jsou jen "flavor". Napr. casto spamujete dlouhe posty o tom, jak dlouho trva AMDecku od finalniho poslani navrhu k dostupnosti v distribucnich kanale.
!!! Musite zacit u sebe. Nevim proc bych mel tolerovat kraviny.

2) Latence je prodleva mezi pozadavkem a vyrizenim. Je primo umerna velikosti/organizaci kesky. Cim mensi je keska, tim rychleji se ziskaji data z ni.

3) To ze jste tam zatahl a dal velky duraz na spozdeni (latence) ukazuje, ze se nedokazete dobre vyjadrovat a predavat informaci. Chtel jste nejspis rici, ze cim presneji se trefi do potrebnych dat v kesce, tim casteji se pouzije prava ta keska, a je ji spozdeni. A kdyz se netrefi, tak se musi jit do vetsi kesky (a nebo treba az uplne do RAM) a to spozduje system.

Jenze to je naprosto zrejmy koncept, ktery stacil rici jen jednou vetou.

Navic kdyz se nad tim zamyslite, tak si protirecite. Prvne rikate o Infinity Cache, jaky je to mega zrychlovac (pominu, ze se z nejakeho duvodu upinate k anglickemu slovu "infinite" a neresite, ze je to jen marketingove slovo a nemate zada data specificka prave pro I$) a pak ukazujete tabulku, kde ty latence byly zlepseny upravami kesky, nikoli predvidaciho algoritmu. Takze snizujete prave vahu toho co jste psal v prvni casti.

Proste a jednoduse...

Latency = spozdeni, nez se pozadavek na data/instrukce vyridi a dana data/instukce je procesu k dispozici.
Pre-fetch = system prednacitani dat.

Aby pre-fetch fungoval dobre, je potreba mi dobre "predvidaci" algoritmy. Zaroven pokud neni keska dost velka, tak ani sebelepsi predvidac neudela zazraky. Ale obecne plati, ze cim lepsi predvidac, tim lepe je ta keska vyuzivana. Kazdopadne ani "Infinity cache" neznamena, ze se vzdy trefi. To chapate spatne. Dulezitou soucasti I$ ale VELIKA, sdilena L3 keska u CPU a velka sdilena L1 u GPU (protoze tam doposud takovy koncept nebyl, L1 kesky meli ty bloky samostatne, nesdilene).

A na to ze "ak" na to se nehraje. Navic ten maly narast je osemetny termin. Pokud mate malou kesku, a trefujete se jen v 50% predpovedi, tak i male procento je relativne velky bonus. Pokud mate ale obri kesku a mate 95%, tak dalsich par procent uz neprinese tak velky bonus. A samozrejme jako vzdy, zalezi na uloze.

Proto ta I$ v GPU svete je tak velka vec. GPU tohle nemelo, ta keska je na pomery sveta GPU ohromna a navic v GPU svete jsou ty vypocty velmi dobre paralezovatelne, predpovidatelne, cili tam to dokaze mit velky uspech.

Ale tenhle clanek - opakuji uz po Xte - je o CPU svete. A cache v Zen2 nebyla nijak tragicka a v Zen3 sice dostala zlepseni, ale neni to tak radikalni zlepseni a skrze vsechny ulohy. Nekde to byl problem, tak to zlepseni je, az nakych 25% (protoze Lisa ukazovala, ze v idealnich pripadech je Zen3 az o 50% rychlejsi nez Zen2, ale z tech 50% je potreba vzit v uvahu obecne vetsi IPC, frekvenci a dalsi drobne upravy).

Nicmene porad to nevysvetluje, jak by mohl Zen3 takto vydrtit 8-kanalovy Zen2. Jedine mozne vysvetleni je, ze tento benchmark nedokazal vytizit 8-kanalovy Zen co se tyce pametoveho subsystemu, takze se neprojevil tenhle aspekt a Zen3 diky vylepseni dokazal prekonat Zen2.

+1
0
-1
Je komentář přínosný?

"Jedinou výjimkou je Ryzen 9 5950X, který byl vydán za $749 a nyní stojí $709,99"

Predpokladam, ze jde o 3950X a ne o 5950X.

+1
+9
-1
Je komentář přínosný?

I kdyz intelovo L4 eDRAM v nekterych cpu melo kapacitne stejne jako InfC$, tak je videt jak to neschopne implementovali - aneb kdyz dva delaj totez, nevede to vubec na stejny vysledek :)

Uvidime jaky ta cache bude mit realny prinos - napr. pri kompilaci vetsich sw, pri praci s vetsim datasetem - protoze ne vsechno se vejde do 128 MiB. K technologiim, ktere slibuji zazraky pod specifickymi podminkami se je treba stavet trocha konzervativneji.

+1
0
-1
Je komentář přínosný?

Ta infinity cache me celkem zajima. Vic mi prijde, ze je to spis v duchu L2 nez L3 a nebo dokonce L4.
Snad se uvidi, jak je to udelane.

+1
0
-1
Je komentář přínosný?

Muj tip je, ze to cachuje derave stranky - tj. zatimco u bezne cache muzete mit 4 nebo 8 zaznamu (v delce 64B) pod jednim klicem, ktery tvori adresa stranky, tak zde bych ocekaval ze se vejde 32Ki stranek (o velikosti 4 Ki), s tim, ze pri miss se nactou rovnou 2 (nebo vice) cachelines (2x 64B), a pak urcity pocet cteni z te druhe naplanuje prefetch te treti cacheline.

Ono to zrejme bude tak jako tak fungovat na bazi toho, ze pameti jsou cim dal tim rychlejsi (interne sirsi v DRAM cipu) pro burst, ale latence se nemeni. Tj. dava vetsi smysl nacist hodne dat, kdyz uz jste cekal tak dlouho na jejich vybaveni. Prakticky nam stouplo CL nasobne, zatimco BL zustava na 8, takze namisto prenosu ramky jenom hledaj data. Vetsi cache a vetsi cacheline tenhle stav narovna.

+1
0
-1
Je komentář přínosný?

Tezko rict. Predictive caching je ucinne, ale zaroven vytezuje sbernici, kvuli relativni nepresnosti a zahazovani neuspesnych odhadu. Ta sbernice je s GDDR pameti porad jen 256 bitu siroka.

Co se tyka odezvy a nacitani celych pametovych bloku, tak to urcite pomuze a burst rezim potlaci dlouhe latence GDDR. Bude to sice hodne opsazovat tu pamet, ale prinos tam bude urcite. Otazkou je jestli 3 a nebo 30%. To bude zrejme zalezet na typu zateze.
Vetsi rozliseni a vyssi detaily 3D enginu dnes ale pozdaji pomerne velke mnozstvi dat, ktere v techto blocich bude mit pozitivni prinos.

V minulosti jsem tipoval framebuffer sestavovany z I$, coz umozni nakrmit efektivne ROPs a snizit objem dat. Tam ten posun bude urcite. Souhlasim s tou myslenkou (ne mou), ze finalni framebuffer bude v GDDR.
K tomu se da pracovat i klasickymi presuny dat v ramci vypocetnich jednotek a pouzivat tu pamet jako velkou L2 cache. I tady bude posun znatelny.

V realu to bude zrejme kombinace vice faktoru a to jak Burstu, tak velke L2 stejne tak jako pre-processing bufferu pro ROPs.

Me tipy nejsou presne, ale klidne 25% IPC to prinest muze na GPU o stejnych parametrech, jako u predchozi generace. Jsem zvedavy na porovnani 5700XT a 6700, ktere by meli byt celkem podobne. Hlavne srovnani na stejnych frekvencich.

+1
0
-1
Je komentář přínosný?

Ja uvazoval o te cache z pohledu nasazeni v CPU (zen3).

Pro GPU je predikovatelnost snazsi - kod, ktery tam bezi je prelozen z nejakeho intermediatu (u NV je to PTX, predpokladam u AMD podobny pristup) a lze na nem udelat analyzu - co kdy bude potrebovat - takze prefetch hint se da doplnit jeste pri prekladu na konkretni GPU.

U renderovani grafiky si netroufam hodnotit zpusob prinosu, neni to moje oblast - ale z pohledu na prenosove kapacity GDDR6 - az 16 Gbit/s, je to ta sama potiz jako u cpu RAM - pomer latence a rychlosti se meni k horsimu pro nahodne pristupy, takze zrejme by to mohlo deinterlacovat pristup k texturam - na kazde "prepnuti" (seek) pripadala znatelna latence, takze s vetsi cache to muze prednacitat vice.

FB v I$ .. to me prijde jako zbytecnost, protoze rendering jde vesmes ve write-only modu, takze to muze tlacit ty spojene zapisy nekam. Ten sirokej pristup do I$ spis naznacuje vyuziti pro RO textury, ze kterych se pouziva vicero dat a v nahodnem smeru (dle geometrie).

Nechme se prekvapit, a uvidime zda mel nekdo tu vesteckou kouli funkcni :-)

+1
0
-1
Je komentář přínosný?

> Pro GPU je predikovatelnost snazsi - kod, ktery tam bezi je prelozen z nejakeho intermediatu (u NV je to PTX, predpokladam u AMD podobny pristup) a lze na nem udelat analyzu - co kdy bude potrebovat - takze prefetch hint se da doplnit jeste pri prekladu na konkretni GPU.

A jak se tohle lisi od kodu pro CPU ? tam si taky muzete kompilovat pres intermediate - Clang -> LLVM IR -> x86 binarka. GCC ma taky intermediate format - GIMPLE. Nevim jak ste prisel k tomu, ze intermediate formaty nejak magicky ulehcuji prefetch oproti CPU...

> je to ta sama potiz jako u cpu RAM
> pomer latence a rychlosti se meni k horsimu pro nahodne pristupy,

Tomu moc neverim. Cele fungovani GPU je prave prizpusobeno vysokym latencim soucasne s vysokou propustnosti (jak GDDR tak HBM).

Pokud ma GPU exekucni jednotky treba 64-wide, tak vetsina shaderu pobezi v blocich po 1x64 pixelech nebo 8x8 nebo podobne, a tipuju ze vetsina algoritmu pracuje se sousedicimi pixely, takze ty vygenerovane dotazy do pameti budou relativne velke, souvisle bloky (>= 128B). Navic GPU uz davno maji featuru ze pusti treba 4 "instance" shaderu na jedne exekucni jednotce, i kdyz vykonavat muze jenom jeden najednou. To je prave zpusob zakryvani latenci; pustite 4 instance v rade, ty vygeneruji 4 dotazy do pameti; kdyz prijde jeden, pustite tu instanci shaderu, a nez shader skonci vypocet, dorazi vam dalsi blok pameti pro dalsi instanci. Proste stary dobry pipelining. Coz taky znamena, ze prefetch je vam vetsinou zbytecnej - kdyz musi GPU cekat na pamet, tak proste prohodi exekuci na dalsi instanci shaderu.

IMO latence pameti u GPU nejsou problem - jenom u algoritmu ktere delaji opravdu nahodny pristup (jako RT). Teoreticky by se ta cache mohla pouzivat na nejake "mezikroky", tj aby se do pameti zapsal jen "konecny vysledek", ale problem s touhle teorii je, ze ta cache je proste desne *mala*. Tech 128M na 80 jader je hodne malo, na 4K textury taky malo. Mate pravdu v tom, ze pockame a uvidime...

+1
0
-1
Je komentář přínosný?

Rozdil v kodu pro GPU a CPU je v objemu i strukture:
*objem* - pro GPU mate (compute) shader na par KB, pro CPU mate MB/GB kodu
*struktura* - pro GPU je shader 1 funkce, ktera se nejak spusti a sem tam vetvi (byt vetveni neni prilis zadouci), pripadne vola jine funkce, pro CPU je to totalni zmet kodu vcetne JIT kompilaci, knihoven, atd.

Takze zatimco nad 1 kodem pro GPU muzete spustit kompletni analyzu a offline profiling, jak se to asi bude vykonavat - nad nekonecnou kombinaci CPU kodu v ramci OS, to udelate tezko.

Struktura GPU prizpusobena byt muze - ale jen za dodrzeni stejneho pomeru. V soucasnych GPU je pocet vypocetnich jednotek vetsi o 1 rad nez bejvavalo, zatimco sirka pameti i latence pameti zustavaj kde jsou (fyzicke limity), zvysuje se jenom pripadna rychlost pameti - ale ne dostatecne rychle, takze holt ty vypocetni bloky hladovi..

+1
0
-1
Je komentář přínosný?

Ono už 3950X byl docela TR killer. Škoda, že využití těch CPU skončilo u jedné WS desky od asusu, která ale stejně nesahá konektivitou ani po kotníky nejlevnější x399 desce. Snad přijde nějaký refresh desek s PCIe 4.0 PLX, když Microchip už prodává PLX čipy, co umí 100 linek

+1
0
-1
Je komentář přínosný?

A vy by jste si desku na 3950X za $2000 koupil, kdyz bude mit 5 x16 slotu? Nedava to totiz smysl.

+1
0
-1
Je komentář přínosný?

Masaker. Intel má v TOP 20 jen 5 svých procesorů, v průměru tak 3x dražších než AMD.
Má jediné štěstí, že u nás ve firmě musíme povinně objednávat jen DELL a ten má v high-endu s AMD jen Alienware a to zatím moc profesionálně nevypadá. Asi ho budeme muset prubnout.

+1
0
-1
Je komentář přínosný?

Kdyz on je Ryzen 9 5950X vlastne 18 jaderny procesor :-), AMD s prichodem architektury Zen III totiz povysila IPC v prumeru o 22,5%(Lisa Su odhalila Zen 3: o 19 % vyšší IPC, o 26 % lepší herní výkon), cili 2 jadra navic ke kazdemu modelu Zen III, dokazuje to i Ryzen 5 5600X ktery ukazkove predcil 3600X a osahava si 3800X:

https://diit.cz/clanek/sisoft-ryzen-5-5600x-prekonava-core-i5-10600k

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.