Diskuse k Mohou příští generace Zenu podporovat 3 nebo 4 vlákna na jádro?

DDR0 | 4. 7. 2019 - 12:49

horko těžko, po těch bezpečnostních potížích s HT by si museli být hodně jistí že to zlobit nebude.

Ondar | 4. 7. 2019 - 16:13

S HT měl problém jen Intel, ne? A když to AMD jede s 2ma, proč by to nejelo s víc...

Peter Fodrek | 4. 7. 2019 - 16:36

AMD tam má dva prediktory a to ho chráni pri SMT2
https://www.youtube.com/watch?v=rwbs-PN0Vpw&t=2246

ak tm bude mať 4 prediktory, bude imúnne voči útokom na SMT4, AMD je navrhnuté tak, že počíta s viac prediktormi, intel s tým nepočíta

a tak isto Ďalší HT problém sa týka len intelu
https://www.youtube.com/watch?v=mIKSXv0Cgjg&t=3146

Mali | 4. 7. 2019 - 21:04

Muzete prosim nalinkovat par informaci?

Neslysel jsem o zadnem konkretnim SMT2 a SMT4 utoku. Vzdy se jednalo o zranitelnost, ktera vyuzivala nezabezpeceneho pristupu k multi-threding jako obecne. Ne primo pro 2/4 pripadne 8, atp. vlaken.

To, ze AMD v pouziva separatni zasobniky a dalsi tranzistory pro predikci skoku pro kazde pripadne vlakno (nebo jestli to jen specialne neuzamyka - tady taky prosim link), to neznamena, ze by to same mohla AMD udelat i v pripade, ze by udelala SMT4+, nebo pripadne, ze by dovolila FP uplne separatni zpracovani.

Peter Fodrek | 5. 7. 2019 - 08:23

Asi ste nevideli tie videá celé.
Spectre je o tom, že sa inej úlohe zblbne prediktor a následne sa vedľajším kanálom čítajú dáta. A pokiaľ tie úlohy bežia v SMT nie je ako urobiť protiopatrenia. Ak sú ale dva prediktory nejde ten druhý zblbnúť a teda sa chyba neprejaví..

Mali | 5. 7. 2019 - 08:51

No ja to videl. Ale vy to zjevne nechapete...

Ten utok neni na SMT2 neni na SMT4 (coz je to, co jsem se ptal). Tenhle utok vyuziva slabosti multi-threding zpusobu obecne, respektive jedne implementace.

Neni mozne jen tak rict, ze AMD pro dalsi ZEN zvysi SMT na 4 a uplne zdvojnasobi veskere veci (buffery, predpovidaci logiky, dekodery, atp.). To by nedavalo moc smysl co se tyce vyuziti tranzistoru. Nerikam, ze to AMD nemuze udelat, ale pokud neudela jeste neco jineho (a pokud to necim nepodporite v diskuzi) tak je to podle me nerealne.

Zvlast, kdyz by takovy zpusob neprinesl v desktopu nic noveho (vykon, vykon/watt) a v serveru by to znamenalo vlastne mnohem vetsi chiplety, misto toho aby jich tam dali vice, nebo do jednoho chipletu vice jader.

tomas-marny_1_2_3_4 | 4. 7. 2019 - 23:49

tak to je v poho že je problém s HT,a se SMT žádný není,AMD může být v klidu

Jack FX | 4. 7. 2019 - 13:19

Píšou to na Redditu, takže to musí být pravda.

https://www.reddit.com/r/Amd/comments/bm9ti0/amds_zen_3_to_get_4_threads...

V desktopech, mobilních CPU a konzolích pouze 3 vlákna. XBOX se Zenem 3 se má začít prodávat na podzim 2020, takže pak bude jasno.

xR | 4. 7. 2019 - 13:36

S tim zvysenim threadu je to mozne, ale ten napad s multithreadovym AVX je s prominutim blbost. ZEN1 ma 4x 128-bit pipeline, ZEN2 ma 4x 256-bit pipeline. To rozsireni z 128b na 256b je celkem trivialni vec a hlavni princip SIMD. Ta sirka je proste nedelitelna. Resp. delitelna je jen tak, ze se udelaji uplne samostatne jednotky. To by znamenalo 8x 128-bit pipelines, coz je mnohem narocnejsi na implementaci a se samotnym multithreadigem to souvisi jen neprimo (lip se to vyuzije).

Tiktak | 4. 7. 2019 - 14:12

Nejsem si tím úplně tak jist, ale koncept zmíněný v článku už přeci prožil řadu evolučních kroků v architektuře Buldozeru, takže zkušenností mají habaděj, ne? Minimálně vyzkoušet, zda to v případě Zenu bude nebo nebude přínosné, by tedy nemuselo vyžadovat zrovna moc invence.

xR | 4. 7. 2019 - 14:27

V pripade Bulldozeru se jedna ale o neco uplne jineho. Tam se sdilel cely ten FPU komplex se vsemi svymi pipelines. Resp. byly tam 2 integer komplexy a 1 FPU/AVX komplex. V Zenu je to vicemene stejne, akorat 1-1. Tady zrejme bylo mysleno sdileni jednotlivych exekucnich jednotek, ale to tak trochu nejde :) [a kdyby jo, tak by to akorat spojovalo nevyhody obou reseni a pridavalo sve vlastni].

Tiktak | 5. 7. 2019 - 10:38

Něco nejde jen do doby, kdy se najde nějaký blbeček, který neví, že to nejde - a prostě to udělá.
Excavator podporoval 256bit AVX, ale počítal je jako 2x128bit instrukci. Pokud tohle jde provést - jako že už to nějaký blbeček udělal - tak jste postaven před otázku, zda je výhodnější mít dvě 128bit jednotky, anebo jednu 256bit.
A to jsme jen u přístupu v AVX již použitého.

xR | 5. 7. 2019 - 11:27

Vsak presne tohle tady rikam - bud mate dve 128-bit pipeline, nebo jednu 256-bit. Nejde udelat to, ze by jedna 256-bit pocitala dva thready horizontalne, jak je to v clanku, protoze by vsechny instrukce musely byt identicke (coz jde dosahnout tak max. u GPU, ale CPU thready jsou totalne nezavisle). A pokud by ty instrukce byly rozdilne, tak to uz mame dve kompletne nezavisle pipeline, protoze OoO. Dukaz sporem.

Milan Bačík | 4. 7. 2019 - 14:13

Spíš bych za tím viděl třetí AGU než podporu AVX256.

Peter Fodrek | 4. 7. 2019 - 16:20

možno AMD vymyslelo rezovú FPU

na rezové CPU/DSP má AMD patent na DSP tento rok vypršal
https://patents.google.com/patent/US4393468A/en

hor411 | 4. 7. 2019 - 13:48

Nevidím důvod, proč by "Zen3" nemohl umět "SMT4". Takové CPU už tady jsou, jsou to Power9 od IBM, které nabízí modely od 4C/16T do 22C/88T. I když uznávám, že to nejsou CPU pro "normální PC".

Karáš Svorka | 4. 7. 2019 - 17:16

Takové SMT uměl svého času i SUN UltraSPARC T1. Osmijádro co mělo 32 vláken ;D

martin33 | 6. 7. 2019 - 08:52

UltraSPARC T1 (Niagara) mala ale len 1 FPU na 8 jadier. Ak aplikacia vyzadovala co len trochu FP operacii, islo to mizerne. Testovali sme to vtedy v jednej banke a vykon bol horsi oproti 2 jadru UltraSPARC IV+ z predchazajucej generacie. Bol to taky "Bulldozer" od Sunu :-)
V POWER 8/9 ma kazdy core dostatok FPU a SMT4/8 tak dava v mnohych aplikaciach zmysel. Idealne ak na tom bezi AIX. Tam sa da prikazom "smtctl" za chodu (bez rebootu) prepinat mezi SMT2/4/8 alebo SMT uplne vypnut.Okrem toho, ak aplikacie nedokazu vyuzit vsetky thready v CPU, tak AIX dokaze jednotlive thready "uspat" a nasledne ich pri potrebe "zobudit".

Mali | 4. 7. 2019 - 21:08

No a v tom je ten problem.

1) Jsou to CPU specialne pro servery, kde se ocekava system, ktery si s tim poradi. Desktop PC windows to rozhodne neni.

2) SMT4+ u PowerPC je reseno takovym trikem, podvudkem. Jedna se vlastne o 4(8,atp) jednoduchych, jednovlaknovych jaderek, ktere maji pred sebou jen jeden spolecny planovac. To co ma Intel a AMD ve svych procakach je dost odlisne od tohohle pristupu.

del42sa | 5. 7. 2019 - 08:27

naprostý souhlas. Tohle bujaré fantazírování na téma ZEN a 4way SMT se tu objevuje s železnou pravidelností před vydáním každé generace :-D

https://www.youtube.com/watch?v=QrVZ1Yi6gq4

Hrdina | 5. 7. 2019 - 10:19

Taky je důležité se zeptat, co to je vytížení procesoru. Je to vytížení navenek a uvnitř se ta nejjádrovatější jádra flákají? Pak mají mezi jádry a venkem něco blbě a mohlo by pomoct ten frontend překopat. Čili by teda jakože zjistili, že nestíhají lifrovat náklad pro ta jádra a ani rychlejší cache je nezachrání (kterou teď latenčně zpomalili navíc), zbývá tedy přidat vlákna. Ono by to klidně mohl být i důsledek té jejich NUMA, kdy CCX a čipletový přístup způsobuje, že rostou latence. Zavalením jader vlákny by si pomohli - velikost cache na to mají, zvlášť u zmrzačených ne-full modelů.

Ale opravdu je vytížení procesoru reportováno jako vytížení nejužšího místa (asi ano) a je to nejužší místo frontend? Nevíme. Nicméně jak už tu zaznělo, je to vyžmuňkávání posledních jednotek procent teoretického maximálního výkonu za současného pekla pro windows scheduler i programátora. Jedinej způsob, jak to peklo z nich sejmout je, ta vlákna předběžně analyzovat, co od nich čekat /na základě empirie, heuristiky a-nebo A.I. intrinsiky/ a dávat k sobě vlákna, která se vhodně doplňují, jinak by na jednom jádru vznikl špunt a druhé by zase nemělo co dělat (přesun vlákna je dražší než ta poslední procenta výkonu). Takže si tam přidají svoje tensor předžýkávače nebo nějaký FPGA... ale jsme už v té době a vyplatí se to? Nevíme.

A jestli to třetí čtvrté vlákno bude jen kvůli nějakým jejich interním-niterním čárymáry nebo jen pro některé úlohy /viděl bych to na speciální vlákno pro Cinebench ;) /, tak to není echt SMT3-4.

Taky je důležité se zeptat,

Hrdina https://diit.cz/profil/david-baranek

5. 7. 2019 - 10:19 https://diit.cz/clanek/pristi-generace-zenu-mohou-3-nebo-4-vlakna-na-jadro/diskuse Taky je důležité se zeptat, co to je vytížení procesoru. Je to vytížení navenek a uvnitř se ta nejjádrovatější jádra flákají? Pak mají mezi jádry a venkem něco blbě a mohlo by pomoct ten frontend překopat. Čili by teda jakože zjistili, že nestíhají lifrovat náklad pro ta jádra a ani rychlejší cache je nezachrání (kterou teď latenčně zpomalili navíc), zbývá tedy přidat vlákna. Ono by to klidně mohl být i důsledek té jejich NUMA, kdy CCX a čipletový přístup způsobuje, že rostou latence. Zavalením jader vlákny by si pomohli - velikost cache na to mají, zvlášť u zmrzačených ne-full modelů. Ale opravdu je vytížení procesoru reportováno jako vytížení nejužšího místa (asi ano) a je to nejužší místo frontend? Nevíme. Nicméně jak už tu zaznělo, je to vyžmuňkávání posledních jednotek procent teoretického maximálního výkonu za současného pekla pro windows scheduler i programátora. Jedinej způsob, jak to peklo z nich sejmout je, ta vlákna předběžně analyzovat, co od nich čekat /na základě empirie, heuristiky a-nebo A.I. intrinsiky/ a dávat k sobě vlákna, která se vhodně doplňují, jinak by na jednom jádru vznikl špunt a druhé by zase nemělo co dělat (přesun vlákna je dražší než ta poslední procenta výkonu). Takže si tam přidají svoje tensor předžýkávače nebo nějaký FPGA... ale jsme už v té době a vyplatí se to? Nevíme. A jestli to třetí čtvrté vlákno bude jen kvůli nějakým jejich interním-niterním čárymáry nebo jen pro některé úlohy /viděl bych to na speciální vlákno pro Cinebench ;) /, tak to není echt SMT3-4. https://diit.cz/clanek/pristi-generace-zenu-mohou-3-nebo-4-vlakna-na-jadro/diskuse#comment-1261574 +

xR | 9. 7. 2019 - 12:12

Vytizeni procesoru (co vidite napr. v TM) se pocita ciste binarne - jadro bud jede (zpracovava thread), nebo stoji (nema nic prirazeneho od OS). Vytizeni internich jednotek nebo i cekani na data z pameti atp. se do toho nijak nepocita. Co je nejuzsi misto se neda jednoznacne rict. Zalezi na typu CPU a typu ulohy. Pokud je uloha hodne sekvencni (hodne vzajemne zavislych operaci), nepomuze k vyssimu vnitrnimu vytizeni CPU nic, krome SMT.

AndreasCZ | 4. 7. 2019 - 13:57

Hlavne je otazkou, kam to miri. Profi scena to uzije. Domaci uzivatele uz moc ne (tim nemyslim lidi co si doma amatersky grabuji 4k videa).

Porad ta stejna pisnicka.... Rezie u beznych aplikaci bude vzdy nezanedbatelna a spravovat 8, 16 a nebo 32 vlaken (logickych jader) je velky rozdil v rezii. Paradoxne SMT muze byt vyhodnejsi mit na doma vypnute v pripade, ze uz procesor obsahuje hodne fyzickych jader.

Kert | 4. 7. 2019 - 14:19

Souhlasím. Pro hry bych řekl že bude lepší 16C než 16C32T, však brzo uvidíme jak to funguje v praxi. U Zen 3 bych hlavně čekal o těch 40 % plochy větší GameCache :-)

Terepin | 5. 7. 2019 - 07:56

Aj v súčasných herných testoch osemjadier vidno prínos HT v podobe vyšších minimálnych FPS.

del42sa | 4. 7. 2019 - 16:53

Tyhle spekulace se tu objevují od vydání prvního Zenu a je potřeba říct, že ačkoliv by to bylo technicky proveditelné, je velmi nepravděpodobné, že by se něco takového v blízké budoucnosti u Ryzenů objevilo a už vůbec ne v desktopu .-)

Jakub Hustín | 4. 7. 2019 - 18:43

Tak to bylo vloni i 16ti jádro... a předtím jsme byli zvyklí, že 8 jader je dost drahý špás.

del42sa | 4. 7. 2019 - 18:58

Tohle je ale něco úplně jiného. Fyzická jádra versus x-way SMT na jednom jádru. Tyhle vícevláknové SMT speciality najdou jen velmi úzký okruh využití jako třeba IBM Power CPU based servery, nebo Oracle a jejich čipy Sparc a pro ty je na míru psany specializovaný ecosystém SW.

V desktopu byl léta problém pro AMD i Intel aby jejich jádra vůbec byla smysluplně využívána schedullerem windows, takže nějaké 4way SMT to je noční můra všech programátorů :-D

Jan Ringoš | 4. 7. 2019 - 19:27

Intelovy Xeony Phi 72xy mají 4×SMT a co jsem viděl výsledky testů tak na 64-jádře rozložit workload do 256 vláken versus 128 pomáhá vymáčknout jen pár posledních procent výkonu. Pravda, jsou to sice vlastně Atomy a SMT mají barel-roll, ale stejně. U desktopového software se nikdo nebude ladit s tak masivní paralelizací a ta získaná procenta výkonu sežere režie.

Může z toho být marketingová fičura, nebo něco extra pro geeky (já bych si to koupil na hraní), ale AMD by muselo hodně máknout na designu CPU aby 4×SMT bylo opravdu využitelné. Ale zase, kdyby se AMD v tomto ohledu zadařilo, mohl by to být zajímavý, hlavně z finančního hlediska, způsob jak "vydrbat" s politikou licencování software na jádra.

del42sa | 4. 7. 2019 - 19:42

hlavně je to naprostý nesmysl ....

Lazar | 4. 7. 2019 - 19:44

Zmínil jsem to v posledním příspěvku v předchozím obdobném tématu, kde to již zůstalo bez odezvy. Přínos širšího SMT bude asi tam kde bude rozdílný charakter úloh využíjící rozličných jednotek. U EPYC 2 jsou snad přidané instrukce pro management cache (umožňující zajistit, aby jednotlivé úlohy neuzurpovaly příliš cache ve svůj prospěch). Třeba půjde AMD dál a umožní přidělování zdrojů vláknům i s ohledem na vytížení jednotlivých typů výkonných jednotek. Tak v rámci jednoho CPU budou moci být efektivně hostovány rozličné typy úloh (INT,FP, AVX, ...), s tím ze zákazník se za své peníze dostane k většímu výkonu, než v případě využití dedikovaného HW.

Mirda Červíček | 4. 7. 2019 - 19:34

Hyperthreading jsem u Intelu častěji vypínal než zapínal. U Ryzenu je to jen trochu lepší, ale výsledek je i tak jednoznačný - nikdy bych si za více vláken na jádro nepřiplatil. Je to kravina, geniální věci bývají jednoduché a blbuvzdorné.

Lazar | 4. 7. 2019 - 19:49

Jsou úlohy kupodivu i charakterem silně homogenním, kde se zapnuté SMT projeví výkonostním nárustem.
https://www.anandtech.com/show/11697/the-amd-ryzen-threadripper-1950x-an...

Mirda Červíček | 4. 7. 2019 - 20:14

To nevyvracím, ale v době kdy si může i osm jader dovolit takřka každý, uvažovat o virtuálním navyšování? Kdyby byl v nabídce Ryzen 8C/8T za 4000 Kč, tak za Ryzen 8C/16T nedám asi ani pětikilo navíc. Mám rád řešení co fungují vždy a ne si připlácet za: někdy výkon zvýší a jindy sníží (to testy a benchmarky bohužel ukázat moc neumí). Intel to ladí od Pentium 4 a stejně je to shit. Tři vlákna na jádro budou totální úspěch marketingu co získá praktické plusové body jen vyjímečně.

RedMaX | 4. 7. 2019 - 21:00

Jak funguji instrukce?

Rad vam to povim, kdyz to podle nekterych komentaru netusite, coz je teda dost smutne. Zasadni je, ze jadrem muze projit vzdy jen jedna instrukce soucasne. Drive u jednojadrovych procesoru platilo, ze procesorem muze zpracovat jen jednu instrukci soucasne. Ale dnes muzeme vypocty paralelizovat a mame treba osm jader, coz umozni osm instrukci soucasne.

Jde to jeste nejak zrychlit?

Ano, jde. Kdyz prochazi instrukce jadrem, tak jsou useky, ktere zpracuji instrukci rychleji a useky, kde se ceka. Kdyz bychom teda pomale useky zdvojili, tak muze rychly usek zpracovat jeden usek a hned potom druhy usek jeste driv nez dorazi dalsi dve instrukce z pomalych useku.

Je mozne, ze by rychly usek dokazal zpracovat tri instrukce po sobe nez dorazi dalsi trojice? Ano, mozne to je, ale mnohem casteji se stava, ze v dobe zpracovani druhe instrukce z prvni "vlny" uz dorazi druha "vlna" a teda celkove treti a ctvrta instrukce uz musi cekat.

To je take duvod, proc kdyzsi vypnete HT (SMT) proc najednou procesor nejede na 50% vykonu, ale jede treba na 70-80%.
Mimochodem tohoto neuteseneho stavu si vsimnuli v Intelu a nasadili predikci, ktera pomohla vykon HT zlepsit, bylo to super presne do chvile nez se zjistilo, ze jsou predikce docela zasadni bezpecnostni problem.

Osobne teda povazuju tri vlakna na jadro za kokotinu, do ktere AMD nepujde. A neverim tomu, ze by to nejak vykonu pomohlo, mozna v nejakych par spesl ulohach, ale osobne si teda pockam na procesor, ktery nebude mit vic jak dve vlakna na jadro. Jako doufam, ze to bude Zen, ale kdyby jim nahodou v AMD hrablo, tak i Intel 8C/8T bych vzal, vystacil bych si i s jednim vlaknem v jednom jadre.

xR | 4. 7. 2019 - 21:58

Nesmysl. V out-of-order jadre jsou stovky instrukci soucasne v ruznem stadiu rozpracovanosti, pricemz zahajit a dokoncit je mozne v kazdem taktu typicky 4-5. Hyperthreading neni nic jineho, nez ze se instrukce berou ze dvou threadu, takze je typicky k dispozici vic nezavislych operaci a nedochazi tak casto k "bublinam" v pipeline.

RedMaX | 4. 7. 2019 - 23:35

Ze existuji ruzne techniky, jak procesor zrychlit, je jiste pravda. Presne jak pises, muzeme treba nektere akce vykonat rychleji mimo poradi, nez ve kterem prisly. Ale mne slo o princip a ten je stale stejny, ty akce v nekterych okamzicich zpracovani bezi za sebou a efektivita kazdeho dalsiho threadu v jednom jadre bude mensi a mensi.
Proc myslis, ze dva thready v jednom jadre nepridavaji +50% vykonu? U Intelu se nakonec muzes presvedcit, kdyz vezmes stejne taktovany 6C/6T a 6C/12T, tak ten druhy nema ani nahodou +50% vykonu. Nekdy je proste sporne uz uziti dvou threadu v jednom core a cpat toho tam jeste vic je proste nesmysl.

6xALU Apple A13 | 4. 7. 2019 - 23:50

Nesmysl to rozhodně není. V serverech je efektivita v multithreadu zásadní věc, viz procáky od IBM a Sun, ti už 4-way SMT dávno mají. Zen1-4 je architektura primárně vyvíjená pro návrat AMD do serverů. Na hry si to můžeš vypnout v BIOSU vždycky.

Mali | 5. 7. 2019 - 08:41

"Zen1-4 je architektura primárně vyvíjená pro návrat AMD do serverů."

Muzes hodit prosim nekde link? Protoze tohle podle me neni pravda. AMD od zacatku chtela mit jeden CPU pro desktop i server, nejake veci byly ovlivneny potrebami serveru, ale rozhodne to nebylo tak, ze by priparni zamereni byl server.

Ono to totiz ani nedava smysl. Server trh je velmi konzervativni. Udelat cip pro server, kdyz nemaji prakticky zadny podil na trhu by byla sebevrazda. Museli na to jit obracene. Udelat cip, ktery primarne udela velke halo v desktopu a server segment to pak zacne pomalu adoptovat - na zaklade dobreho vykonu v desktopu/workstations a na zaklade tech par parametru, ktere serveru vyhovuji.

A navic... IBM SMT4+ je takovy podvod. Oni maji fakticky jednoduche, jednovlaknove male jaderka, kterych maji treba 4 a pred nimi je vlasne jen jeden velky spolecny scheduler. Takze z urciteho pohledu se to da brat jakoby 1 complex, co zvladne 4 vlakna, ale fakticky to jsou 4 jadra.

6xALU Apple A13 | 5. 7. 2019 - 16:19

Zen vždy byl primárně uarch pro servery. Doporučuji přečíst rozhovor s vedoucím serverové divize AMD.

https://www.anandtech.com/show/14568/an-interview-with-amds-forrest-norr...

V podstatě říká, že zákazníci již dnes vědí, že když si koupí server na AMD EPYC1 tak do stejné desky dají koncem letošního roku EPYC2 s dvojnásobkem jader a v polovině roku 2020 i EPYC3 (2x víc vláken díky 4-way SMT je spekulace). Zmiňuje i Genoa což je ZEN4/Epyc4, ale ten dle spekulací má přinést DDR5, takže tam bude jiný soket na 100%.

del42sa | 6. 7. 2019 - 06:51

Ale to je článek o ROME, takže je logické že tam mluví o tom, že byl navržený pro servery :-D

Přesnější by bylo úvést to, že ZEN jako architektura byl navržen tak ( když budu parafrázovat slova AMD ), aby byl škálovatelný a pokryl široké spektrum produktů od low-endu až HPC/servery. Nikde nikdo neřekl, že byl primárně navrhovaný jen pro servery nebo jen pro desktop. Proto je tohle přesnější definice.

6xALU Apple A13 | 6. 7. 2019 - 10:26

1) ZEN1 byl navržen pro frekvence kolem 3,5GHz ... což je přesně sweetspot kde pracují 16 a 32 jádrové serverové Epyc. Pro desktop by potřebovali v AMD frekvence kolem těch 4,5-5,0GHz, ale desktop nebyl priorita vůbec, i HPC museli oželet, tak k optimalizaci pro vyšší frekvence nedošlo, nebyl čas. ZEN1 je prostě serverová uarch pro max efektivitu. Což je fajn i pro mobilní trh. Zabili 2 mouchy ze 3 jednou ranou :-)
2) ZEN2 už je navržen i pro HPC, odstranili bottlenecky pro jednotlivé stage aby celá pipeline dosahovala vyšších frekvencí a vyšší propustnosti. Opět, kdyby mířili na desktop tak míří na 5 GHz, ale na desktop kašlou, důležité je že bude úspěch v serverech a HPC. Desktop nikoho moc nezajímá protože dobrý serverový/HPC CPU se v desktopu prosadí vždy. Platí to už od K7, K8 a K10 Deneb.

del42sa | 6. 7. 2019 - 19:02

" Desktop nikoho moc nezajímá protože dobrý serverový/HPC CPU se v desktopu prosadí vždy. Platí to už od K7, K8 a K10 Deneb."

tak proč se neprosadil v desktopu Sparc nebo IBM Power nebo Bulldozer ? Všechno dobré serverové CPU ....

Tom Buri | 6. 7. 2019 - 22:48

power a sparc nejsou x86 a bulldozer byl doberj serverovej procesor? tak proc po jeho vydani amd prislo o podil v serverech? ((:

del42sa | 7. 7. 2019 - 08:25

Bohužel jsi nepochopil pointu příspěvku. Bulldozer byl primárně vyvíjený pro serverové nasazení a ano jeho vzorem byly primárně vysoce paralelizované procesory jako např Sun Niagara...... Že Power a Sparc nejsou x86 cpu toho jsem si samozřejmě vědom .-) Otázka je položená jinak. Někdo řekl, že dobré serverové CPU se v desktopu prosadí vždycky. Pokud by tedy Power a Sparc byly x86, byly by to úspěšné desktop procesory ? Domnívám se že nikoliv.

AMD přišlo o podíl v serverer protože Bulldozer přišel pozdě (původně měl být vydaný na 40nm výrobním procesu ) Měl však velkou spotřebu, což silně omezovalo nasazení vysokých frekvencí na které bylo toto CPU stavěné. Bylo to takové "Pentium 4" od AMD. Výkonově byl slabší než Xeony, ale nevedl si vyloženě špatně: https://www.anandtech.com/show/6508/the-new-opteron-6300-finally-tested

Byla to spíš jeho špatná reputace a povědomí o vysoké spotřebě než špatný výkon v serverech. A opět živý důkaz o tom, že serverový CPU se vždy v desktopu neprosadí .-)

6xALU Apple A13 | 8. 7. 2019 - 00:36

Bulldozer byl megafail z hlediska IPC, 2x ALU jako K6 nebo P2, P4 byl totální návrat do pravěku.
Výkon na MHz = tragédie (konec v HPC, desktopu)
Výkon na Watt = hrůza (konec v serverech a laptopech).
Bulldozer nebyl dobrý serverový procesor, naopak to byla ukázka totální neschopnosti jak úspěšnou firmu která válcovala Intel v serverech s K8 a K10 málem přivedlo několik lidí do krachu. Prej špatná reputace a povědomí o vysoké spotřebě.... houby.... brutální spotřeba a tragický výkon způsobil oprávněně špatnou reputaci. K10 Deneb měla vyšší výkon na takt i absolutně a kdyby vydali 8-mi jádro nebo 12 jádro na těch 32nm tak by si v serverech nevedli zase tak špatně i bez Bulldozeru.

Jinak IBM Power uarch se úspěšně nasazoval do pracovních stanic a PowerMaců, výkonný serverový CPU s vysokým IPC se prosadí v desktopu vždycky. Sparc nikdy nebyl high IPC, spíš pro paralelní výpočty s ohledem na efektivitu.

Dobře upravím to: serverový procesor s vysokým IPC se prosadí i v desktopu. OK? :-)

del42sa | 8. 7. 2019 - 08:25

Já Bulldozer nijak neobhajuju, protože spousta věcí v něm byla zkrátka špatně navržená (instrukční cache s nízkou asociativitou, write through L2 cache, extremně mala L1 cache a pomalá a latentní L3) přesto na to jaká to byla hrůza ten výkon nebyl zas tak strašnej ( v serverech, kam to primárně mířilo ) a líbila se mi ta myšlenka/koncept toho CPU. Možná stačilo povrtat se trochu v cache systému a přidat nějakou ALU/AGU navíc a mohlo to být úplně jiný kafe :-) AMD si tehdy myslelo, že koncept spousty "malých jader" s vysokou propustností threadů ( viz BD modul ) bude to pravé ořechové pro servery.

Sparc byl navržený pro specifický workload, ve kterém to CPU funguje dobře. IBM power bylo opravdu v desktopu o něco úspěsnější, takže chápu tu myšlenku, kterou se snažíš naznačit. Nicméně serverové nasezení a specifický workload serverových CPU je předurčuje pro určité použití a v desktopu nebo gaming sektoru jsou důležité úplně jiné věci, takže CPU které není navrženo s určitým kompromisem nebude pro desktopové nasazení to pravé ořechové :-)

Jo IPC rulez :-D

6xALU Apple A13 | 9. 7. 2019 - 13:37

Tvůj první CPU byl Bulldozer že jo? :)
Vyrostl jsem na K8, pak jsem měl K10..... a když přišel Bulldozer, ten mne tak znechutil, že mne to přestalo bavit se rýpat v kompech. Ale v podstatě se shodneme.

tombomino | 10. 7. 2019 - 09:43

Ja mel FXko a muzu se pripojit k tem, kteri rikaji, ze to nebyl spatny CPU. OC bylo tak nejak podminkou. Mel svoje mouchy, ale pro koncaky zase exceloval v pomery vykon/cena/MT. Za mne do desktopu to bylo vzhledem ke sve cene a dobremu MT vdecne CPU. Ale ssi nic pro narocnejsi gamery a photoshop nadsence.

xR | 5. 7. 2019 - 01:56

Tak pozor, out of order neni jen optimalizacni technika, ale uplne jiny model fungovani procesoru. Tam nic neprochazi, ale cele se to sype na jednu velkou hromadu, do ktere prisypavaji jednotlive thready. Z ni se potom vybiraji vhodne instrukce, paralelne vykonavaji a zase se to sype zpet na hromadu a tak porad dokola. Cim vic nezavislych instrukci a dat tam bude pripravenych, tim bude min prostoju. K tomu je dobry SMT. Samozrejme, ze vykon nestoupne o moc. Ale je to temer zadarmo, tak proc ne. Ovsem je otazka, jestli SMT4 ma na soucasnych jadrech smysl. Ty jsou totiz hodne dobre a dokazou si poradit i s mene thready a ten paralelizmus tam najit. Pro SMT4 by se muselo jadro hodne rozsirit, aby to melo smysl.

ventYl | 5. 7. 2019 - 20:24

Tu je vidno, ze kecas o niecom o com nemas ani paru. To tvrdenie o jednej instrukcii v jednom takte platilo mozno niekedy v polovici 80. rokov, u Intelu tak mozno este zaciatkom 90. rokov. Medzitym sa prakticky vsetky vacsie procesory stali superskalarne a bezne maju N kuskov tej istej jednotky, takze dokazu druhu instrukciu zacat spracovavat este skor, nez ta prva spracovanie v tej istej jednotke skonci. V idealnom pripade na vhodnom procesore sa moze stat, ze sa dve rovnake instrukcie rovnakeho typu zacnu na tom istom jadre spracovavat a dokoncia vzdy v tom istom takte. To je denna realita tak zhruba od roku 1990. HT, resp. SMT je len pokus o vyssie vyuzitie tychto nasobnych jednotiek. Ak ma trebars procesor, ktory ma 4 ALU, bud mozes vykonat 4 A/L operacie za sebou (za predpokladu, ze na sebe nie su zavisle), alebo dva nezavisle streamy dvoch A/L operacii (zjednodusene, pri HT nejde o fixnu alokaciu), alebo az 4 streamy vzdy po jednej operacii za sebou (eventuelne sa mozu streamy o jednotky pobit. ktoremu nic nezostne stallne), co by ale nedavalo zmysel, pretoze by to procesor defakto degradovalo na skalarny.

Problem u beznych programov je, ze malokedy pocitaju nesuvisiace udaje a instrukcie casto zavisia jedna na druhej. Do istej miery sa to snazia riesit prekladace a do znacnej miery tento problem riesia out of order architektury a premenovanim registrov, ale nie vzdy ten problem ide riesit bezozbytku a procesory potom visia v stalloch. Program na vykonavanie je, funkcne jednotky su volne, pretoze sa na nich nic nevykonava, ale neexistuju data, ktore by sa do nich dostali, pretoze su este vo faze vypoctu. V takom nepriaznivom pripade potom moze 4-nasobna ALU kludne zamestnavat len jednu jednotku a ostatne stoja.

Zavedenim druheho, datovo uplne nezavisleho streamu instrukcii je mozne zvysit vytazenie nasobnych jednotiek v procesore a vykopat tak z HW pomerne vyssi dostupny vykon nez bude pomerne zvysenie zlozitosti procesora. Druhy instrukcny stream ma vzdy data nezavisle od toho prveho, takze na urovni schedulera instrukcii nemoze dojst k stallu programu kvoli nedostupnosti dat. V pripade nevhodneho poctu funkcnych jednotiek ale moze dojst k opacnemu pripadu, kedy dva instrukcne streamy maju dokopy tolko instrukcii cielenych na jeden typ funkcnej jednotky, ze program stalluje kvoli nedostupnosti volnych funkcnych jednotiek. To bol problem prave prvych Pentii s HT.

Tu je vidno, ze kecas o

ventYl https://diit.cz/profil/ventyl-ventyl

5. 7. 2019 - 20:24 https://diit.cz/clanek/pristi-generace-zenu-mohou-3-nebo-4-vlakna-na-jadro/diskuse Tu je vidno, ze kecas o niecom o com nemas ani paru. To tvrdenie o jednej instrukcii v jednom takte platilo mozno niekedy v polovici 80. rokov, u Intelu tak mozno este zaciatkom 90. rokov. Medzitym sa prakticky vsetky vacsie procesory stali superskalarne a bezne maju N kuskov tej istej jednotky, takze dokazu druhu instrukciu zacat spracovavat este skor, nez ta prva spracovanie v tej istej jednotke skonci. V idealnom pripade na vhodnom procesore sa moze stat, ze sa dve rovnake instrukcie rovnakeho typu zacnu na tom istom jadre spracovavat a dokoncia vzdy v tom istom takte. To je denna realita tak zhruba od roku 1990. HT, resp. SMT je len pokus o vyssie vyuzitie tychto nasobnych jednotiek. Ak ma trebars procesor, ktory ma 4 ALU, bud mozes vykonat 4 A/L operacie za sebou (za predpokladu, ze na sebe nie su zavisle), alebo dva nezavisle streamy dvoch A/L operacii (zjednodusene, pri HT nejde o fixnu alokaciu), alebo az 4 streamy vzdy po jednej operacii za sebou (eventuelne sa mozu streamy o jednotky pobit. ktoremu nic nezostne stallne), co by ale nedavalo zmysel, pretoze by to procesor defakto degradovalo na skalarny. Problem u beznych programov je, ze malokedy pocitaju nesuvisiace udaje a instrukcie casto zavisia jedna na druhej. Do istej miery sa to snazia riesit prekladace a do znacnej miery tento problem riesia out of order architektury a premenovanim registrov, ale nie vzdy ten problem ide riesit bezozbytku a procesory potom visia v stalloch. Program na vykonavanie je, funkcne jednotky su volne, pretoze sa na nich nic nevykonava, ale neexistuju data, ktore by sa do nich dostali, pretoze su este vo faze vypoctu. V takom nepriaznivom pripade potom moze 4-nasobna ALU kludne zamestnavat len jednu jednotku a ostatne stoja. Zavedenim druheho, datovo uplne nezavisleho streamu instrukcii je mozne zvysit vytazenie nasobnych jednotiek v procesore a vykopat tak z HW pomerne vyssi dostupny vykon nez bude pomerne zvysenie zlozitosti procesora. Druhy instrukcny stream ma vzdy data nezavisle od toho prveho, takze na urovni schedulera instrukcii nemoze dojst k stallu programu kvoli nedostupnosti dat. V pripade nevhodneho poctu funkcnych jednotiek ale moze dojst k opacnemu pripadu, kedy dva instrukcne streamy maju dokopy tolko instrukcii cielenych na jeden typ funkcnej jednotky, ze program stalluje kvoli nedostupnosti volnych funkcnych jednotiek. To bol problem prave prvych Pentii s HT. https://diit.cz/clanek/pristi-generace-zenu-mohou-3-nebo-4-vlakna-na-jadro/diskuse#comment-1261696 +

Jan Ringoš | 4. 7. 2019 - 22:46

Tady se někdo zastavil v minulém století ;-)

6xALU Apple A13 | 4. 7. 2019 - 22:16

4-way SMT nedává smysl se současnými 4 ALU. Další 2 vlákna by využily zbývajících 5% výkonu jádra a to nedává moc smysl.

Pokud ZEN3 bude mít 6 ALU, to znamená teoretický nárůst IPC o 50%, pak už to dává smysl, protože vytížit všech 6 ALU jen dvěma vlákny nebude dost efektivní. Při využití 4-way SMT stoupne efektivita využití jádra pro servery (1.5 ALU/vlákno) oproti současnému zenu (2 ALU/vlákno).

Takže teoreticky ZEN3 může mít single thread výkon až o 50% vyšší a zároveň lepší využití jader pro servery. Zeny jsou vyvíjené jako serverové CPU. Ostatně právě ze serverových CPU máme potvrzené, že ZEN3 přijde v polovině příštího roku.

xR | 4. 7. 2019 - 22:31

Presne tak, pri sirsim jadre to smysl ma.

6xALU Apple A13 | 4. 7. 2019 - 23:35

Navíc jak jste tu již zmiňovali, tak 4-way SMT již dávno existuje, jen mimo servery to zatím nedávalo smysl.
Se 6 ALUs + 4 AGUs to již dává smysl. Dokonce bych řekl že by to bylo pro servery nezbytností.

ZEN1: 6 issue (4x ALU + 2AGU)
ZEN2: 7 issue (4x ALU + 3AGU)
ZEN3: 10 issue (6x ALU + 4 AGU) ...odhad.

Jen pro porovnání:
Intel Skylake: 8 issue
Intel SunnyCove (IceLake): 10 issue

Navíc ZEN3 pravděpodobně připravoval Ačkový tým co makal na ZEN1, takže se dají očekávat velké věci oproti ZEN2. Také to vysvětluje proč přijde relativně brzy již mid2020, prostě na něm makala jiná parta a svou práci udělali včas dle plánu.

del42sa | 5. 7. 2019 - 08:37

to by ale vůbec nesedělo s AMD strategií škálovatelných čipletů, kdy je možné škálovat různě výkonná CPU od low-endu až high-end servery. Vždyť to přece nefunguje tak, že AMD luskne prsty a řekne: "tak zapneme u Ryzenů 4way SMT" a je to. AMD musí při těch návrzích vzít do úvahy širové využití těch čipletů a kvůli tomu musí udělat i nějaké kompromisy, což 4 way SMT rozhodně není.

Taková změna přece obnáší mnohem širší front-end, scheduller, decodér, více ALU/AGU, cache a řídící logiky, atd.jak už tady někdo poznamenal. To by AMD musel oddělit výrobu a vyrábět dva (!) různé druhy čipletů. K čemu by byl takový jeden "široký" chiplet např v APU, kde by bylo spousta z té logiky vypnuté nebo nevyužité ? To by bylo strašné plýtvání prostředky a tranzistory. Tohle se prostě nestane a je to jen čistě bujaré fantazírování nějakých fanoušků, kteří nežijí v realitě .-)

Mirda Červíček | 5. 7. 2019 - 10:27

Proč fanoušků? S tím to nemá nic společného. Já bych si naopak přál aby Ryzen 3 jádra byla vyladěná jen na co nejlepší efektivitu 1C/1T. Jader/vláken je dneska naprostý dostatek a i když mám vícejádrová CPU rád, tak silně pochybuju i o budoucím (horizont 3 let) využití 16 threadů v mainstreamu.

del42sa | 5. 7. 2019 - 10:36

tak kdo podle tebe píše ty nesmysly o 4 way SMT , samotné AMD ? .-)

6xALU Apple A13 | 5. 7. 2019 - 10:54

Nejlepší efektivitu 1C/1T mají úzké uarch, jako Intel Atom nebo u AMD Bobcat, obecně všechny ARMy. To ale znamená nízký single thread výkon. To opravdu chceš?

Pro vysoký výkon potřebuješ široké neefektivní jádro, které pomocí SMT zefektivníš, ale to si můžeš vypnout. 4way SMT bude pouze indikací, že to jádro bude v singlu o dost výkonnější.

del42sa | 5. 7. 2019 - 11:20

jo ať udělají 8 way SMT, to bude nejlepším důkazem "dobré architektury" . Pak to budou ve finále stejně vypínat . LoL

Tom Buri | 6. 7. 2019 - 22:45

hmm, to je fakt super pristup, delat ze sebe debila, kdyz je prilezitost poucit se z postu cloveka, co tom vi asi tak desetkrat vic.. (:

del42sa | 7. 7. 2019 - 08:27

souhlasím, jenom se divím, že máš tu potřebu ho pořád ze sebe dělat :-D

Hrdina | 5. 7. 2019 - 12:25

Zrovna Atom a Bobcat jsou hrušky a jabka, Bobcat právě z prdu udělal kuličku tím, že byl narozdíl od Atomu out-of-order. ARM byl taky dlouho in-order a s velkou slávou (tuším od A53/A70+) se pohnul díky out-of-order dopředu, o víc než by umožnil proces, což do té doby bylo víceméně kruciální (a cache).

A jak nade mnou správně píše delsa, druhý odstavec máš teda slušnej průvan.

6xALU Apple A13 | 5. 7. 2019 - 12:33

Ty jsi taky hruška. OoO je jedna z technik jak zlepšit efektivitu vytížení superskalárních jednotek. Čím širší jádro a více ALU jednotek tak tím je benefit větší. Proto u Atomu a ARMu se zůstávalo dlouho bez OoO, protože se 2 ALU to nemělo tak velký efekt. Bobcat by propadák, 2 ALU s OoO jako v Pentiu II nebo K6, to je naprd.

Se 3 ALU je nutnost OoO
Se 4 ALU je nutnost 2-way SMT

Hrdina | 5. 7. 2019 - 13:55

OoO je jedna z technik jak zlepšit efektivitu vytížení superskalárních jednotek
- proč jenom superskalárních?

Čím širší jádro a více ALU jednotek tak tím je benefit větší
- to záleží na tom, jak je ta tvoje jedna z technik dobrá

Proto u Atomu a ARMu se zůstávalo dlouho bez OoO, protože se 2 ALU to nemělo tak velký efekt.
- ne, protože to stálo moc elektřiny na těch procesech

Bobcat by propadák
- ne, byl to první čip do "Atomovejch netbooků", kterej dokázal alespoň prohlížet web a nestartovat čistý Windowsy 5 minut

atd. atp.

6xALU Apple A13 | 5. 7. 2019 - 14:28

1) protože s jedinou ALU OoO není efektivní
2) proto Atom a ARM přešel na OoO aby mohly víc žrát elektřiny, tomu snad sám nevěříš.
3) ARM cortex76 má 3 ALU spolu s OoO to dává smysl. Cortex 77 má dokonce 4 ALU OoO.
4) Bobcat byl o něco menší fail než Bulldozer, ale pořád fail. Tečka.

Tom Buri | 6. 7. 2019 - 22:52

1 jo
2 jo
3 jo
4 ne.. bobcat delalo par lidi, nemel dodelanou snad ani podporu pro turbo a pri nizkejch taktech a minimalni spotrebe pravalcoval atom vcetne nekolika generaci, co vysly az po nem.. prave proto samsung ten tym co pracoval na bobcatu amd vyfouknul..

Hrdina | 8. 7. 2019 - 18:39

1) blbost
2) tenkrát to byla taková zcestná idea a vlastnost, že nevytížené jádro nevadí, aspoň je důvod ho podtaktovat
3) a co jako
4) viz kamoš nademnou

zbytek nemám sílu s tebou polemizovat

6xALU Apple A13 | 5. 7. 2019 - 10:40

Nemusí nikdo luskat prsty, stačí když inženýři odvedou svou práci při návrhu nové architektury ZEN3. A že to není jednoduché navrhnout novou vyspělou uach? Pravda, je to těžší než péct rohlíky v Lidlu. Mimochodem pokud má být výroba mid2020, tak je návrh čipu dávno hotový. ZEN4 je ve stádiu rozpracovanosti což mimochodem znamená že hlavní specifikace uarch jsou také uzavřeny. Leak 4-way SMT se může týkat i ZEN4.

ZEN1 byl navržen jako čistě serverový čip, ECC, NUMA komunikace mezi 4 CPU, to vše bylo v desktopu nevyužito a zabíralo zbytečně tranzistory. AMD nemuselo vyrábět dva různé druhy čipů u ZEN1 a nebude kravit ani u ZEN2 a ZEN3. Budou to široká serverová CPU, které budou prodávat i v desktopu a v mobilním trhu jako APU, stejně jako s K8 a K10.

Každopádně pro vyšší výkon Intel i AMD bude navrhovat širší a širší uarch. Zpět k úzkým P4 nebo Bulldozeru se nebude vracet nikdo kdo není šílenec. A 4-way SMT je pouze jedna z technik (prediktory, větší uOPS cache) jak toto široké jádro efektivně vytížit. Jde jen o to, kolik tranzistorů tato implementace zabere a kolik přinese zvýšení efektivity u dané uarch. U Intelu HT stálo navíc 5% tranzistorů, tak to o tranzistorech úplně nebude. Pokud 4way SMT bude přinášet lepší efektivitu v serverech tak to implementují. To že u toho budou muset sakra namáhat mozkovny, to je jisté :D

del42sa | 5. 7. 2019 - 10:44

problém není něco vyvinout, problém je najít proto široké uplatnění a zachovat nějaký výhodný poměr přínos versus náklady. Z této perspektivy je potřeba na to nahlížet .-)

Hrdina | 5. 7. 2019 - 12:04

To tvoje široký je spíš hluboký a chytrý nebo široký a blbý? A týká se čeho, frontendu, jádra, vlákna, všeho? Ty asi sám nevíš co. No těžko se bavit takto "na vodě".

6xALU Apple A13 | 5. 7. 2019 - 12:18

Hluboký = délka pipeline
Široký = počel ALU, AGU, front end.
Hrdina = vypadá to na široký a blbý front end, když ani neví co to je pipeline.

Hrdina | 5. 7. 2019 - 12:28

místo vlákna mělo být vláken, jeslti myslíš toto ty ropovode

6xALU Apple A13 | 5. 7. 2019 - 12:35

Ty nevíš co to je u CPU délka pipeline ty hrdino? Panebože, to je zase diskuse s odborníky :D

Hrdina | 5. 7. 2019 - 12:53

No jednou týdně se to musí čistit průplachem, jinak to pivo stojí za hovno.

Jaroslav Crha | 5. 7. 2019 - 21:23

Spíš kdyby radši vyrobili nějaký řadič, kteřý by přiřazoval instrukce podle toho jak příjdou ke zpracování a jakmile by nějaké jádro bylo uvolněno, tak k němu bude úloha poslána. Prostě jakoby si jednotlivé výpočty brali lístečky na poště a chodili k přepážce která se uvolní dřív, než aby čekali na tu jednu přepážku až úlohu zpracuje, čímž se u zvýšení řad na jádro docílí větší zácpy a prodlevě ve zpracování. Když už se chlubili asynchronama...

xR | 5. 7. 2019 - 22:52

Ale takhle to presne funguje, akorat uvnitr jadra. To jadro je ten radic ;).

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Mohou příští generace Zenu podporovat 3 nebo 4 vlákna na jádro?

Komerční sdělení

CDR Hry

Záhadné prstence Uranu odhalují tajemství, které nikdo nečekal

Největší růst v historii. Solární energie překonala všechna očekávání

HP a Lenovo chtějí vlastní AI. Jenže narážejí na realitu trhu

Dorůstání rukou a nohou už není sci-fi. Nová studie mění pohled na medicínu

Tento experiment znepokojuje fyziky: Gravitační konstanta se výrazně změnila

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT