Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Zen 3 Epyc Milan prý může zvýšit počet čipletů (až) na 15

Čekám kdy tam dají grafické jádro.
Ale v serveru to nemá moc velký smysl.
HBM zas nemají smysl v počtu větším než 2. Takže předpokládám 12×CPU 2×HBM a 1 centrální.

+1
+1
-1
Je komentář přínosný?

>Čekám kdy tam dají grafické jádro.
>Ale v serveru to nemá moc velký smysl.

Prečo nie?
viď.
Epyc vydán, nabízíme 182 stran prezentací a 4k wallpaper
22. 6. 2017
https://diit.cz/clanek/prezentace-k-vydani-epyc

a jedna konkrétna priesvitka
https://diit.cz/media-gallery/detail/79677/282777

a tam je GPU ako FPU akcelerátor v Epyc-ovom sockete.

A ani skoršie špekulácie o ZEN3 to nevylučujú..

AMD Zen 3 Early Whispers: Another Huge Upgrade in 2020!
by Moore's Law Is Dead
Odpremiérované 8. 5. 2019
https://www.youtube.com/watch?v=il5Zl3vGvVw&t=14

+1
+1
-1
Je komentář přínosný?

NE!

Uz si to tu jednou postoval. Pouzivat GPU jako FPU akcelerator je retardace. GPU ma spoustu obvodu, ktere by byly zbytecne, navic vyzaduje nemalo pameti (a vyzrat IF na pristup pres IOD do centralni RAM by nebyl vhodny).

Mit ale cely system, kde je "klasicke" GPU ve svem vlastnim soketu uplne bokem na desce, je neco jineho.

A to ze nejaka prezentace, ci video nevylucuje neco neni absolutne indicie, ze se tak stane. Reklama na Danone jogurty nevylucuje teleportovani. Nicmene citis, ze k tomu je asi jeste dlouha cesta.

+1
0
-1
Je komentář přínosný?

"Uz si to tu jednou postoval. "

A nie raz, lebo to je zaujímavé.

"Pouzivat GPU jako FPU akcelerator je retardace."

rozhodne nie, to by sa to nepoužívalo

" GPU ma spoustu obvodu, ktere by byly zbytecne,"

áno preto GPGPU čipy niektré obvody nemajú.

" navic vyzaduje nemalo pameti (a vyzrat IF na pristup pres IOD do centralni RAM by nebyl vhodny)."

A kto tvrdí, že by to išlo, cez IOD? Kľudne môže mať svoje HBM...

+1
0
-1
Je komentář přínosný?

GPU se poiziva v ramci HSA, ale nikdy nebyl prilepen a ani nedava smysl pouzit GPU jako chiplet v takovem serverovem produktu. Je mnohem efektivnejsi do celeho systemu vlozit vypocetni kartu zalozenou ma velkem GPU cipu (kolilrate specialne upravenem). Malinky gpu chiplet nema smysl. Lepsi je pripravit tam nekaly arm koprocesor na specialni ulohy.

Pridavat na serverovy chip 2 chiplety jeden s HBM a jedem s GPU je obzvaste pitomost. Naprosto neefektivni vyuziti mista, TDP i architektur.

+1
0
-1
Je komentář přínosný?

Opravdu je takto absolutní "NE!" na místě? Upřímně se ptám. Ono, upravit/přizpůsobit jde skoro cokoli.

+1
0
-1
Je komentář přínosný?

Ano, protoze i titerne GPU zabiraji mnohem vice mista nez jen CCD, nebo pripadne specialni chiplet zalozeny treba na ARM. Neprineslo by to zadny uzitecny vykon a jen zbytecne zeslozitilo pouziti, nehlede na TDP vyssi a ovladace, atp.

Bavime se o serverovem produktu. Nejen, ze to nema smysl z pozice cipu, ale ani trhu, ktery je velice konzervativni. Ac GPU vyuziva, vzdy se jedna o upravene akceleratory - cele karty. Nikoli APU.

+1
0
-1
Je komentář přínosný?

Integrovat grafiku do CPU má význam v ultranotebooku, jeden chladič zabere míň místa než 2. A celek je pak výrazně lehčí. Grafika nemusí komunikovat velkou rychlostí s CPU, aby musela být na jednom chipletu. PCI 4.0 stačí bohatě.
Ztratí se tím modularita. Takže potencionálních zákazníků by byla jen úzká skupina.
Výhody to jistě má. A mně by se to líbilo. Ale bez HBM to bude pomalé. A HBM je zatím dráha. Takže AMD buď předpokládá že zlevní. A nebo HBM přinese extra konkurenční výhodu. Nevím jakou? Strojové učení? Neuronové sítě? . .
Myslím že HBM to nebudou. A WCCFTech se mýlí. Spíš tam osadí L4 cache v menší kapacitě, ale levnější.
Chiplety jsou budoucnost. O tom nikdo nepochybuje. A jednou se tam dostne HBM i grafika. Ale ZEN3 Milan bude jistě bez grafiky a asi i bez HBM.

+1
0
-1
Je komentář přínosný?

Zajímavý bude hlavně cenový rozdíl oproti podobným Intelům. Intel je přece jenom tak trochu otrokem výtěžnosti, zatímco AMD má téměř volné ruce. Podle wikichip*, pokud má 360mm monolit výtěžnost 15%, bude mít 4-chipletové řešení se stejnou hustotou chyb výtěžnost 37%. Ikdyž Intel byl nucen vyladit 14nm +++?? až do absurdních parametrů. Víc chipletů sice vytváří potenciální problémy a od jistého počtu bude docházet ke klesajícímu užitku, ale vyrobit například 64 jádrové potvory po intelovsku bude sviňsky drahé až nerentabilní. Otázkou zůstává, kolik režie si těch 15 chipletů vezme.

* https://en.wikichip.org/wiki/chiplet

+1
+2
-1
Je komentář přínosný?

Pokud uvážíme, že to nahrazuje multiprocesorový systém (do jisté míry), tak i chipletové řešení s nějakou režii bude výhodnější než více procesorů na desce.

+1
+1
-1
Je komentář přínosný?

Tak samozřejmě, dvouprocesorové řešení má režii o úroveň výš. Chiplety hlavně řeší otázku efektivity výroby. Vlastně jde o dobrý způsob, jak obejít nepřímou úměrnost výtěžnosti a plochy. Já se už divím, že Intel dokáže vyrobit a prodat 28-jádrové monolitické monstum.

+1
+1
-1
Je komentář přínosný?

FPGA (a to potřebuje HBM), AI koprocesor, ITG koprocesor (pro generování mouder do diskuzí, v tom AMD oproti Intelu ztrácí... ;)

+1
0
-1
Je komentář přínosný?

Whitesheet serverového ZEN 3 by se v Intelu mohlo používat jako účinné projímadlo. Už bylo na čase, že se konkurence probrala.

+1
+1
-1
Je komentář přínosný?

1) Zen3 bude nová 19h Family (potvrzeno AMD i leaky)
2) Nová 19h Family prinese podstatné změny oproti Zen1 a Zen2 ( pravděpodobnost 99%)
3) IPC +50% díky 6xALU (70%)
4) +100% FPU výkon díky 4x256 bit FPU (60%)
5) 4-way SMT pro servery (90%)

Takové výkonné jádro bude zabírat o +50% víc tranzistorů => čiplet bude tvořit 1xCCX se 4c/16t.
Tedy logicky bude potřeba více chipletů. Ale zlepší se výtěžnost a výkonu to stejně neubere, protože komunikace mezi dvěma CCX v rámci jednoho chipletu stejně probíhá přes IO chiplet.

14xCPU chipletů + 1xIO by znamenalo CPU 56c/224t.

+1
+2
-1
Je komentář přínosný?

Ak to bude pravda, tak môj 3900X už bude zastaralý :) ale taký výkonový posun, to by bola bomba, Intel bude musieť zamestnať ďalších 10 000 kusov do marketingu

+1
0
-1
Je komentář přínosný?

Ale prd. Intel zvedne frekvence o 200MHz (14nm+++++++), vypustí patch na nějakou díru, co sebere 10% výkonu, a pak vydá interní damage control bulletin o tom, jak je stejně nejlepší.

+1
0
-1
Je komentář přínosný?

Tohoto, co popisuješ, se bojím; že AMD vymyslí Bulldozer...

+1
0
-1
Je komentář přínosný?

Právěže naopak. Bulldozer byl fail protože měl 2ALU na jádro jako prehistorická K6 a byl to krok zpět z 3xALU K7/K8/K10. Proto prohrával proti Haswellu, který měl 4ALU.

Pokud to bude mít 6xALU na jádro tak výkon v singlu vzroste o cca 50%, teoreticky. Možná to bude míň třeba jen 30-40% a teprve Zen4 a Zen5 těch 6ALU vyladí na vyšší výkon, stejně jako Zen1+ a Zen2 teprve vyždímali z původního konceptu Zen1 maximum.

Vše nasvědčuje tomu, že Zen3 byl paralelně vyvíjen se Zen1 (proto přijde tak brzy po Zen2) a bude to velké překvapení zejména pro Intel.

+1
+1
-1
Je komentář přínosný?

1C/4T by bylo překvapení pro všechny. Nadšení ze 4 vláken na jádro nesdílím, ale rád změním názor, když bude důvod.

+1
+1
-1
Je komentář přínosný?

SMT4 se bude dát určitě vypnout, nebo zredukovat na 2-way SMT.
Ostatně spekulace jsou, že v dektopu bude omezen na 2-way SMT. Jen serverové Epycy budou mít 4-way SMT. Takže nás obyčejné smrtelníky SMT4 (vyšší výkon v MT a nižší ST) příliš trápit nebude.

+1
0
-1
Je komentář přínosný?

Tak hlavně aby to fungovalo v uživatelsky typické zátěži, o to tak ňák jde, že.

+1
0
-1
Je komentář přínosný?

Pro desktop bude jen SMT2 jako doposud.
Takže to máš pořád 6xALUs na dvě vlákna, oproti Zen2 kde máš 4xALU na dvě vlákna. Tzn. výkon 3:2 = +50% zhruba navrch. Jinak applí CPU už těch 6xALU má dávno a nárůst výkonu je tam brutální, a to nemají SMT. Můj názor je, že to bude masakr jako když Intel uvedl Haswell proti buldozeru. AMD bude příští 2 roky drtit Intel neskutečným způsobem.

+1
+1
-1
Je komentář přínosný?

Odkud čerpáš tyhle "informace"? Byl bych s tím opatrný.
Ono by stačilo, aby ZEN 3 přinesl stejný posun jako ZEN 2, plus zlepšil spotřebu díky 7nm EUV procesu, snížil latence paměťového subsystému, příp. zvýšil modularitu.
Z obchodního hlediska by mi přišlo rozumnější navýšit výkon každé generace o 10-15 %, stejně tak z výrobního/designového. Spíš počítám s postupným navyšováním, tj. ze 4 ALU jednotek na 5, příp. z 2 FPU na 3. Až ZEN 4/5 přidají další (díky 5nm procesu), už jen kvůli spotřebě a velikosti čipu.

+1
0
-1
Je komentář přínosný?

Ak by to bola pravda, tak AMD má obrovskú príležitosť výrazne odskočiť od konkurencie, ak toho nevyužije na max nasledujúce dva roky tak neviem, Intel určite niečo kuchtí za zatvorenými dverami. To, že Intel nemá poriadnu odpoveď by som využil naplno, lebo to nebude trvať večne.

+1
0
-1
Je komentář přínosný?

- Uvědomte si že vývoj Zen1 začal v roce 2012, takže 5 let vývoje.
- Zen2 měl původně soupeřit s 10nm IceLake a to by pořád byl pomalejší, asi jak Zen1 proti KabyLake.
- Když začal vývoj nové architektury 19h Family Zen3 okolo roku 2013/2014, tak předpokládali že Intel přijde s novou architekturou na 7nm a potřebovali minimálně dvojnásobný skok na úroveň výkonu Intelu, ne pořád zaostávat.

To že nakonec Intel zamrzl na 14nm, je epické selhání managementu Intelu, se kterým ovšem v AMD nemohli počítat když započali s vývojem Zen3. Vypadá to že TSMC se Samsungem jim přetáhli Intelu nejlepší inženýry pro vývoj výrobního procesu, ale kdo ví. Ostatně Samsung přetáhl AMD všechny lidi z týmu co vyvíjel Bobcat/Jaguar. Mmchdm Koduri a Keller na Hot chips říkali, že původně tam ani neměli jet, ale naposlední chvíli jim koupilo vedení letenky a poslalo je tam. V Intelu panuje chaos pánové.

+1
0
-1
Je komentář přínosný?

"V Intelu panuje chaos pánové."
Krzaniche už vymetli, tak snad tam za poslední rok udělali nápravná opatření. Intelu by příští rok stačilo, kdyby vydal TigerLake na 10+ procesu pro všechny segmenty v dostatečném množství. A ne další 14++ iteraci SkyLaku jménem CometLake.
Údajně stávající vývoj/ladění core architektury probíhá pouze v Izraeli (IceLake, TigerLake...). V USA potom Kellerovci dělají na úplně nové architektuře, která ale nepřijde dřív jak v 2023.

+1
0
-1
Je komentář přínosný?

Ono se to řekne nápravná opatření. Ale všechno to má cca 5 let zpoždění než se to projeví. Ikdyby letos přeplatili a přetáhli klíčové lidi od konkurence zpět, tak to bude trvat minimálně 2-3 roky.... takže někdy v roce 2022.

Na ty Kellerovce jsem moc zvědavý s čím přijdou. Kam se Keller hnul tak z toho byl monstr CPU s obrovským výkonem. Původně pracoval v AMD na monstr K8, kterou mu zrušili a vydali "slabou" K8 na bázi K7. Pak byl ve start upu PAsemi, který koupil Apple kvůli jejímu CPU A4 a dnes tam mají nejvýkonnější CPU na světě A12 se 6xALU. Pak se hnul do AMD a vytvořil minimálně Zen1, 2 a nejspíš i koncept pro Zen3. Teď v Intelu určitě kutí něco monstrózního, podle mne nic menšího než 8xALU+SMT4 to být nemůže, když ví že pro AMD navrhl Zen3 se 6xALU+SMT4.

Máme se na co těšit :-D

+1
0
-1
Je komentář přínosný?

Keller, ackoli velmi dobry, neni zadny "druhy jezis". Na ZEN1 nedelal primo, to uz bylo nekolikrat rozebirano.

A ALU nejsou sami o sobe zadnou stribrnou kulkou. Kvuli tomu, ze bylo hodne nevyuziteho potencialu v ALU vlastne vznikl HT a podobne formy SMT. Mit 6 ALU znamena mit ake hooodne siroke jednotky pred tou vlastni ALU. Nejvykonnejsi CPU na svete rozhodne A12 neni. Je dobry v nekterych ulohach v konkurenci ostatnich ARMu. Nevim, kde si prisel na to, ze by A12 mohla konkurovat nejvykonnejsim Power, x86-64 procesorum.

I kdyby si prepocitaval podle frekvence, musis si uvedomit jednu vec, frekvence jsou soucasti navrhu. Kdyz architektura cili na vyssi frekvence, musi byt pro to upravena. Delsi pipeline, cache, atp. Proto nemuzes jednoduse rict, ze kdyby A12 bezel na 4GHz tak by vsechny rozmetal. Stejne tak nemuzes rict, kdyby Ryzen 3900X bezel jen na 2.4GHz tak by byl slabota. Ten procesor neni navrzen aby podaval vykony na takovych frekvencich.

+1
+1
-1
Je komentář přínosný?

Otázka je, jestli aplikace budou vůbec schopny tolik ALU jednotek najednou využít. Dost o tom pochybuji.
Paralelizovatelný kód jako zpracování zvuku a obrazu pravděpodobně půjde upravit na vyšší množství datově nezávislých operací, které budou moci běžet paralelně na všech ALU, ale běžné programy to prakticky nepocítí.
V práci děláme pravidelné benchmarky a vychází nám průměrné IPC optimalizovaného kódu v business aplikaci na cca 0.16, tj. jedna dokončená instrukce zhruba každých 6 taktů. V programu je obrovské množství skoků, načítá se hodně kódu i dat, takže často nestačí L1 cache a na latencích je to velmi znát. Procesor prakticky pořád na něco čeká, hlavně na paměť a ALU se flákají.
Samozřejmě ze všeho nejvíc záleží na tom, co daný program dělá. Každý má jiné požadavky a úzká hrdla. Někde je lepší maximální frekvence (single-thread), jinde datová prostupnost (multi-thread).
Takže vyšší počet ALU může pomoct, ale největší pokroky ve výkonu dělá větší cache s nižší latencí a úspěšnější predikce skoků.
Navíc více ALU je potřeba 'krmit' více instrukcemi, takže je nutné přepracovat dekodér instrukcí, aby zvládal dekódovat až 6 instrukcí za takt. Jenže x86_64 instrukce jsou poměrně dlouhé, takže k tomu je potřeba i zajistit dostatečnou prostupnost instrukční cache a datové sběrnice, vylepšit paměťový subsystém a v podstatě máte na světě úplně jiný procesor...

+1
0
-1
Je komentář přínosný?

Nepletete si náhodou CISC instrukce vlastního x86 kódu a vnitřní RISC primitivní instrukce uvnitř CPU kam ani nemáte přístup něco měřit? - A právě tyto vnitřní RISC instrukce zpracovávaní ALU, AGU, FPU.

S tím dekódování pomáhá buffer uop cache, který také šetří dost energie - to je ovšem stará věc.
Apple už od roku 2016 v jeho mobilní A11 používá 6xALU a všechny Cortexy tím neskutečně drtí.
Pro porovnání v benchmarku SPEC2006int má applí A12 na stejné frekvenci (IPC) +76% oproti SkyLake-X. To je dokonce mnohem víc než očekávaný teoretický nárůst +50% který by odpovídal zvýšení ze 4xALU na 6xALU. A to ani ta A12 nepoužívá SMT pro zlepšení vytížení jednotek!

Takže 6xALU CPU jsou jasná budoucnost. Když tomu AMD přihodí 4-way SMT tak dostane poměr 1.5ALU/vlákno což je méně než současný Zen2, který má 2ALU/vlákno dííky SMT. Tedy o vytížení ALU jednotek se nemusíme vůbec obávat. To je můj názor.

+1
0
-1
Je komentář přínosný?

Neplete si to, naopak ty vidis za ALU neco, co neni.

ALU zpracovava primitivni instrukce (POZOR, to nejsou RISC instrukce, to je casty omyl).

6x ALU neni zadna spasa, je potreba je dobre krmit. Aby je bylo mozne dobre krmit, je potreba mit specialne napsany a prelozeny kod. Coz v ARMovskem svete, specialne na Apple IOS vcelku jde.

Navic SPECINT2006 je velmi, velmi nachylny na pametovy subsystem. Takze 6xALU samo o sobe nic znamenat nemusi. Pocet ALU neni problem, ani nestoji za uspechem A12(x).

+1
-1
-1
Je komentář přínosný?

Tak nám Mali objasni jak se změříš počet RISC instrukcí za takt když k nim není žádný přístup? :D

A aby se nám Mali ztrapnil kompletně, tak ještě tvrdí že více ALU nemá na výkon žádný vliv. Oni asi v AMD jsou úplní hlupáci, že oproti 2xALU Bulldozeru zdvojnásobili u Zenu 4xALU. Ono to vlastně žáný výkon nepřineslo, těch +40% IPC bylo podle Maliho keší. Jen nechápu proč nezůstali u Bulldozeru a jenom mu nevylepšili tu keš, vždyť takhle se zbytečně namáhali, ne? Panebože zaco?

Napiš do AMD a poraď jim s vývojem CPU, na takový jako ty tam čekaj

+1
-1
-1
Je komentář přínosný?

14 + 1... to bude muset bejt pekna placacka na mouchy...
leda, ze by to zacali stackovat jak intel s tim jejich foverosem nebo jak se to menuje

+1
0
-1
Je komentář přínosný?

Ja bych klidne byl za vice nez 64 fyzickych jader :-), proc ne kdyz nam to tak krasne jede...

Osobne si ale myslim ze vic cipletu v serverech pribude hlavne kuli L4 cache a kooprocesorum, smysl HBM nevidim, hlavne kdyz to ma(Epyc) 8 pametovych kanalu kde DDR4 urcite zrychli.

+1
+1
-1
Je komentář přínosný?

Ale třeba 4-8GB HBM2 L4 cache by bylo cool ne? ;D

+1
0
-1
Je komentář přínosný?

To by chtelo vykonove porovnani eDRAM vs HBMII...

+1
0
-1
Je komentář přínosný?

V článku je slovo interposer (křemíková podložka) vysvětleno tolikrát, že mi tam začíná naskakovat "asi nějaká verze CZ"...

+1
+2
-1
Je komentář přínosný?

Prostě, no!

+1
0
-1
Je komentář přínosný?

Do pár let si už klidně budeme kupovat jen desku + Socko - jediný čip složený s CPU, GPU jader a shared (HBM) čipletů. Klidně to může být hiend - 100W CPU + 200W grafika, na to vodníka a je hotovo

+1
0
-1
Je komentář přínosný?

navic, je klidne mozne, ze se zvysi pocet jader v jenom chipletu, treba na 10 nebo 12...to by to mohl intel v serverech rovnou zabalit

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.