Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Centrální čiplet Epyc Rome je 14nm, ale Ryzeny mají 12nm

Anebo je to pro to, že v ROME je tolik spojení mezi chiplety, že by je nebylo možné nacpat na menší centrální a tedy se vydali tou levnější technologií.
O L4 se ale opravdu psalo ...

+1
+1
-1
Je komentář přínosný?

TO bylo první co mě napadlo. Čip by byl tak malý, že by se na jeho obvod nevešlo veškeré IO.

+1
0
-1
Je komentář přínosný?

Rozdíl plochy mezi 12nm a 14nm procesem je 5 % s použitím vhodných knihoven. Pokud zákazník nechce, čim se vůbec zmenšit nemusí (což je případ Ryzenů 2000) a využívá se jen nižší spotřeby a/nebo vyšších frekvencí.

+1
0
-1
Je komentář přínosný?

Proc by IO melo byt jen po obvodu? Nehlede na to ze to jak je cip velkej nesouvisi uplne s vyrobni techonologii ale spis navrhem toho cipu. Samozrejme lepsi technologie umoznuje delat mensi cipy, ale to neznamena ze musej bejt mensi. Spis bych rek ze jde o pomer cena/spotreba. Kde u ctyrjadra ma IO chiplet mnohem vetsi vliv na celkovou spotrebu nez u 64 jadra...

+1
0
-1
Je komentář přínosný?

Bez TSV není možné mít IO jinde než po obvodu. Jinak souhlas.

+1
0
-1
Je komentář přínosný?

To je dobra blbost. IO jinde nez po obvodu je zcela normalni u modernich velkych cipu - cip je totiz metalickou vrstvou dolu - prikulickovan napr pres C4-bumps na organicky substrat, viz popis flip-chip technologie: https://www.slideshare.net/DeepakFloria/flip-chip-technology

+1
+1
-1
Je komentář přínosný?

A L1, L2 a L3 cache je fyzikálně něco jiného než tato jejich "embeded DRAM"? To si myslím, že by nasimulovali i na 12nm nebo čímkoli jiném. Jde jen o způsob práce s tou pamětí, "jak se navenek tváří". Pochybuju, že to projde na výrobní lince například více osvity (nebo se ta osvitová jednotka liší), aby v části čipu vypálili vyloženě DRAM čip. Ten je určitě jednodušší, není tolik 3D, ale jestli jim to za to stálo (modifikovat stroj/stroje na lince), možná ano. Těžko říct. By se musel srovnat obrázek z elektronového mikroskopu DRAM versus cache.

L4 tam sice s nejvyšší pravděpodobností bude (jak by jinak odlišili EPYC od Threadripperu, RAM kanály a multisocket by bylo málo), ale toto (použití 14 nm) není nutnou podmínkou (vyjma výše uvedeného).

+1
0
-1
Je komentář přínosný?

L1 až L3 cache jsou SRAM.. Takže ano, je to něco jiného.

Možná by to mohlo být něco podobného jako měl Intel na Broadwell s Iris GPU - to byla tuším taky nějaká "embedded DRAM".

+1
+1
-1
Je komentář přínosný?

Puvodne jsem se chtel zeptat na zdroj, ale google mi to povedel obratem taky.

Jsem u externich SRAM zvykly na to, ze jsou pomalejsi, nez DRAM a proto jsem se zarazil, ale to je spis otazka konkretnich kusu. DRAM maji hlavne vyssi kapaciu na plochu a tim jejich vyhoda konci. SRAM jsou drahe.

+1
0
-1
Je komentář přínosný?

SRAM může být naopak o dost rychlejší, než DRAM a také AFAIK umožňuje lepší latence.. Dalším faktorem je vhodnost pro výrobní technologii - SRAM je standardně šestice transistorů, což je na rozdíl od DRAM nativní a jednoduché.

+1
0
-1
Je komentář přínosný?

Aha SRAM, jsem si to mohl vygooglit. Tak možná tam vpostelí 512 MB (nějaké pseudo static RAM).

+1
0
-1
Je komentář přínosný?

Osobně bych si tipl, že zavedenější (14nm) proces bude kapacitně dostupnější, levnější, méně chybovější a el. robustnější. U IO die patrně nebude prostor pro využití čátečně vadných, takže jednou ze snah může být i co nejvyšší výtěžnost/wafer.

+1
+3
-1
Je komentář přínosný?

Domnívám se, že prostor pro jádra s nějakou tou nefunkční PCIe linkou nebo SATA rozhraním se najde snadno. Už jen takový Threadripper podle mě nebude mít aktivní vše.

+1
0
-1
Je komentář přínosný?

To asi ano.

Otázkou je, zda Tr 3000 zustane jen u quad-channel(zvlášť u 64-core), některé workstation aplikace by to již mohlo značně brzdit. Třeba se dočkáme nástupce X399 s možností octa-channel RAM, Intel u své náročné WS platformy snad již také quad-channel slibuje překonat.

+1
0
-1
Je komentář přínosný?

Čtyřkanálu bych se nebál. Zen 2 má 2× větší L3 cache, podporu velmi rychlých pamětí, všechna jádra budou mít stejně rychlý přístup k paměti a kdo ví, třeba bude mít TR i L4 cache. Těch vylepšení je tam myslím dost na to, aby čtyřkanál nebyl problém. Více kanálů by navíc znamenalo omezení zpětné kompatibility se stávajícími deskami, které stejně víc neumějí.

+1
+2
-1
Je komentář přínosný?

Cache se uplatní pokud jsou určitá data/instrukce využívány opakovaně. U úloh s nízkým cache-hit-ratio, kde data(kód) z RAM prakticky protékají procesorem (neberou se do ruky opakovaně) jakkoli velká cache větší paměťovou průchodnost(nízkou latenci) nenahradí.

K omezení zpětné kompatibility by nemusel být důvod pokud by se zachoval význam pinů shodný s X399 a další piny u "TR3K a X599" (v duchu EPYCu) využily pro 5-8 kanál . Pinouts TR4 a SP3 by o rezervě možná napověděl více. De8auer snad skoro rozjel EPYC v X399, takže tam značná podoba asi bude.

+1
+1
-1
Je komentář přínosný?

ono táto info zaváňa prípravou na Zen3
https://www.youtube.com/watch?v=il5Zl3vGvVw&t=35

TO má síce evidentný pôvod v zrušenom FPGA AMD Magnum
https://diit.cz/clanek/amd-magnum-fpga

ale urobiť stackovanie na iných technológiách by bolo ťažké, aj keď nie nemožné...

Ono to pri Zen3 aj tak vyzerá ma veľké zmeny

https://www.reddit.com/r/Amd/comments/bm9ti0/amds_zen_3_to_get_4_threads...

A tá AMD "continous integration" je viac-menej trvalá
https://diit.cz/clanek/latence-cache-zen-ryzen-2000

+1
-1
-1
Je komentář přínosný?

Ufff...

"Continuous integration" (mimochodem pises to spatne) je pojem z uplne jineho odvetvi. A i kdyz to das do zavorek, vubec to nedava smysl. CI resi problem ne integrovanych obvodu, ale integrace jako slucovani nekolika ruznych vyvojovych vetvi.

To ZEN3 video...

Chlapec v tom videu mixuje a zamenuje CORE a Thread jakoby se nechumelilo. Mluvi o tom, ze kdyz na jednom jadre bezi vic jak jedno vlanko, ze to muze zefektivnit vyuziti cipu, protoze nektere jednotky se teoreticky flakaji. Coz je pravda, ale pak rika, ze pridanim 3 a 4 vlanka by se odemklo vice vykonu a zacne mluvit o tom, ze ty vlakna by se meli pustit na 3/4 jadre. Proste v jednu chvili o koze, pak zase o voze.

Navic 4-way SMT je priserna nocni mura pro scheduler. Podle me je efektivnejsi zustat u 2-way SMT. Zaprve skalovani vice vlaken na jednom jadre nebude idealni. Zadruhe si nemyslim, ze pujde dobre ridit spotreba, protoze bude OS pred dost silenou situaci. Jednotlive casti jadra (ALU/AGU) asi nepujde moc dobre vypnout. A kdyz bude potrebovat 4 vlakna nekde pustit a mit jakouz takouz odezvu, bude stejne lepsi pustit 4 vlakna na 2 jadrech, pricemz s nimi nepujde az na doraz, nez to vsechno hnat pres jedno jadro.

4-way SMT v x86-64 achitekture je podle me silenost. IBM ma POWER8+, ktere maji vicecestne multivlaknove procesory, ale tam je to vyreseno takovym figlem. SMT4 je blok, tvoren 4 "prouzky" (slices) a kazde z tehle prouzku je vlastne jednoduche 1vlaknove 64-bitove jaderko. Krapet to pripomina GPU architekturu, kdy mate nejaky block, jeden scheduler a kopu stream engines. Jenze prave problem je, ze CPU v x86 svete nemuze spolehat na takovou optimalizaci software.

Projekt MAGNUM podle informaci melo byt specialni FPGA. Jsem si jist, ze nektere veci byly vyuzity znovu, nektere obvody ktere meli byt na specialnim FPGA zakomponovalo AMD primo do ZENu. Ale nechapu, proc to sem zatahujes.

+1
0
-1
Je komentář přínosný?

Díky za komentář. Přesně kvůli takovým sem chodím.
A ještě jednou děkuji za to, že jste popsal, na co reagujete. Ty Fodrekovo komenty nemá smysl číst ani rozklikávat (většinou), takže tak už hezky dlouho nečiním.

Na první pohled mě napadá, že Power8 používá SMT8, ale to jsou věci, které už si dohledám, jak to přesně s tím SMT tam je. Doteď jsem myslel, že tam žádná taková optimalizace v podobě slices není, nenapadlo mě to. Díky za impuls!

+1
0
-1
Je komentář přínosný?

Eh, chybka na moji strane.

POWER7 ma SMT4
POWER8 ma SMT8
POWER9 existuje v obou variantach, jak SMT4, tak SMT8.

+1
0
-1
Je komentář přínosný?

Nemají zástupci SPARC T series až poměr 1:8 core/threads. Osobně jsem si pod tím vždy představoval, že procesor hardwarově udrží context až osmi vláken (obsluhovanými výkonými jednotkami core). Při představě silně mutithreadových zátěží (myslím, že s prvotním modely mířili na midle-tier .. aplikační servery), kde může být podíl režie přepínání contextu vůči výkonnému kódu již nezanedbatelná.

Předpokládal jsem, že Zen3 (prioritně v EPYC segmentu) se pokusí o podobné, pro comsumer segment (Ryzen/TR) by údajně mělo jít pouze o 3-way SMT.

+1
0
-1
Je komentář přínosný?

Ano, SPARC T3 maji az 8 vlaken, ale z toho popisu je zrejme, ze nedokazi pustit vicero zaraz. Protoze popis u SPARC T4+ a M5+ serii uvadi, ze podporuji take 8 vlaken na 1 jadro a zaroven ze dokazi pustit 2 soucasne. Takze ty novejsi SPARC maji SMT-2, stejne jako Intelaci a AMDcka tedka.

Ja jsem proste k tomu ZEN3 a vicecestne SMT hodne skepticky. AMD vi, ze jit cestou dvou rozdilnych architektur neni ekonomicky vyhodne. Mohli by asi udelat to, ze schedulery a par dalsich veci by presunuli do centralniho chipletu a ty vypocetni by byly jen lopataci, ocesane na ALU/AGU atp. Ale to by podle me melo silene latence a rezii.

Pokud zustanou u relativne autonomnich chipletu a centralni hub bude zajistovat nejaou LLC, PCI-E, atp. tak nepujdou do dvou variant. A nejak omezovat dobry chiplet tim, ze tam vynuti jen SMT-3, pricemz fakticky ten chiplet zvlada treba SMT-4, nebo SMT-8, to by bylo hrozne odpadiste.

Proste neverim, ze v x86-64 by to bylo rozumne proveditelne. Prozatim veskere takovehle chipy s SMT-3 a vys byly architektury specialni, jako treba Intel PHI, SPARC, Power...

+1
0
-1
Je komentář přínosný?

Fantazie_on. Pletu se, nebo má Zen2(EPYC2) rozšířený management cache/mem_bandwith (možnost definovat min. cache pro konkrétní prostředky/zátěž)? Co když AMD půjde v managementu ještě dál na úroveň výkonných jednotek. To by pak např. umožnilo dynamicky definovat alokaci virtuálním serverům napříč core ( 70% int, 10% FP, 0% AVX pro VM relizující web hosting; 10% int, 60% FP, 20% AVX pro CAD hosting; 10% int, 30% fp, 80% AVX pro rendering ... hodnoty jen pro příklad). Zákazník by tak mohl za své peníze dostat maximum výkonu. Při vyhrazených prostředcích budou vzhledem k typicky jednostranném charakteru zátěže velká část prostředků zahálet a také energetická efektivita plně vytíženého HW bude zcela jinde. Fantasie_off.

+1
0
-1
Je komentář přínosný?

oceňujem korektný komentár s iným názorom, ktoré je prínosný aj pre druhú stranu.

Pre Windows súhlas, pre Linux a BSD asi nie.

A áno spell check a auto spell check nefungovalo

A áno podobá sa to . Ale Singularity na GCN

https://sylabs.io/2019/06/towards-generalized-gpu-support-in-the-singula...

by sa dala použiť

+1
0
-1
Je komentář přínosný?

No jenze AMD si uz overilo, ze delat dve rozdilne architektury, jednu pro server trh (Linux & BSD) a jednu pro bezne pouziti nema smysl.

Skalovani pres chiplety jde presne opacnou cestou. Centralni chiplet poskytne konektivitu, ktera je pro servery kriticka, ale pro domaci pouziti zbytecna. A vypocetni chiplety k centralnimu muze skladat jak se mu zachce.

Ano, objevili se spekulace, ze pokud bude mit AMD SMT-4, tak bude moct treba u Ryzenu to jadro omezit tak, ze kus vypne a bude stale mit SMT-2, ale nemyslim si, ze to bude ekonomicky rozumna strategie. Hadam, ze ty chiplety nebudou mit takove vady, aby mohlo AMD vypnout jen nektere castecky jadra v CCX.

+1
0
-1
Je komentář přínosný?

V serverech by SMT-4 rozhodně smysl dávalo.. A neměl by být problém mít úroveň SMT v architektuře volitelnou.. Proč by to nebyla ekonomicky rozumná strategie? Logika jádra zabírá poměrně malou část na čipu (většinu spotřebuje cache a I/O) a přidat podporu pro SMT-4 bude otázka pár % plochy. Pro běh velkého množství méně náročných vláken by to bylo ideální a výkon výrazně zvýšilo. Zároveň by to mohlo být i další rozlišení Ryzenů a Threadripperů a získání další výhody v oblasti serverů oproti Intelu (kde potřebují každý bonus, aby povzbudili zákazníky k upgrade a získali větší podíl).

+1
0
-1
Je komentář přínosný?

"Logika jádra zabírá poměrně malou část na čipu (většinu spotřebuje cache a I/O)"
- No jenomze to zapominate na jednu dulezitou vec. AMD v ZEN2 tohle paradigma opustilo. I/O je na centralnim chipletu.

"přidat podporu pro SMT-4 bude otázka pár % plochy."
- Aby dobre fungovalo SMT-4, musite mit vsechny casti pred vlastnimi exekucnimi jednotkamy dostatecne siroke, aby to dokazaly nakrmit. A kdyz to SMT-4 stahnete na SMT-2, pak jsou ty casti cipu/chipletu zbytecne siroke, nevyuzite.

Rozliseni TR a Ryzen na to, ze tam kde jeden model konci s jadry druhy zacina mi prijde dost dobre.

+1
0
-1
Je komentář přínosný?

Nesirte bludy!

Power8 je az 8-way SMT (volitelne 2 / 4 / 8 ), kdyz mi bootne 10 jadrove P8, tak vidim 80 virtualnich jader. Do GPU to ma daleko, protoze ty CU v nich jsou v podstate 32-way SIMD, zatimco u Power lze vykonat rozdilne instrukce!!

MAGNUM je neskutecny fake-news sireny tady na diit nekteryma individui. Nekolikrat jsem poukazal na to, ze to byl projekt cizi firmy, zamereny na digitalni televizi, videodekoder.

+1
0
-1
Je komentář přínosný?

Jak jsem psal nahore, ano udelal jsem chybku v POWER7/8/9.

S tim GPU evidentne neumite cist. Pisu doslova: "Krapet to pripomina GPU architekturu, kdy mate nejaky block, jeden scheduler a kopu stream engines."

Takze pisu, ze to KRAPET pripomina, coz neznamena ze to je nejak blizko. A ze ta podobnost je ciste v tom, ze to ma ten jeden scheduler vytazeny PRED jadro:
"SMT8-cores consist of a number of so-called slices fed by common schedulers. A slice is a rudimentary 64-bit single-threaded processing core"

Evidentne instrukcni sada x86-64, POWER ISA a GPU jsou ruzne. A vlastni jadra vykonavaji ruzne instrukce. To jsem ani nikdy neporovnaval.

A co se tyce Magnum. Neprikladam tomu zadnou velkou vahu. Ale nektere spojene s timto projektem ma AMD a v jeden cas bylo spojene i primo s prototypem:
"PRINTED CIRCUIT BOARD ASSEMBLY-AMD MAGNUM FPGA PROTOTYPEBOARD FOR DTV P/N .102-B25432-00 (FOC)"

+1
0
-1
Je komentář přínosný?

FPGA PROTOTYPEBOARD = deska pro vyvoj neceho, obsahujici FPGA, v tomto pripade "FOR DTV" - pro vyvoj tuneru / SDR whatever. Na 100% to neni neco, co se tyka vyvoje samotnych FPGA. Firma Magnum delala MPEG2 veci ( https://en.wikipedia.org/wiki/Magnum_Semiconductor ), jednalo se o neco dost podobne napr. tomuto: https://www.ebay.com/itm/Magnum-Semiconductor-Pluto-MCM-90-17677-Rev-B-S... - obsahuje to ASIC od Magnum-u, ale taky FPGA od Xilinxu. Ze si AMD navrhlo vlastni verzi, treba pro svoji All-in-wonder radu z toho nedela zadny tajemny FPGA produkt.

+1
0
-1
Je komentář přínosný?

A já si myslím, že AMD tak diverzifikuje své výrobní kapacity, neboť očekává velkou poptávku. :-)

+1
+1
-1
Je komentář přínosný?

Alebo este jedna vec

nevšimol som si, či je 12nm SOI, ale tuším nie je

článok
"14HP is the industry’s only technology to integrate a three-dimensional FinFET transistor architecture on a silicon-on-insulator (SOI) substrate"

A patent AMD

21 October 2004

AN AMD PATENT approved on October the 5th last has interesting implications for the system builder future.

US patent number 6,800,933 was filed on the 23rd of April 2001, with the following abstract: "Various embodiments of a semiconductor-on-insulator substrate incorporating a Peltier effect heat transfer device and methods of fabricating the same are provided. In one aspect, a circuit device is provided that includes an insulating substrate, a semiconductor structure positioned on the insulating substrate and a Peltier effect heat transfer device coupled to the insulating substrate to transfer heat between the semiconductor structure and the insulating substrate."

https://www.theinquirer.net/inquirer/news/1014063/amd-patents-peltier-co...

Peltier na I/O čiplete by mohol byť zaujímavý..

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.