Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k AMD chystá revoluci v cache: SLC, jednotná L2, L3 přesunutá do V-cache

"zbývá vylučovací metodou pouze Epyc Bergamo "

Naopka, Bergamo lze vyloučit jako první, protože Bergamo má mít jen malá jádra.

+1
-5
-1
Je komentář přínosný?

No právě, hodně malých jader, bez L3 cache v čipu, což díky úspoře křemíku, která by jinak zabrala ta L3 cache, umožní tam těch malých jader dát ještě víc. Potom tam tu L3 cache dodají nalepením přes celej křemík a mají hotovo. Aspoň teda já jsem to takto pochopil, může to být jinak.

+1
+12
-1
Je komentář přínosný?

Jenže to není to, co ten leak ukazuje.

Ten leak ukazuje dvojici velkého a malého jádra se společnou L2 cache, přičemž L2 cache a to malé jádro jsou překryty 3DV-cache.

To, co ten leak ukazuje, je jednoznačně desktopový procesor, protože do serveru vůbec kombinaci malých a velkých jader nepotřebujete. Jestli to bude generace Zen5 nebo nějaká mezigenerace, nebo dokonce varianta Zen4, to v tuto chvíli ví jen AMD.

Tím neříkám, že Bergamo nemůže mít výlučně 3DV-cache, pochopitelně může, protože malá jádra to dovolí. To u Genoy nebude možné, protože 3DV-cache na velká jádra prostě kvůli chlazení chipletů nedáte.

Ale ten leak, o kterém pan No-X zarytě tvrdí, že je to Bergamo, prostě Bergamo nikdy být nemůže.

+1
-3
-1
Je komentář přínosný?

tos asi jedinej co nepochopil ze tam zadny velky a maly jadra nejsou.. vsechny jadra ma stejny a obvodovy se pouzivaj prioritne pri nizkym poctu vlaken, kdy je spotreba na jadro vysoka a stredovy se pouzivaj po vycerpani obvodovejch, kdy uz je spotreba na jadro nizka.. cpt out..

+1
+5
-1
Je komentář přínosný?

LOL, takový blábol ani nemá cenu komentovat.

Ovšemže to jsou velká a malá jádra, AMD přeci nebude dělat dvě stejná jádra, jenom proto, aby jedno z nich zaškrtil a plýtval křemík na to, aby z něj udělal low-power jádro.

Všechno svědčí pro to, že to budou dvě optimalizace stejné architektury, jedno jako "efektivní"/"low-power" jádro, nad kterým bude umístěna 3DV-cache (a částečně nad L2 - cache) a vedle toho "plné" Zen4 (či Zen5) jádro.

Rozhodně toto nebude Bergamo...

+1
-3
-1
Je komentář přínosný?

no to je pekny, ale neni zadnej oficialni ani neoficialni zdroj, ze by se zen4 mel kombinovat s nejakejma malejma jadrama.. amd zadny maly jadra nema.. ani ten slajd nic takovyho netvrdi.. tam je vse zen4 a mluvi se tam jen rozdilu ve spotrebe.. kombinovat se bude az se zen5.. vsechno ostatni jsou jen tvy fantazie.. ukladam si linky na tuhle diskusi a rad ti ho po vydani pripomenu.. (:

+1
+1
-1
Je komentář přínosný?

LOL, tak v tuto chvíli není oficiálně známo VůBEC NIC o struktuře Raphaelu.

Co se týče onoho leak, tak je tam doslova napsáno "priority core" vs. "LTDP core".

"amd zadny maly jadra nema.." Ale ano, o Zen4c/4d se ví už dávno.

"ukladam si linky na tuhle diskusi a rad ti ho po vydani pripomenu.. (:"
Dobře děláte, doufám, že se mi pak za ty svoje bláboly omluvíte.

Klidně se s Vámi vsadím, že 1) Bergamo, pokud bude mít 3DV-cache, pak tato bude nade všemi jádry a všechna jádra budou mít stejné TDP.

2) onen leak ukazuje jeden z budoucích desktop procesorů a nikoliv Bergamo a bude složen ze dvou variant (optimalizací), tj. ze dvou rozdílných jader (ale stejné architektury).

+1
0
-1
Je komentář přínosný?

Uz len cakat kedy Jezek vypublikuje blog o tom ako je to strasne naprd a intel aj tak bude lepsi :)

+1
+6
-1
Je komentář přínosný?

Tak to že SLC je super na to nepotřebujeme AMD ani Intel, SLC je tady s námi v reálných zařízeních minimálně 1,5 roku, kupodivu se to jmenuje Apple M1, pokud to už Apple nepoužíval v Axx čipech.

Což mi připomíná, před vydáním Exynosu 2200 tady bylo spousty opěvných ód jak to radikálně změní poměry na straně mobilních čipů a že díky mRDNA to bude graficky asi to nejlepší na trhu.

Exynos 2200 je venku už nějaký ten pátek a článek o tom jak to dopadlo a nejenže to absolutně nemá na mobilní čipy Applu ale že to nemá ani na Snapdragon 8 gen 1, který kromě Evropy dává Samsung do svých mobilů po celém světě a do tabletů si vlastní top Exynos 2200 nedovolí dát ani v té Evropě...

+1
-8
-1
Je komentář přínosný?

se slc fakt neprisel apple, ta byla ve svete x86 davno nez apple napadlo delat vlastni chipy..

+1
+3
-1
Je komentář přínosný?

O to víc by se tedy čtenář měl zamyslet nad nadpisem článku. Revoluce, když už to tu dávno bylo?

+1
-3
-1
Je komentář přínosný?

to mam asi premium, protoze clanek co sem cet nebyl zdaleka jenom o slc.. (:

+1
+2
-1
Je komentář přínosný?

Jiricek si zapomel Premium koupit, no..
;)

+1
0
-1
Je komentář přínosný?

Abych předešel dotazům, posílám rovnou odkaz na podrobnosti:

https://diit.cz/clanek/diit-premium-aneb-exkluzivni-pristup-nejen-k-info...

+1
+1
-1
Je komentář přínosný?

Pokud tím byla myšlena L4 cache Broadwellu, tak lze říct, že ta technologie sama o sobě není nová, ale rovněž lze říct, že implementace nebyla povedená (integrované grafice to nic nepřinášelo) a dostupnost produktů limitovaná. Jinak v případě nadcházejících zenů je SLC jen jeden dílek v celkových změnách cache.

+1
+1
-1
Je komentář přínosný?

"Jinak v případě nadcházejících zenů je SLC jen jeden dílek v celkových změnách cache."

Naprostý souhlas.

+1
0
-1
Je komentář přínosný?

To co používá Apple v M1 není SLC, ale to nevadí...

+1
+1
-1
Je komentář přínosný?

A to jsi vzal kde? Ano používá unifikovanou paměť, je dostupná všemu, stejně tak ale používá System Level Cache = SLC. SLC je fakticky L3 cache, je ale dostupná všem koprocesorům, vidí na mí CPU, GPU, NeuralEngine, image processing, video enginy.

https://www.counterpointresearch.com/m1-pro-m1-max-give-definitive-push-...

Dle toho článku používá SLC i A15 a to 32MB, M1 24MB a u M1 max se píše o 96MB SLC

citace:
SLC (system-level cache)
From the die shots of both the M1 Pro and M1 Max from Apple, the SLC is estimated to reach 48MB and 96MB, much larger than the 32MB of the A15 Bionic and the 24MB of the M1. Apple has boosted the cache capacity to improve system performance while lowering power consumption at the cost of die size. To enhance system efficiency, this SLC can be shared among multiple SoC subsystems (like CPU and GPU cores). Further, the bigger cache can reduce the frequency with which the SoC accesses DRAM, lowering system power consumption, requirement for DRAM and, in turn, the BOM.
Apple has been expanding its APIs for new applications including gaming, ray tracing and augmented reality/virtual reality. All these applications necessitate SoCs with several cores that communicate and collaborate with one another, as well as huge system caches to improve responsiveness.

+1
-1
-1
Je komentář přínosný?

Před tím jsem blbě pochopil ten pojem. Moje chyba.

+1
0
-1
Je komentář přínosný?

Ano Ano , prepacte zabudol som zmienit Apple™.Nase blahoslavene Apple™, Ochrancu nasich dat, pastiera uzavrenych zahrad, krala vykonu a vyroby, pokoritela Androidu, zachrancu nasej datovej cistoty pred kopirovanim suborov a bojovnika za poplatky kazdeho druhu a sposobu. Ospravedlnujem sa. Btw Apple™M1™ SLC nepouziva.

+1
+2
-1
Je komentář přínosný?

M1 a dokonce A15 v iPhone SLC cache používá. A15 32MB, M1 24, M1 Pro 48 a M1 max 96MB

SLC (system-level cache)
From the die shots of both the M1 Pro and M1 Max from Apple, the SLC is estimated to reach 48MB and 96MB, much larger than the 32MB of the A15 Bionic and the 24MB of the M1. Apple has boosted the cache capacity to improve system performance while lowering power consumption at the cost of die size. To enhance system efficiency, this SLC can be shared among multiple SoC subsystems (like CPU and GPU cores). Further, the bigger cache can reduce the frequency with which the SoC accesses DRAM, lowering system power consumption, requirement for DRAM and, in turn, the BOM.

https://www.counterpointresearch.com/m1-pro-m1-max-give-definitive-push-...

+1
-3
-1
Je komentář přínosný?

Az na taky maly detail. Veeelmi zjednodusene , SLC by mala byt kombinacia L2 a L3 cache. M1 chip ma samostatnu L2 cache a potom ma nejaky hybrid L3 a SLC ku ktorej moze pristupovat aj CPU aj GPU.
Kazdopadne toto nie je level prepojenia ktory by mal byt u AMD ani v zlozitosti v jej riadenia.

+1
0
-1
Je komentář přínosný?

A to jsi v článku četl kde že SLC má být kombinací L2 a L3. Článek nic takového nepíše, o L2 s její navyšování píše odděleně a jasně zmiňuje přístupnost té cache CPU jádry.

SLC tak jak je v článku popsaná: Po delší době je opět slyšet o SLC neboli o Infinity Cache unifikované pro GPU i CPU část APU.

Je přesně to co dělá SLC cache v Apple Siliconu… varianty M1, A15. Navíc díky tomu že na SoC je toho více než jen CPU a GPU, je tato cache dostupná i dalším částem.

+1
+1
-1
Je komentář přínosný?

Jenže v případě Exynosu je na vině taky nepovedený výrobní procec, kvůli kterému ten procesor má nižší takty než bylo v plánu. Ostatně i Nvidia od Samsungu právě kvůli výrobnímu procesu taky utíká. Asi jediný, kdo je s výrobou u Samsungu spokojený je IMB, které jak mainframové Telum, tak Power 10 vyrábí, jenže nevyužívá maximální denzitu, ale místo toho jde po taktech, takže Telum má základní takt přes 5 GHz, tak Power 10 podle varianty 3,5 nebo 4 GHz a víc.

+1
+2
-1
Je komentář přínosný?

> Uz len cakat kedy Jezek vypublikuje blog o tom ako je to strasne naprd a intel aj tak bude lepsi :)

... a ještě to doloží benchmarkama xD

+1
0
-1
Je komentář přínosný?

Ono to vyloučení L3 cache mimo hlavní křemík stejně dává stále víc smysl. Už teď může být centrální chiplet sice vyráběný stejnou technologií ale s jinou denzitou a pokud opravdu nejde držet stejnou denzitu i u cache a velikost čipů se už tak co do počtu tranzistorů zvětšuje, dává to perfektní smysl. Ostatně technologie Centaur IBM u procesorů Power dělá vlastně totéž, je to externí cache a radič paměti. Jen tam to jde ještě dál.

+1
+2
-1
Je komentář přínosný?

Centaur? To bylo jádro v CPU od IDT. Nebo ne?

+1
-1
-1
Je komentář přínosný?

Memory Buffer chip
POWER8 and POWER9 splits the memory controller functions by moving some of them away from the processor and closer to the memory. The scheduling logic, the memory energy management, and the RAS decision point are moved to a so-called Memory Buffer chip (a.k.a. Centaur).[16] Offloading certain memory processes to the Memory Buffer chip enables memory access optimizations, saving bandwidth and allowing for faster processor to memory communication.[17] It also contains caching structures for an additional 16 MB of L4 cache per chip (up to 128 MB per processor). Depending on the system architecture the Memory Buffer chips are placed either on the memory modules (Custom DIMM/CDIMM, for example in S824 and E880 models), or on the memory riser card holding standard DIMMs (for example in S822LC models).[18]

The Memory Buffer chip is connected to the processor using a high-speed multi-lane serial link. The memory channel connecting each buffer chip is capable of writing 2 bytes and reading 1 byte at a time. It runs at 8 GB/s in the early Entry models,[17] later increased in the high-end and the HPC models to 9.6 GB/s with a 40-ns latency,[18][19][20] for a sustained bandwidth of 24 GB/s and 28.8 GB/s per channel respectively. Each processor has two memory controllers with four memory channels each, and the maximum processor to memory buffer bandwidth is 230.4 GB/s per processor. Depending on the model only one controller might be enabled,[17] or only two channels per controller could be in use.[18] For increased availability the link provides "on-the-fly" lane isolation and repair.[16]

Each Memory Buffer chip has four interfaces allowing to use either DDR3 or DDR4 memory at 1600 MHz with no change to the processor link interface. The resulting 32 memory channels per processor allow peak access rate of 409.6 GB/s between the Memory Buffer chips and the DRAM banks. Initially support was limited to 16 GB, 32 GB and 64 GB DIMMs, allowing up to 1 TB to be addressed by the processor. Later support for 128 GB and 256 GB DIMMs was announced,[19][21] allowing up to 4 TB per processor.

+1
+1
-1
Je komentář přínosný?

Tak prv napišeš že AMD pekne dodržiava časi vydania ake si stanovili to je cca každe 18 mesiace novi produkt CPU a potom napišeš že ZEN 5 v 2023 čo kalendar sa polamal?
ZEN 4 ma vyjsť toto leto, o 1,5 roka vijde jeho vylepšenie ZEN4+ a o dalši 1,5 roka ZEN 5 taky je postupny plan AMD od ZEN 1, to fakt nieje ZEN 5 v 2023... To by muselo AMD uvadzať každe 6 mesiace novu archytekturu CPU čo je fakt sprostosť.

+1
-6
-1
Je komentář přínosný?

mi ukaz kde amd prohlasila ze vydava zeny po 18 mesicich..

+1
+2
-1
Je komentář přínosný?

Můžou L3 cache zase přesunout na desku a fakticky tak zlevnit procesor.

+1
0
-1
Je komentář přínosný?

Super procesor bude levnější, poruchová deska dražší. Ale to hlavní - latence.

+1
+4
-1
Je komentář přínosný?

Presne tak,

3D cache má nižšiu latenciu ako je latencia cache na chipe (asi 1%)
https://www.youtube.com/watch?v=Uh3WobaaP70&t=302s

Len tomu nie je v Zen3 prispôsobený radič a TLB. A ak má cache nižšiu latenciu ako TLB tak je to problém
https://www.youtube.com/watch?v=rwbs-PN0Vpw&t=590s

+1
-2
-1
Je komentář přínosný?

Příliš pomalé, z hlediska samotné propustnosti, by to možná nějak šlo, ale jde i o latence, na které má vliv dokonce i délka vodičů. Jestli se nepletu tak na jeden 64 MB chip vrstvený na procesorový chiplet je 36 tisíc spojů, těch chipletů je zatím 8 a bude jich 12. Nějak si to reálně neumím představit. Takto to má latenci jen o jeden hodinový cyklus delší než L3 cache přímo na chipletu. Kdysi byly dokonce L2 cache mimo samotný procesorový chip, nejdřív na desce, pak v patici, ale dávno už to není možné.

+1
+3
-1
Je komentář přínosný?

Čím vyšší vzdálenost, tím vyšší náklady a energetické nároky na propojení. Proto AMD vidí trend ve V-cache, která má díky navrstvení nejkratší možné spoje, jaké jsou mezi dvěma kousky křemíku možné.

+1
+3
-1
Je komentář přínosný?

A tak jasně. Ale já z toho obrázku (amd_zen_4_layout) v podstatě vidím to, co Intel tlačí už roky. Stačí pár velkých jader a zbytek malá. Oni to lidé beztak koupí. Je to pořád takové přešlapování.
Bude i to SMT ve verzi 1 fyzické a 4 virtuální?

+1
-4
-1
Je komentář přínosný?

tam zadny maly jadra nejsou.. vsechny jsou stejnej zen4, rozdil je jen v limitech spotreby..

+1
+1
-1
Je komentář přínosný?

"vsechny jsou stejnej zen4, rozdil je jen v limitech spotreby..."

To by AMD bylo úplně blbé, kdyby se dopustilo takového plýtvání.

Navíc, ví se už dost dlouho, že bude víc variant Zen4 jádra (Zen4, Zen4c, Zen4d - a to jsou jen ty varianty, o kterých se veřejně ví), takže naprosto nedává smysl dát dat dvě velká jádra (optimalozovaná na výkon), když chtějí jedno z nich zaříznout a použít jako optimalizované na spotřebu.

To, co tvrdíte, je totální hloupost...

+1
-2
-1
Je komentář přínosný?

Za prvé: žiadne Zen4D neexistuje. Tu máte oficiálne potvrdené iba Zen4 a Zen4C:
https://diit.cz/clanek/amd-potvrzuje-rdna-3-zen-4-v-roce-2022-zen-4c-zac...
Za druhé: Zen4 je jeden produkt a Zen4C je duhý produkt. Žiadna kombinácia oboch neexistuje. V článku uvedená schéma obsahuje 16 kusov Zen4C Bergamo (*8 čipletov = 128 jadier) bez L3 cache. Zen4 Genoa (*6 čipletov = 96 jadier) bude mať L3.

+1
0
-1
Je komentář přínosný?

"V článku uvedená schéma obsahuje 16 kusov Zen4C Bergamo"

LOL, v tom leaku nepadlo o Bergamo ani slovo. To je vlhká fantazie pana No-X...

+1
0
-1
Je komentář přínosný?

To bude ta fíčura, ze které byl M. Clark unešený, když mluvil o ZENu 5 na podzim u PotatoHeada. Znamená to, že se nám časem (minimálně u APUček) vrátí Heterogeneous System Architecture (HSA)?

+1
0
-1
Je komentář přínosný?

Nechce se mi to v tom dlouhem videu RGT hledat, takze primy dotaz. Tohle:

"Zen 5 přinese unifikovanou L2 cache, kdy osm jader bude vybaveno jednou velkou 8MB L2 cache."

.... je potvrzeno primo od AMD, nebo je to cira spekulace ? Ty vyhody jste napsal, s temi nelze nez souhlasit. Ale nevyhody jsou taky docela zasadni. I kdyz je mozne, ze to nejak AMD vyresilo. Treba zvetsi L1 temer na uroven dnesnich L2, pak by to docela smysl davalo. Velka a sdilena L2 bez velke L1 mi smysl nedava.

+1
0
-1
Je komentář přínosný?

"Velka a sdilena L2 bez velke L1 mi smysl nedava."

Velká sdílená L2 bez velké L1-data by dávalo smysl, pokud do budoucna okolo té L2 budou různá jádra, tj. různě optimalizovaná, případně s různou instrukční sadou. Pak je totiž možné procesy velmi rychle přesouvat mezi jádry sdílejícími jednu L2 cache.

Dejme tomu, že např. budeme mít 8 jader, z toho třeba ale jenom 2 nebo 4, co umí AVX3-512.

Případně je tu ještě možnost, že budou speciální jádra pro speciální instrukční sady nebo dokonce akcelerátory, všechna sdílející jednu L2-cache s "normálními" jádry.

To je přesně bod, kde má Intel veliký problém, protože přesum procesu z malého jádra na velké a naopak je velmi neefektivní. Pokud ale jádra budou sdílet L2 a budu mít malou datovou L1 (instrukční L1 bude méně relevantní), pak bude možné daleko víc jednotlivá jádra diverzifikovat a mít i speciální jádra např. jako akcelerátory a přitom přechod z jednoho jádra na druhé bude spojen jen s malou latencí...

To je, kam se to celé zdá směřovat, nejen k samostatných akcelerátorům ve formě chipletu nebo 3d-chipletu, nýbrž ve formě samostatného jádra / bloku v jádře, takže akcelerátor bude spíš něco jako koprocesor, než to, co je dnes GPU, tj. samostatná výpočetní jednotka připojená přes relativně pomalou sběrnici jako je PCIe (nebo i Infinity-Fabric)...

+1
0
-1
Je komentář přínosný?

Bylo by fajn, kdyby po vzoru APU_konzolí/M1 se svět PC dočkal kombinace menší unifikované paměti (přístupné CPU a dGPU) a externí větší neunifikované RAM. Možnost předání datasetu/výsledků mezi CPU a GPU v rámci GPGPU prakticky okamžitě pouze odkazem se asi skrývá za částí výkonu (M1) v současnosti PC platformě zapovězenému kvůli nezbytným časově náročným IO(PCIe) přenosům (CPU/RAM <=> GPU/VRAM).

+1
0
-1
Je komentář přínosný?

To nejde, aby některá jádra neuměla některé instrukční sety. Právě proto Intel AVX-512 musel u velkých jader zakázat.

+1
0
-1
Je komentář přínosný?

Kdyby tomu tak opravdu bylo, stále by asi mohl nechat možnost povolení AVX-512 při disablovaní všech E-core. Což se myslím nestalo a zákaz AVX-512 je universální.

+1
0
-1
Je komentář přínosný?

Tam byly dva důvody. Jednak malá jádra AVX-512 neumí, a SW by je musel rozlišovat a taky jde o to, že vypnutí malých jader a ponechání AVX-512 u velkých může znamenat výhodu pro některý SW. Ale to by zase bořilo Intelu jeho filozofii. Navíc by to některé nižší modely mohlo takto zvýhodnit před vyššími variantami procesorů a tím hatit obchodní strategii. Uvidíme, co udělá se strategií Intelu AMD a jeho ZEN4 které by už AVX-512 měly umět. Když tedy odhlédnu, že variant AVX-512 je asi 7 rozdílných instrukčních setů.

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.