Diskuse k Adamantine Cache by zvyšovala výkon Meteor Lake a Lunar Lake o 5-9 %

Sinuhet | 22. 10. 2024 - 08:51

K tomu poslednímu odstavci, nevyužije náhodou Intel tuhle věc i někde jinde?
Jakože konkurence přijde s takovou velkou cache, takže není od věci to prozkoumat (i když neměl Intel už nějakou tu eDRAM kdysi?). Když se ukáže, že je to perspektivní, tak se to vyvine, a pak se to implementuje někam, kde se to úplně nevyužije; nevadí, můžou to implementovat třeba i do Xeonů nebo GPU, kde to může dávat smysl. Je to samozřejmě škoda práce a křemíku, ale až v té poslední fázi.
IMHO ta cache nepomáhá tolik propustnosti jako spíš latenci pamětí.

no-X | 22. 10. 2024 - 08:53

Cache pomáhá obojímu. CPU je citlivější na latence, GPU je citlivější na propusnost.

Emenems | 22. 10. 2024 - 09:39

Ona hlavne mela byt cache i v Hawk Pointu, tusim.

Reseni se jim urcite nekde podari uplatnit.

Karáš Svorka | 22. 10. 2024 - 13:35

Intel Broadwell měl modely s eDRAM ve formě 128MB L4 cache, třeba taková i7-5775C, byly to první 14nm Intely a byly dražší než Haswell + výkon nebyl výrazně lepší, levnější Haswell byl často rychlejší.

marder | 23. 10. 2024 - 16:42

Dobrý postřeh. Ta L4 cache byla i na Skylake procesorech ve velikosti 64/128MB ve vylepšené verzi. Ale nedá se hovořit o ní jako klasické cache, ale jako o DRAM buffer pro jak CPU, tak grafiku Intel Iris/Iris Pro.
Nějaký podobný buffer bude mít AMD na APU Strix Point, protože DDR5 propustnost už nestačí na 1024SP iGPU. Také, ač k nevoli určitých kupujících, jsem zahlédl napájené paměti u nějakého laptopu s tímto APU aby dosáhli širší datové sběrnice.

Waffer47 | 22. 10. 2024 - 12:22

Intel mohl +64MB LLC / SLC pridat do Arrow Lake a vytvorit herni model G, vzdyt to ma kurva 5 dlazdic(!), AMD uziva jenom 3-č., nepotrebuje pouzdreni jako intel a dokaze kurva udelat X3D...

melkor | 22. 10. 2024 - 13:21

Mohli to dát místo té výplňové dlaždice.

Mikrofoto a srovnání Intel 7 vs TSMC N3B
https://wccftech.com/intel-core-ultra-9-285k-cpu-detailed-die-shots-3nm-...

Honza1616 | 22. 10. 2024 - 13:49

Ne nemohli, všechno má svoje místo v návrhu, aby například byla jedna část co nejblíže k jiné části,
Pro příklad si vzpomeň na první dlaždicové (serverové) CPU Intelu, teď přesně nevím jméno té generace, ale byl tam CPU s 1 dlaždici, s 2 dlaždicemi a s 4 dlaždicemi, a ty spojované dlaždice musejí být na čipu v určité orientaci, nemůžeš je naskládat vedle sebe jen tak.
Tedy stejně jako se skládají dlaždice k sobě, musejí k sobě navazovat i jednotlivé části uvnitř v té dlaždici, je to takový Terris.

Věř že kdyby Intel mohl tak architekturu uvnitř jednotlivých dlaždic změní tak aby se změnil o konečný tvar dlaždice a nemusela tam ta výplň vůbec být.
Jenže ten návrh mikroarchitektury má svoje pravidla, něco musí být vedle něčeho jiného, nesmí to být na opačné straně čipu, takže pokud chceš dát nějakou cache do takového CPU, tak to bude mít přesně svoje místo, nemůžeš to plácnout do prvního volného místa

melkor | 22. 10. 2024 - 17:01

Intel tu podobu těch dlaždic měnil několikrát.
Protože se tak nějak nedařilo umravnit výrobní linky do použitelného stavu.

".. (serverové) CPU Intelu, s 1 dlaždici, s 2 dlaždicemi a s 4 dlaždicemi .."
O tom vím. Polovina dlaždic byla vyrobena zrcadlově, aby ta rozhraní k sobě sedla.

Honza1616 | 23. 10. 2024 - 09:02

No vidíš a proto musejí být části čipu tam kde jsou a nemůžeš je dát třeba všechny vedle sebe nebo třeba doprostřed dlaždice.
A tak stejně to platí u všech dlaždic, čipletu nebo monolitických CPU.
Pro příklad jsem vzal obrázek toho CPU z tebou přiloženého odkazu a trochu do něj kreslil.
Nelze přeházet třeba L1 cache která musí být uvnitř jádra spolu s výpočetními jednotkami a přesouvat ji třeba na kraj čipu, nebo L2 cache která se táhne středem dlaždice a zformovat ji do kompaktnějšího tvaru, ideálně hned vedle dát taky L3 cache která je teď na jiné samostatné dlaždici.
https://i.ibb.co/bP0LKNt/Screenshot-20241023-073909-Edge-4.jpg

Dalším příkladem může být DDR na I/O čipletech Threadrriperů a Epyců
DDR jsou po stranách aby rozhraní bylo co nejblíže k paměťovým kanálům na desce a ty vedou do stran protože DDR sloty jsou na obou stranách, i když by to bylo super kdyby to bylo vedle sebe, musela by data v datových cestách vést okolo čipletu na protější stranu k druhé sadě slotů, což by prodlužovalo latence
https://www.hyperscalers.com/image/catalog/!Commodities%20/AMD%20ZEN4%20...

Stejně tak to platí u GPU, tady třeba RTX4090
https://i.ibb.co/4JmZ5qc/Screenshot-20241023-081426-Edge-2.jpg
Jednotlivé bloky FP32/INT32 (FP32) jsou u sebe po 16, stejně tak Tensor Core, ale nemůžeš je přesunout vedle sebe aby to zjednodušilo návrh, protože ty části mají nějakou hierarchii a komunikační procesy

Ono by to bylo všechno strašně pěkný kdyby se to tak mohlo dělat a hodně by to návrhářům architektur zjednodušilo práci, ale vše má svoje místo jak v rámci komunikace ostatních interních procesu v dlaždici, tak i s dalším HW třeba na desce, sloučit některé věci nebo je přesunout vedle sebe, nebo naopak roztáhnout po celém čipu, třeba jádra aby se teplota rozložila na celý křemík a nevytvářel se jeden velký hotspot.
Podobně u GPU by se dalo vyčlenit Tensor Core a RT do 2 velkých bloků na samotnou dlaždici, jenže i ty Tensor jádra musejí komunikovat s CUDA jádry (SM)

Všechno by se zjednodušilo kdyby to šlo dělat tak jednoduše, někdy by se něco i zrychlilo ale na úkor rapidního zpomalení něčeho jiného.
Ušetřilo by se třeba nějaké místo když by šlo některé části v dlaždicích stlačit nebo naopak natáhnout do výšky či otočit o 90/180° nebo jinak přeskupit. Výsledek by nemusel vypadat tak chaoticky při pohledu na dnešní CPU Intelu
https://hardware.info/images/editorial/1200/115125_002_o.jpg
A měl by kompaktní stejné rozměry bez žádných výplní a vypadalo by to jako monolit, bohužel to tak udělat nejde a i kdyby se vše vyrábělo stejným nanometrovým procesem u jedné firmy , tak prostě tvar dláždit který je dán strukturou architektury by to tak jako tak celé rozhodil.
Tak jako teď Intel musí používat výplně na prázdné místa v CPU vedle dlaždic, tak úplně stejně je to i v tom křemíku kde je jen prázdné místo a není tam ani jediný tranzistor

Je to takový mikro Terris,
složit tu architekturu aby to bylo co nejefektivnější nic nebylo zpožděné ale aby to komunikovalo co nejrychleji,
zároveň to zabíralo co nejméně místa ale taky nevytvářelo zbytečně hluchá místa bez jediného tranzistoru, kterým se prostě nedá vyhnout ale dají se minimalizovat
a to vše v celku aby mělo co nejmenší tvar

No vidíš a proto musejí být

Honza1616 https://diit.cz/profil/2badkw3tjj

23. 10. 2024 - 09:02 https://diit.cz/clanek/adamantine-cache-zvysovala-vykon-meteor-lake-lunar-lake-o-5-9/diskuse No vidíš a proto musejí být části čipu tam kde jsou a nemůžeš je dát třeba všechny vedle sebe nebo třeba doprostřed dlaždice. A tak stejně to platí u všech dlaždic, čipletu nebo monolitických CPU. Pro příklad jsem vzal obrázek toho CPU z tebou přiloženého odkazu a trochu do něj kreslil. Nelze přeházet třeba L1 cache která musí být uvnitř jádra spolu s výpočetními jednotkami a přesouvat ji třeba na kraj čipu, nebo L2 cache která se táhne středem dlaždice a zformovat ji do kompaktnějšího tvaru, ideálně hned vedle dát taky L3 cache která je teď na jiné samostatné dlaždici. https://i.ibb.co/bP0LKNt/Screenshot-20241023-073909-Edge-4.jpg Dalším příkladem může být DDR na I/O čipletech Threadrriperů a Epyců DDR jsou po stranách aby rozhraní bylo co nejblíže k paměťovým kanálům na desce a ty vedou do stran protože DDR sloty jsou na obou stranách, i když by to bylo super kdyby to bylo vedle sebe, musela by data v datových cestách vést okolo čipletu na protější stranu k druhé sadě slotů, což by prodlužovalo latence https://www.hyperscalers.com/image/catalog/!Commodities%20/AMD%20ZEN4%20EPYC%209004%20CPU/Single%20socket%20server.png Stejně tak to platí u GPU, tady třeba RTX4090 https://i.ibb.co/4JmZ5qc/Screenshot-20241023-081426-Edge-2.jpg Jednotlivé bloky FP32/INT32 (FP32) jsou u sebe po 16, stejně tak Tensor Core, ale nemůžeš je přesunout vedle sebe aby to zjednodušilo návrh, protože ty části mají nějakou hierarchii a komunikační procesy Ono by to bylo všechno strašně pěkný kdyby se to tak mohlo dělat a hodně by to návrhářům architektur zjednodušilo práci, ale vše má svoje místo jak v rámci komunikace ostatních interních procesu v dlaždici, tak i s dalším HW třeba na desce, sloučit některé věci nebo je přesunout vedle sebe, nebo naopak roztáhnout po celém čipu, třeba jádra aby se teplota rozložila na celý křemík a nevytvářel se jeden velký hotspot. Podobně u GPU by se dalo vyčlenit Tensor Core a RT do 2 velkých bloků na samotnou dlaždici, jenže i ty Tensor jádra musejí komunikovat s CUDA jádry (SM) Všechno by se zjednodušilo kdyby to šlo dělat tak jednoduše, někdy by se něco i zrychlilo ale na úkor rapidního zpomalení něčeho jiného. Ušetřilo by se třeba nějaké místo když by šlo některé části v dlaždicích stlačit nebo naopak natáhnout do výšky či otočit o 90/180° nebo jinak přeskupit. Výsledek by nemusel vypadat tak chaoticky při pohledu na dnešní CPU Intelu https://hardware.info/images/editorial/1200/115125_002_o.jpg A měl by kompaktní stejné rozměry bez žádných výplní a vypadalo by to jako monolit, bohužel to tak udělat nejde a i kdyby se vše vyrábělo stejným nanometrovým procesem u jedné firmy , tak prostě tvar dláždit který je dán strukturou architektury by to tak jako tak celé rozhodil. Tak jako teď Intel musí používat výplně na prázdné místa v CPU vedle dlaždic, tak úplně stejně je to i v tom křemíku kde je jen prázdné místo a není tam ani jediný tranzistor Je to takový mikro Terris, složit tu architekturu aby to bylo co nejefektivnější nic nebylo zpožděné ale aby to komunikovalo co nejrychleji, zároveň to zabíralo co nejméně místa ale taky nevytvářelo zbytečně hluchá místa bez jediného tranzistoru, kterým se prostě nedá vyhnout ale dají se minimalizovat a to vše v celku aby mělo co nejmenší tvar https://diit.cz/clanek/adamantine-cache-zvysovala-vykon-meteor-lake-lunar-lake-o-5-9/diskuse#comment-1476620 +

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Adamantine Cache by zvyšovala výkon Meteor Lake a Lunar Lake o 5-9 %

Komerční sdělení

CDR Hry

Má AI svá temná zákoutí podobně jako Darkweb?

Kyslík nestačí. Nová studie ukazuje jiný způsob hledání života ve vesmíru

RAM krize dopadá na hráče. Microsoft mluví o 32 GB, internet reaguje ostře

Epic rozdává zdarma hru, která potěší hráče fantasy strategických her

Zákaz trollů, goblinů a holubů. Interní pravidla OpenAI zní jako pořádná satira

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT