Diskuse k Lisa Su: Architektura dostane přednost před výrobním procesem

Tralalák | 5. 11. 2019 - 00:56

Pokiaľ nemáte prístup ku kvalitnej litografii, ktorá hodne stojí a keď aj máte tak je málo voľných kapacít aby ste čokoľvek zásadne na trhu zmenili - bez tak je to alchýmia keď dostáva architektúra prednosť pred výrobným procesom.

Zhaoxin (VIA) v súčasnosti pabierkuje s KX-6000 (ZX-E) len na 16nm FF TSMC s ,,Bulldozerovým,, IPC.

Ja len dúfam, že pre najnovšiu microarchitktúru KX-7000 (ZX-F) im bude dopriate 7nm a neskončí (rozum. nezačne) to v 2020 niekde na 12nm...
Tak či onak už dnes majú ES-ka KX-7000 (ZX-F) ,,Zenovité,, IPC, takže číňania už čoskoro to embargo na Xenony a pod. prelomia keďže čínske klony Hygon Dhyana zostanú na 14nm tj. ČinZeny 2 na lepšej litografii nebudú...

link: https://browser.geekbench.com/v5/cpu/526995

P.S. rozmýšľam nad tým čo Intel sleduje tým, že si nechal AMD zmŕtvyvstať so Zenom a v podstate pri 7nm litografii Ryzenov 3000 atď. sa nechať ,,prešťať,, :-) Samozrejme je to hlavne zásluha AMD aby bolo jasno! a to ani nehovorím, že po stránke architektúry (IPC) sa na nich dohnal aj 100 (slovom: sto) členný tím Centaur Technology (Zhaoxin /VIA). Nie som idealista, ale a domnievam sa, že pokiaľ sa zo zotrvačnosti ešte pár rokov budú aj horšie produkty omnoho lepšie predávať a tvoriť zisk tak tie čarovné šuflíky zázračných nových microarchitektúr môže Intel ladiť pre pokročilejšie litografie. Ale i tak, že by to bolo svedomie nechať sa konkurencii pri už vyčerpanej slepej vetve sa nadýchnuť pred nejakým VEĹKÝM SKOKOM možno kvantového (pseudo kvantového) ľadenia? Uff nechám sa prekvapiť pretože mi v tom celom chýba kauzalita resp. možno len ako som uviedol vyššie nebolo nám dopriate nazrieť za Covy, Zeny....................ZX-F ...

Pokiaľ nemáte prístup ku

Tralalák https://diit.cz/profil/tralalak

5. 11. 2019 - 00:56 https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse Pokiaľ nemáte prístup ku kvalitnej litografii, ktorá hodne stojí a keď aj máte tak je málo voľných kapacít aby ste čokoľvek zásadne na trhu zmenili - bez tak je to alchýmia keď dostáva architektúra prednosť pred výrobným procesom. Zhaoxin (VIA) v súčasnosti pabierkuje s KX-6000 (ZX-E) len na 16nm FF TSMC s ,,Bulldozerovým,, IPC. Ja len dúfam, že pre najnovšiu microarchitktúru KX-7000 (ZX-F) im bude dopriate 7nm a neskončí (rozum. nezačne) to v 2020 niekde na 12nm... Tak či onak už dnes majú ES-ka KX-7000 (ZX-F) ,,Zenovité,, IPC, takže číňania už čoskoro to embargo na Xenony a pod. prelomia keďže čínske klony Hygon Dhyana zostanú na 14nm tj. ČinZeny 2 na lepšej litografii nebudú... link: https://browser.geekbench.com/v5/cpu/526995 P.S. rozmýšľam nad tým čo Intel sleduje tým, že si nechal AMD zmŕtvyvstať so Zenom a v podstate pri 7nm litografii Ryzenov 3000 atď. sa nechať ,,prešťať,, :-) Samozrejme je to hlavne zásluha AMD aby bolo jasno! a to ani nehovorím, že po stránke architektúry (IPC) sa na nich dohnal aj 100 (slovom: sto) členný tím Centaur Technology (Zhaoxin /VIA). Nie som idealista, ale a domnievam sa, že pokiaľ sa zo zotrvačnosti ešte pár rokov budú aj horšie produkty omnoho lepšie predávať a tvoriť zisk tak tie čarovné šuflíky zázračných nových microarchitektúr môže Intel ladiť pre pokročilejšie litografie. Ale i tak, že by to bolo svedomie nechať sa konkurencii pri už vyčerpanej slepej vetve sa nadýchnuť pred nejakým VEĹKÝM SKOKOM možno kvantového (pseudo kvantového) ľadenia? Uff nechám sa prekvapiť pretože mi v tom celom chýba kauzalita resp. možno len ako som uviedol vyššie nebolo nám dopriate nazrieť za Covy, Zeny....................ZX-F ... https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse#comment-1273976 +

del42sa | 5. 11. 2019 - 08:14

@tralalák: i tak klobouk dolů za to co VIA s tak malým teamem dokázala. Jistě dělat větší CPU by bylo fajn, stejně jako mít třetího hráče na trhu CPU, ale vše je o penězích a prioritách. V tom join venture s číňany je ale vidět jedna věc, že akcelerace vývoje nových CPU se u VIA raketově zvýšila. Takže kdo ví co bude za pár let :-) Jediná kaňka na kráse je totální umrtvení S3 graphic, na tom by se ve Via mohli spolu s číňany ještě zamyslet...

Tralalák | 5. 11. 2019 - 12:45

Aj "S3" by malo ako iGPU, ale aj v podobe diskrétnych dGPU obživnúť pod Zhaoxnom :-)
Sám som zvedavý čo predstavia...

del42sa | 5. 11. 2019 - 14:36

to by byla milá změna .-)

Mali | 5. 11. 2019 - 12:18

No nevim, kde si prisel na "zenovite" IPC. Podle Geekbenche, ktery si sam postoval ma to ZX-F single core 35% vykonu pri 55% frekvence Ryzenu 3700X.

To mi prijde jako hodne velka mezera.

Tralalák | 5. 11. 2019 - 12:43

Dajte si za akýkoľvek výsledok v geekbench 5 .gb5 a uvidíte min a max frekvencie toho ktorého procesora a pri Ryzenu 3700X tam určite nebudete mať 3.6GHz, ale napr.

4,29 GHz až 4.39 GHz a pod.

https://www.cnews.cz/procesor-via-zhaoxin-kx-7000-unik-geekbench-nova-ar...

Mali | 5. 11. 2019 - 13:00

Asi delam neco spatne, ale v obou pripadech, tedy vami linkovany i ten s kterym jsem porovnaval pise jen o "base frequency".

https://browser.geekbench.com/v5/cpu/531702
A samozrejme, ze Ryzen ma boost. Ale vite urcite, ze ten ZX-F bezel jen a pouze na zakladni frekvenci? Z toho linku to neni poznat.

Tralalák | 5. 11. 2019 - 16:32

AMD Ryzen 7 3700X 3.6GHz

"processor_frequency": {
"frequencies": [
4323,
4324,
4323,
4329,
4324,
4296,
4294,
4295,
4294,
4294,
4298,
4313,
4331,
4328,
4332,
4325,
4325,
4329,
4324,
4328,
4334,
4350,
4355,
4339,
4331,
4363,
4353,
4349,
4354,
4350,
4334,
4356,
4338,
4270,
4296,
4291,
4295,
4255,
4297,
4307,
4335,
4323,
4320,
4323
]

{
"id": 68,
"name": "Processor Minimum Frequency",
"value": "4.29 GHz",
"ivalue": 4295,
"fvalue": 4295.0
},
{
"id": 69,
"name": "Processor Maximum Frequency",
"value": "4.39 GHz",
"ivalue": 4391,
"fvalue": 4391.0
},

zdroj: https://browser.geekbench.com/v5/cpu/531702.gb5
_______________

ZX-F OctaCore 2000MHz

"processor_frequency": {
"frequencies": [
1993,
1992,
1993,
1993,
1993,
1993,
1993,
1993,
1993,
1993,
1993,
1993,
1993,
1993,
1992,
1992,
1993,
1993,
1992,
1993

{
"id": 68,
"name": "Processor Minimum Frequency",
"value": "1.99 GHz",
"ivalue": 1992,
"fvalue": 1992.0
},
{
"id": 69,
"name": "Processor Maximum Frequency",
"value": "2.00 GHz",
"ivalue": 1996,
"fvalue": 1996.0

zdroj: https://browser.geekbench.com/v5/cpu/526995.gb5

AMD Ryzen 7 3700X 3.6GHz

Tralalák https://diit.cz/profil/tralalak

5. 11. 2019 - 16:32 https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse AMD Ryzen 7 3700X 3.6GHz "processor_frequency": { "frequencies": [ 4323, 4324, 4323, 4329, 4324, 4296, 4294, 4295, 4294, 4294, 4298, 4313, 4331, 4328, 4332, 4325, 4325, 4329, 4324, 4328, 4334, 4350, 4355, 4339, 4331, 4363, 4353, 4349, 4354, 4350, 4334, 4356, 4338, 4270, 4296, 4291, 4295, 4255, 4297, 4307, 4335, 4323, 4320, 4323 ] { "id": 68, "name": "Processor Minimum Frequency", "value": "4.29 GHz", "ivalue": 4295, "fvalue": 4295.0 }, { "id": 69, "name": "Processor Maximum Frequency", "value": "4.39 GHz", "ivalue": 4391, "fvalue": 4391.0 }, zdroj: https://browser.geekbench.com/v5/cpu/531702.gb5 _______________ ZX-F OctaCore 2000MHz "processor_frequency": { "frequencies": [ 1993, 1992, 1993, 1993, 1993, 1993, 1993, 1993, 1993, 1993, 1993, 1993, 1993, 1993, 1992, 1992, 1993, 1993, 1992, 1993 { "id": 68, "name": "Processor Minimum Frequency", "value": "1.99 GHz", "ivalue": 1992, "fvalue": 1992.0 }, { "id": 69, "name": "Processor Maximum Frequency", "value": "2.00 GHz", "ivalue": 1996, "fvalue": 1996.0 zdroj: https://browser.geekbench.com/v5/cpu/526995.gb5 https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse#comment-1274046 +

6xALU Apple A13 | 5. 11. 2019 - 03:35

1) Tak hlavně mikroarchitektura CPU je nezávislá na výrobním procesu. To znamená, že vysokofrekvenční CPU bude dosahovat vysokých frekvencí na jakémkoliv procesu, samozřejmě různě vysokých. Prostě ty krátké stage obsahují méně tranzistorů v sérii a tedy ten domino efekt překlápění tranzistorů trvá kratší dobu. Problém je pokud srovnávám CPU na 32nm (BD) a druhý na 22nm (IvyBridge).

2) BD byl naprostý fail kvůli jádru se 2xALU a ne kvůli nižším frekvencím. Haswell přišel v roce 2013 se 4xALU a byl prakticky 2x rychlejší na stejné frekvenci. BD by tudíž nepomohla ani frekvence 6 GHz, nejspíš ani 8 GHz. Prostě jim utekli kvalitní inženýři a tohle byl výsledek. Však Read dlouho naháněl Kellera aby se vrátil do AMD.

3) Jinak pokud Zen 3 bude mít 6xALU jako ten Apple A12, tak to nebude stát moc tranzistorů. Pokud jádro A12 má 2.07 mm2, tak ten nárůst na 6 ALU může stát bajvoko 0.5 mm2. Pro osmijádrový CCD to bude zanedbatelných 4 mm2. AMD nepotřebuje čekat na 5nm proces s novým širokým jádrem. Ty leaky s novým SMT4 jádrem můžou být docela dobře pravdivé.

4) Není to jediná zmínka od Lisy o něčem zásadním co teprve chystají. Když po uvedení Zen 2 byly spekulace o jejím odchodu do IBM, tak to popřela se slovy, že to nejlepší teprve přijde tak není důvod odcházet zrovna teď. IMHO myslela tím Zen 3.

del42sa | 5. 11. 2019 - 08:50

1) čím vyšší frekvence = tím delší/hlubší pipeline, která má víc stages = větší penalta při špatném odhadu

2) Problémem BD nebyly 2ALU, ale totálně zmršený cache systém (extrémně malá L1D$, Instrukční cache s velice nízkou asociativitou, mizerná through-write L2$ a pomalá L3$ s extrémní latencí, bottleneck v decode části atd.)

3) Apple = hrušky, x86 = jablka ale klidně to mixuj dohromady.

4) přání otcem myšlenky ?

Peter Fodrek | 5. 11. 2019 - 08:50

1. O ale nepíše o počte stupňov pipeline
"Prostě ty krátké stage obsahují méně tranzistorů v sérii a tedy ten domino efekt překlápění tranzistorů trvá kratší dobu. "

ale o tom, že v rámci jednej stage onekorenie medzi tranzistormi v rámci jednej stage sú menšie..

6xALU Apple A13 | 5. 11. 2019 - 18:09

Přesně tak, počet stupňů pipeline jsem vůbec nezmiňoval, byť to sekundárně souvisí. Primárně se navrhuje stage na určitou cílovou frekvenci při dané voltáži. Typicky CPU navrhují pro max frekvenci, takže jdou na limit s volty (1.4V) a tomu odpovídá frekvence spínání jednoho tranzistoru např. 500 GHz. Pokud mám cílovku 5 GHz, tak logicky mi z toho vyplyne, že můžu mít na jednu stage v sérii max 100 tranzistorů. A sekundární efekt je délka pipeline, kdy to musím rozdělit na tolik stage, aby se funkcionalita čipu vlezla do stages po 100 tranzistorech. Proto se funkcionalita CPU přidává výhradně paralelně (do šířky). Proto mají ALUs několik různých funkcí, jenom tranzistorová vlna teče paralelně jinudy, ale trvá pořád stejně dlouho, aby se to stihlo v jednom "tiku". Nevýhoda je, že můžu v jednom taktu využít jen jednu funkcionalitu, ostatní tranzistory leží ladem. Více ALU je výhodnějších protože mohou pracovat současně. A to přesně dělá ten Apple, má větší počet jednodušších ALU.

Pokud navrhuji úsporný čip, třeba GPU Turing NV navrhla tak, že dokáže běžet při nízké voltáži na vysokých frekvencích. Při cílových 0.9V mi z tranzistorové charakteristiky vypadne bajvoko plácnu 300 GHz, takže pro cílovou frekvenci 2 GHz dostanu maximálně 150 tranzistorů na jednu stage => NV musela nejspíš dost prodloužit pipeline, což ale u GPU zase tak moc nevadí, není tam missprediction penalta jako u CPU. Problém je, že Radeony od Cypresu až po Polaris mají zastaralou architekturu (více tranzistorů ve stage), takže pro dosažení podobných frekvencí musí běžět při větších voltech. U Navi už to trochu vylepšily, typicky se to dělá tak, že tu nejdelší/nejpomalejší stage splitnou na dvě a tím odstraní frekvenční bottleneck daný tou nejpomalejší stage. Plus 7nm proces tomu taky dost pomohl, ale pořád to žere jak prokopnuté. Je to vylepšený, ale pořád z hlediska pipeline zastaralý Polaris. Nová PS5 a XBox by už mohli mít něco zbrusu nového.

Přesně tak, počet stupňů

6xALU Apple A13 https://diit.cz/profil/richard-broda

5. 11. 2019 - 18:09 https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse Přesně tak, počet stupňů pipeline jsem vůbec nezmiňoval, byť to sekundárně souvisí. Primárně se navrhuje stage na určitou cílovou frekvenci při dané voltáži. Typicky CPU navrhují pro max frekvenci, takže jdou na limit s volty (1.4V) a tomu odpovídá frekvence spínání jednoho tranzistoru např. 500 GHz. Pokud mám cílovku 5 GHz, tak logicky mi z toho vyplyne, že můžu mít na jednu stage v sérii max 100 tranzistorů. A sekundární efekt je délka pipeline, kdy to musím rozdělit na tolik stage, aby se funkcionalita čipu vlezla do stages po 100 tranzistorech. Proto se funkcionalita CPU přidává výhradně paralelně (do šířky). Proto mají ALUs několik různých funkcí, jenom tranzistorová vlna teče paralelně jinudy, ale trvá pořád stejně dlouho, aby se to stihlo v jednom "tiku". Nevýhoda je, že můžu v jednom taktu využít jen jednu funkcionalitu, ostatní tranzistory leží ladem. Více ALU je výhodnějších protože mohou pracovat současně. A to přesně dělá ten Apple, má větší počet jednodušších ALU. Pokud navrhuji úsporný čip, třeba GPU Turing NV navrhla tak, že dokáže běžet při nízké voltáži na vysokých frekvencích. Při cílových 0.9V mi z tranzistorové charakteristiky vypadne bajvoko plácnu 300 GHz, takže pro cílovou frekvenci 2 GHz dostanu maximálně 150 tranzistorů na jednu stage => NV musela nejspíš dost prodloužit pipeline, což ale u GPU zase tak moc nevadí, není tam missprediction penalta jako u CPU. Problém je, že Radeony od Cypresu až po Polaris mají zastaralou architekturu (více tranzistorů ve stage), takže pro dosažení podobných frekvencí musí běžět při větších voltech. U Navi už to trochu vylepšily, typicky se to dělá tak, že tu nejdelší/nejpomalejší stage splitnou na dvě a tím odstraní frekvenční bottleneck daný tou nejpomalejší stage. Plus 7nm proces tomu taky dost pomohl, ale pořád to žere jak prokopnuté. Je to vylepšený, ale pořád z hlediska pipeline zastaralý Polaris. Nová PS5 a XBox by už mohli mít něco zbrusu nového. https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse#comment-1274058 +

Mali | 6. 11. 2019 - 13:41

Proces ti urcuje parametry tranzistoru, jak rychle za jakeho napeti dokaze prepinat.

Takze cela tvuj prispevek pada na hubu. Protoze architektura je zavisla na procesu. Protoze proces urcuje kolik a jak rychlych tranzistoru si muze ta architektura dovolit pri jakem odberu.

Dokonce neni ani pravda to tvuj model 100 tranzistoru na stage. Kde jsi k tomu prisel. Existuji a existovali architektur, ktere meli ruzne frekvencni domeny pro ruzne casti. Napr. u Pentium 4 pouzival intel tzv. "Rapid Execution Engine" kdy ALU operovali na 2x vetsi frekvenci nez zbytek cipu. A ALU jsou soucasti pipeline, takze to primo rozporuje tvoje tvrzeni.

"Více ALU je výhodnějších protože mohou pracovat současně. A to přesně dělá ten Apple, má větší počet jednodušších ALU."

Teoreticky, v omezenem kontextu ano. Problem je, ze musis mit dostatecne robusni stage pred temi ALU, aby byly dostatecne zasobovane. A to je cele jadro pudla. Cela architektura musi byt vyladena podle procesu. Protoze kdyz udelas silene komplexni stavy te vypocetni trubky, nebo je udelas jednodussi, ale bude jich vic... tak oboje narazi na limity vyrobniho procesu. Frekvence, odpadni teplo, atp.

A vzdycky si musis mit pri ruce analyzu, jake instrukce to CPU bezne zpracovava. Pokud mas CPU cilene do obecneho pouziti, konzole, utrabooky, klasicke dektopy, HEDT, servery... tak samozrejme musis uzpusobit pocty ALU/AGU/FPU tomu, aby tu zatez zvladalo dobre obslouzit. A k tomu musis mit i adekvatne navrzene vsechny dalsi kroky(stage) v te trubce (pipeline).

Apple rozhodne neni zadny lidr v navrhu cipu. On ma jenom pomerne uzke pouziti toho CPU (mobilni zarizeni) a tedy si muze dovolit navrhnout cip vzasade namiru tomu pouziti. Proto pro Apple muze davat smysl mit 6ALU. To z nej nedela ale lidra, pouze kompetentniho navrhare cipu.

Proces ti urcuje parametry

Mali https://diit.cz/profil/tomas-malecek1

6. 11. 2019 - 13:41 https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse Proces ti urcuje parametry tranzistoru, jak rychle za jakeho napeti dokaze prepinat. Takze cela tvuj prispevek pada na hubu. Protoze architektura je zavisla na procesu. Protoze proces urcuje kolik a jak rychlych tranzistoru si muze ta architektura dovolit pri jakem odberu. Dokonce neni ani pravda to tvuj model 100 tranzistoru na stage. Kde jsi k tomu prisel. Existuji a existovali architektur, ktere meli ruzne frekvencni domeny pro ruzne casti. Napr. u Pentium 4 pouzival intel tzv. "Rapid Execution Engine" kdy ALU operovali na 2x vetsi frekvenci nez zbytek cipu. A ALU jsou soucasti pipeline, takze to primo rozporuje tvoje tvrzeni. "Více ALU je výhodnějších protože mohou pracovat současně. A to přesně dělá ten Apple, má větší počet jednodušších ALU." Teoreticky, v omezenem kontextu ano. Problem je, ze musis mit dostatecne robusni stage pred temi ALU, aby byly dostatecne zasobovane. A to je cele jadro pudla. Cela architektura musi byt vyladena podle procesu. Protoze kdyz udelas silene komplexni stavy te vypocetni trubky, nebo je udelas jednodussi, ale bude jich vic... tak oboje narazi na limity vyrobniho procesu. Frekvence, odpadni teplo, atp. A vzdycky si musis mit pri ruce analyzu, jake instrukce to CPU bezne zpracovava. Pokud mas CPU cilene do obecneho pouziti, konzole, utrabooky, klasicke dektopy, HEDT, servery... tak samozrejme musis uzpusobit pocty ALU/AGU/FPU tomu, aby tu zatez zvladalo dobre obslouzit. A k tomu musis mit i adekvatne navrzene vsechny dalsi kroky(stage) v te trubce (pipeline). Apple rozhodne neni zadny lidr v navrhu cipu. On ma jenom pomerne uzke pouziti toho CPU (mobilni zarizeni) a tedy si muze dovolit navrhnout cip vzasade namiru tomu pouziti. Proto pro Apple muze davat smysl mit 6ALU. To z nej nedela ale lidra, pouze kompetentniho navrhare cipu. https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse#comment-1274163 +

franzzz | 5. 11. 2019 - 15:36

> 2) Problémem BD nebyly 2ALU, ale totálně zmršený cache systém

Problemem BD bylo, ze tech problemu byli desitky/stovky. Jinak receno "death by a thousand cuts". Zadnej sam o sobe nebyl killer ale dokopy to zabili.

> 3) Apple = hrušky, x86 = jablka ale klidně to mixuj dohromady.

Jo, vypada to ze od dob kdy si Richie Rich precetl neco o ALU, tak jsou vsechy problemy zpusobeny nedostatkem ALU a vsechny problemy snadno vyreseny pridanim ALU. Cim vic ALU tim vic Adidas.

6xALU Apple A13 | 5. 11. 2019 - 18:48

To jsou kecy. Každej si dobře pamatuje ten hype před vydáním Bulldozeru jakej to bude killer. Každej CPU nadšenec očekával, že přijde obdoba nízkofrekvenční brute force K8 se 3xALU a bude drtit 2xALU Pentium4. V té době bylo Core2Duo se 3xALU a tudíž se předpokládalo že Bulldozer bude mít 4xALU (něco jako Zen). Pak unikly slajdy z prezentace kde opravdu byly 4x INT pipeline pro každé jádro.... jenže pak se ukázalo že to je 2xALU + 2xAGU(LSU) a bylo vymalováno. Každej už dopředu tušil, že to bude průser ala P4 a taky že jo. Kdo to svádí na cache, tak si lže do kapsy. Můžeš mít cache jakou chceš, ale ta žádné výpočty neprovádí. Zvyšovat výpočetní výkon bez výpočetních jednotek nelze.

Ze 2xALU prostě žádné vysoké IPC nedostaneš ani kdyby ses rozkrájel. Proto Apple v roce 2013 skočil ze 2xALU A6 -> 4xALU A7 Cyclone (ve stejném roce byl i 4xALU Intel Haswell). O čtyři roky později v 2017 pak na 6xALU A11 Monsoon. Intel evidentně zaspal ve vývoji a nebylo by divu kdyby jej AMD přjíští rok ztrestalo 6xALU Zen 3. Vývoj prostě nezatavíš a ani těch 6xALU nebude konečná v dlouhodobém horizontu. I tak bude mít Zen 3 zpoždění ve vývoji oproti Applu 3 roky.

Mali | 5. 11. 2019 - 21:09

Co to meles ty orechu? :D

Ano, od Buldozeru se ocekavalo, ze to bude killer. Ale i diky vysoke frekvenci.

To ze to bude killer se hadalo z kusych informaci. Tedy konkretne kvuli CMT "Cluster-based Multithreading", coz byl vyplod PR oddeleni AMD.

Ten hype spocival v tom, ze Buldozer mel mit modul, ktery bude narozdil od jadra Intelu mit moznosti zpracovavat 2 vlanka "plnotucne". Tedy ne nejaky Hyper-Threading, ktery tehda prinasel nakych ~50% vykonu navic, ale ze tohle bude mit perfektni skalovani.

A na PR papirech to skutecne vypadalo impozantne. AMD opakovala, ze podle jejich testu je zatez FPU kolem 50% toho co INT, takze specialne pro nove aplikace postavili CPU, ktere ma 4 moduly a kazdy z tech modulu je mnohem mocnejsi, nez jedno jadro Intelu. Silna FPU na modul a 2x Integer "cluster".

O nizkofrekvencnim CPU nikdo ani nehlesl. Prave naopak. Vsichni vedeli, ze AMD do te doby delala dobrou praci s CPU nizsimi frekvencemi oproti Intelackym vysokofrekvencnim CPUckum. A AMD slibovala na papirech, ze dotahne frekvence Intelu a navic tedy to CMT bude mit a silnejsi FPU jednotku, atp. a ze proste polozi Intel na zada. A dulezita cast toho PR prislibu byl prave fakt, ze Bulldozer mel prijit na 32nm SOI procesu, specialne navrzenem na vysoke frekvence.

Ty si uplne retardovane myslis, ze cache, dalsi buffery, obvody pro predvidani vetveni, obvody pro rychlejsi dekodovani, planovace, atp. ze to je uplne vsechno k hovnu, protoze to "nepocita". Rekni mi... jak dobre se jezdi na motoru porshe, kdyz mas JEN ten motor? Uh... co to slysim? Ze to samo nejezdi bez podvozku a kol? Uh... coze? Ze to vlastne ani nenastartuje bez nadrze paliva? Copak zase knucis? Jo ze to nemuze zatocit bez volantu? Takovy idiot ses, kdyz se tady snazis tlacit tu svou ALU viru. Pripadas mi jako nejaky vudce kultu z postapokaliptickeho sveta... "in ALU we trust"

Co to meles ty orechu? :D

Mali https://diit.cz/profil/tomas-malecek1

5. 11. 2019 - 21:09 https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse Co to meles ty orechu? :D Ano, od Buldozeru se ocekavalo, ze to bude killer. Ale i diky vysoke frekvenci. To ze to bude killer se hadalo z kusych informaci. Tedy konkretne kvuli CMT "Cluster-based Multithreading", coz byl vyplod PR oddeleni AMD. Ten hype spocival v tom, ze Buldozer mel mit modul, ktery bude narozdil od jadra Intelu mit moznosti zpracovavat 2 vlanka "plnotucne". Tedy ne nejaky Hyper-Threading, ktery tehda prinasel nakych ~50% vykonu navic, ale ze tohle bude mit perfektni skalovani. A na PR papirech to skutecne vypadalo impozantne. AMD opakovala, ze podle jejich testu je zatez FPU kolem 50% toho co INT, takze specialne pro nove aplikace postavili CPU, ktere ma 4 moduly a kazdy z tech modulu je mnohem mocnejsi, nez jedno jadro Intelu. Silna FPU na modul a 2x Integer "cluster". O nizkofrekvencnim CPU nikdo ani nehlesl. Prave naopak. Vsichni vedeli, ze AMD do te doby delala dobrou praci s CPU nizsimi frekvencemi oproti Intelackym vysokofrekvencnim CPUckum. A AMD slibovala na papirech, ze dotahne frekvence Intelu a navic tedy to CMT bude mit a silnejsi FPU jednotku, atp. a ze proste polozi Intel na zada. A dulezita cast toho PR prislibu byl prave fakt, ze Bulldozer mel prijit na 32nm SOI procesu, specialne navrzenem na vysoke frekvence. Ty si uplne retardovane myslis, ze cache, dalsi buffery, obvody pro predvidani vetveni, obvody pro rychlejsi dekodovani, planovace, atp. ze to je uplne vsechno k hovnu, protoze to "nepocita". Rekni mi... jak dobre se jezdi na motoru porshe, kdyz mas JEN ten motor? Uh... co to slysim? Ze to samo nejezdi bez podvozku a kol? Uh... coze? Ze to vlastne ani nenastartuje bez nadrze paliva? Copak zase knucis? Jo ze to nemuze zatocit bez volantu? Takovy idiot ses, kdyz se tady snazis tlacit tu svou ALU viru. Pripadas mi jako nejaky vudce kultu z postapokaliptickeho sveta... "in ALU we trust" https://diit.cz/clanek/architektura-procesoru-amd-dostane-prednost-pred-vyrobnim-procesem/diskuse#comment-1274069 +

6xALU Apple A13 | 5. 11. 2019 - 21:42

Hele, ty Malej s měkkým.
CPU se navrhuje kolem výpočetních jednotek, tedy počet ALUs, LSUs, FPUs, to tvoří šířku výpočetního jádra nebo-li back-end. A všechno ostatní (frontend, cache mem systém, OoO engine) se navrhuje okolo toho aby se to stíhalo krmit. Stejně tak motor u auta se navrhuje kolem jádra co produkuje ten výkon, tedy zdvihový objem, vrtání/zdvih válců, tlaky ve spalováku, klikovka, písty, ojnice, ventily (to je ekvivalent výpočetních jednotek ALU, LSU, FPU)... až pak když jsou známy čísla tak se řeší spojka, torzní kmity dvouhmoťáku, převodovka, a aby to bylo čím adekvátně krmit, takže sání, výfuk, EGR, chlazení (ekvivalent frontendu, decoderu a různých cache). Je vidět žes nikdy žádný motor nenavrhoval, jinak bys tady neplácal takové nesmysly. Čoveče ty těm motorům rozumíš asi jako procesorům :D Fuj to jsem si škaredě rýpnul :DDD

Mali | 6. 11. 2019 - 13:54

Teeezky omyl ktery jen demonstruje jak malo toho vis o komplexim problemu navrhu cipu.

Tvuj system jde uplne obracene. Ty bys prvne navrhoval pocet valcu a az to budes mit po nekolika iteracich vyladovani bys zjistil, ze si postavil 6l V12 motor ktery by skvele sedel do noveho modelu Lamba, ale vlastne si chtel udelat malinkate auticko do mesta. TOTALNI FAIL na tvem konci. Jses mizerny, nekompetentni navrhar, dostanes vypoved a budes sdilet vecer konzervy s kockou :D

Navrhuje se pro pouziti. Mas ruzne typy architektur ARM/x86/MIPS/... kazda se hodi na neco jineho. AMD a Intel navrhuji x86 CPU pro obecne pouziti prakticky ve vsech segmentech. Naproti tomu Apple ma vlastne jen jeden cilovy pripad pouziti, telefony, tablety, lehke "booky".

Pjetro de | 5. 11. 2019 - 09:09

1) Blbost na kvadrat. Skus vyrabat Bulldozer na 350-250-180 nm.
- cip by bol pri tej konkretnej architekture (ktora ma proste isty pocet tranzistorov) brutalne velky a absolutne nerealny (netusim, mozno 2000 mm^2), Bulldozer bol proste architektura vyvijana pre 32 nm
- s frekvecniami do 100 MHz az 1 GHz by vela muky nenamlel

2) Ciatocne pravda. Bulldozer s 3x ALU na jadro a 6x ALU na modul by bol ine kafe.

3) Tebe podobni stale zabudaju na to, ze tych 6x ALU v kazdom jednom jadre by bolo treba aj niecim krmit, aby neboli vyuzite iba na 60% a to pri plnej zatazi jadra beznym 1-vlaknovym kodom. A preto sa dostavane k bordelu okolo, vsetkym tym schedulerom, brancth predictiotn, roznym cache atd atd. Wono to neni len o tom ze dalsie ALU v jadre zaberu 0,5 mm^2.

4) To my nemozeme vediet.

l0rdh4d3s (neověřeno) | 5. 11. 2019 - 11:30

1. Blbost na kvadrat je tvoj argument, ked to porovnavas s o 10-15 rokov starsim procesom.

Mali | 5. 11. 2019 - 12:45

2) BD modul mel 4ALU proti 3ALU u K10, ktere nebyly temer nikdy plne vyuzity. Z pohledu AMD to byla oduvodnena strategie, ktera se bohuzel nevyplatila diky problemum v jine casti pipeline (fetch/decode/schedule)

Kíčruj | 5. 11. 2019 - 10:13

V záasdě s tebou souhlasím, ale předpokládám, že ten zlom bude až Zen 4. Možná něco plánovali už do Zen 3, ale i vzhledem kneschopnosti intelu jim tak stačí přidat méně, než možná čekali.Setrvačnost trhu je velká, a možná bude lepší schovat si pořádný trumf na dobu, kdy bude AMD etablovanější u OEM výrobců, v severech atd. Což je proces, který sice už aktuálně probíhá, ale nějakou dobu trvá.

Mali | 5. 11. 2019 - 12:33

Ale ale ale... zase se tu odkopavas?

1) Frekvence je samozrejme zavisla na archtekture. Mas cipy, ktere nemaji problem dosahovat desitek gigaherzu. Ale jsou na to specialne uzpusobene.

2) BD mel 4 moduly kazdy po dvou pseudojadrech, kazde o 2ALU. Haswell mel 4 jadra schopna HT, kazde jadro 4 ALU. Viz i clanek zde na DiIT:
https://diit.cz/clanek/is-bulldozer-module-dual-core-or-single-core-with...
Nebo zde (popsano jako "module with two integer clusters"):
https://en.wikipedia.org/wiki/Bulldozer_(microarchitecture)#/media/File:AMD_Bulldozer_block_diagram_(CPU_core_block).png

Takze kazdy modul BD (coz byla varianta k HT, kterou AMD zkouselo) mel 4ALU. Ale problem byl zaprve v rozsekavani te zateze, ze to frontend nebyl schopen dostatecne dobre a rychle krmit ty 2x2ALU a zadruhe ta frekvence. To je znamy fakt, ktery neni nikym krom tebe rozporovan.

Haswell mel 4/4.4 GHz frekvence pri udavanem TDP 88W, nejblizsi Bulldozer byl kvuli pouzitemu vyrobnimu procesu 2.8/3.1 GHz pri TDP 90W a to CPU bezelo v absolutne neoptimalnich frekvencich. Bylo navrzene pro mnohem vice. Jenze kdyz to pustili na taktech, ktere by to melo mit (a bylo jakz takz konkurenceschopne) tak to topilo jako krava a zralo na wattmetru i pres 200W.

3) ALU neznamena vse. Kdyz nebude mit jadro Zen 3/4 dostatecne siroky frontend, nema cenu mit 6ALU. O tranzistorech to fakt neni. Ale klidne se tu ztrapnuj dale.

franzzz | 5. 11. 2019 - 15:52

> Pro osmijádrový CCD to bude zanedbatelných 4 mm2. AMD nepotřebuje čekat na 5nm proces s novým širokým jádrem.

Beres to jako Hurvinek valku. IOW prilis zjednodusene.

Kolik ma ALU mm2 je zcela irelevantni. Jo a "mikroarchitektura CPU je nezávislá na výrobním procesu." - totalne spatne.

Vyrobni proces zcela zasadne limituje design. Totiz CMOS transistory generuji jiste teplo (dane tim procesem) *pri prepnuti* (tj kdyz je logika aktivni). Jinak receno muzes mit mm2 kolik chces a tranzistoru X miliard kolik chces, prepnout v kazdem cyklu muzes jen jisty omezeny pocet ktery se ti vejde do TDP. Takze pridat si muzes i tucet ALU, podstatna otazka je kolik muzes *pouzit* aniz by se ti procak roztavil. A odpoved zni, ze se soucasnym procesem tam zadnej prostor (z hlediska tepla) na dalsi ALU neni.

Ze si Apple muze dovolit vic ALU cirou nahodou souvisi s tim, ze bezi na zcela jinych frekvencich. Takze nejen vyrobni proces, ale i cilene TDP a frekvence zcela zasadne ovlivnuji design.

Kert | 5. 11. 2019 - 08:30

Tak toho je opravdu obzvlášť přínosná informace, každému asi dojde že další velký skok v litografii bude nejdříve za 5 let, tak na něj čekat asi nemá valného významu.
Schválně se podívejte na vývoj ceny akcií Intel, vzhledem k tomu že skoro atakují 5 leté maximum, ještě to nevypadá, že by dřeli bídu. Věřitelé si to aspoň nemyslí.

Jon Snih | 5. 11. 2019 - 20:49

Spíš nepřímo potvrdili, že se nebudou hnát do nových procesů za každou cenu. Zatímco ZEN3 pojede na 7nm EUV procesu, je dost pravděpodobný, že ZEN4 by mohl být vyráběn 6nm procesem (a ne 5nm, jak se spekulovalo), který je plně kompatibilní se 7nm EUV procesem. Takže masku pro 7nm EUV node můžeš použít i pro 6nm variantu. To je hodně dobrý. Žádný náklady navíc.
U Intelu si docela věří ohledně 7nm procesu. Je dost možný, že během 2022 budou mít na pultech první procáky.

Peca | 6. 11. 2019 - 08:22

Akcie Intelu výrazně posílily když oznámil návrat společně s Microsoftem do segmentu mobile.

Petr66 | 5. 11. 2019 - 08:32

Přesný opak toho co dělá Intel a krok správným směrem.
Je třeba popohnat vývoj.

RedMaX | 5. 11. 2019 - 08:59

Takze Lisa Su říká, ze je potřeba v první rade vyborna architektura a az v druhé rade je tu vyrobni proces. Takze vlastne uklidnila akcionare Intelu, neboť Intel ma bezesporu vybornou architekturu, vzdyt s ni zije pomalu vic jak 10 let a stale je to dobře, ale Intel v soucasne době nemá zadny novy vyrobni proces. 14nm proces je proste stary, at si každý říká co chce, 10nm se nepovedl a 7nm proces je teprve ve vyvoji.
Lisa Su ma proste jako obvykle pravdu.

anton-gajdos (neověřeno) | 5. 11. 2019 - 11:04

"neboť Intel ma bezesporu vybornou architekturu"

To myslíš tú deravú architektúru v ktorej Intel vymenil bezpečnosť svojich zákazníkov za svoje tučné zisky ?

Zog Zogothowics | 5. 11. 2019 - 11:11

Lidi mu to ale pořád žerou a nakupují.

IT Joker | 5. 11. 2019 - 19:14

V tom případě je dost zajímavé, že doposud byla hlavní výhoda Intelu spíš pokročilejší výrobní proces.

A procesory AMD začaly být lepší přesně ve chvíli, kdy Intel ztratil výhodu pokročilejšího výrobního procesu.

tombomino | 5. 11. 2019 - 20:25

Nebo se to da definovat tak, ze v pripade, kdy je IPC architektur srovnatelne (+/-), prichazi na radu vyrobni proces...

Kazaxx | 5. 11. 2019 - 18:06

Osobně si myslím ze potřeba není nic. Max optimalizovat sw a programový kód. Výkonný hw máme min 10 let. Za těch 20let vývoje hw jsme se posunuli tak maximálně k elektronickým blbostem typu hodinky, BT repracky a usb-c kokotinky a nesmyslné asistenty v autech. Medicína se dal vyvíjí bez technologií a spis za umu lidí a vesmírný program je stále na bodu vývoje. 50 let nebyl na měsíci nikdo a iss je ze 70 let. Ten skok co byl 95-2001 se už nějak neopakuje a ani nevidím že by k tomu mohlo dojít.

Dizz | 5. 11. 2019 - 19:12

Nesohlasim vyvoj poslednich 10 let byl a je zajimavy. A i ten skok 2001-2006 byl zajimavy. Pred nastupem vicejadrovych CPU, bylo jedinou moznosti jak mit vic jader/CPU dual/quad socket atd. a meli to jen drhe masiny, Po roce 2006 uz to mohlo mit "kazdy" doma...

A i poslednich 10-15 let bylo zajimavych, treba vykon ARMu se posunul neskutecne. SoC co se nemusi programovat v assembleru a maji dost vykonu na spostu "blbosti" uz stoji par dolaru - to je uplne super.

Kazaxx | 7. 11. 2019 - 16:03

Jenže svet není jen nějaké CPU, kde se honí 10 % ročně v benchmarku. 8 jádro mobil furt neutahne to co dvoujadro PC, to jen sw je pro ten ARM dobře vymyšlený. Byt stejně i na PC, tak 6/12 na 5 GHz se 150W TDP je overkill jako prase. Jenže proč by to někdo dělal když AMD/Intel si můžou porovnávat pindika kdo ma lepší architekturu na zprasenem kode a jet na tom byznys.

Já dělám v adobe standardní tiskovou grafiku. Predloni jsem vyměnil mac pro 2x 2.8GHz (4c/4t) za 2x 3,4 GHz (6c/12t). Přínos je v photoshopu, ilustrátoru a indesignu běžně neznatelný. Az na jednotky prasecin, ale tam ma problém i nové CPU. Ale svete div se, nova verze CC 2020 je sviznejsi než CC 2019 a to díky optimalizaci kódu. Takže man skoro 10 let starý pracovní stroj, proti kterému ani novy Amd 8/16 není moc přínosem - což i uživatele macbooku jsou tez živý důkaz ze v tom adobe staci hlina a az vlastni optimalizace adobe urychlila práci. Důkaz ze optimalizace je víc jak hrubý výkon. Ceny a stále nasazeni tech macu pro taky krásně demonstrují kam ze se ten výkon posunul. A díky CC 2020 ještě nějaký čas mohou setrvat. Svet ne optimalizuje (vyjma medicíny) pouze vyrábí nova a nova kladívka.

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Lisa Su: Architektura dostane přednost před výrobním procesem

Komerční sdělení

CDR Hry

Vědci představili plast, který se po použití sám rozpadne a nezatíží přírodu

Čtrnáct let tichého hackingu. Obří síť falešných hazardních webů je jen zástěrka

Google vylepšuje Android: Circle to Search odhalí podvodný obsah na displeji

File Explorer po poslední aktualizaci Windows 11 nepříjemně problikává

Nový AI model pomůže chránit satelity a energetické sítě před slunečními bouřemi

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT