Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Do AMD se vrací Jim Keller, inženýr K7 a architekt K8

Posolsotvo Roryho Reada aj tejto výmeny je zrejmé: všetci zodpovední Bulldozerácii musia preč => treba tam dať buď ľudí, ktorí stáli za K7/K8/HyperTransport/x86-64 (teda úspešnej vetve) a samozrejme aj nových ľudí resp. skúsených z iných HW/SW IT spoločností (od ižinierov/vývojárov. až po markeťákov) ako napr. Mark Papermaster, Lisa Su a ďalší.

Proste v ďalšej generácii AMD microarchitektúry sa nemôže opakovať niečo podobné ako to napr. popísal WIFT v úvodníku k recenzii Bulldozera cit. "Společnost AMD uvedla 12. října letošního roku procesory řady FX s novou mikroarchitekturou Bulldozer. Proč proboha?!"

+1
-1
-1
Je komentář přínosný?

lenze to je problem Reed nahradil Meyer-a

AMD Athlon (K7), 1999 - Dirk Meyer (Dir. Engr.), Fred Weber, ...

x86-64 architecture - Kevin McGrath and Dave Christie

Kevin McGrath, x86-64 architecture (video), September 2000

AMD Opteron (K8), 2003 - Jim Keller and then Fred Weber

Jim Keller left and the initial K8 design was canceled
Fred Weber led the project to revise the K7 into a 64-bit core
http://www.cs.clemson.edu/~mark/architects.html

Dirk Meyer skončil v AMD. Společnost hledá nového CEO
autor: Mirek Kočí , publikováno 11.1.2011

Příštích pět let bude klíčových. Po pragmatickém Meyerovi, který firmu stabilizoval, nyní AMD potřebuje ve svém čele obchodníka, který dokáže produkty prodat.
http://pctuning.tyden.cz/component/content/article/1-aktualni-zpravy/197...

AMD má konečně po osmi měsících nového generálního ředitele
autor: Ondřej Košťál , publikováno 25.8.2011

Tím důležitým se stal Rory P. Read, který na tuto pozici přešel rovnou ze společnosti Lenovo, kde zastával funkci provozního ředitele a prezidenta společnosti.
http://pctuning.tyden.cz/component/content/article/1-aktualni-zpravy/218...

Ono je zaujimave, ze tych 8 mesiacov AMD bez sefa bolo ekonomicky najuspesnejsie obdobie AMD za ostanych 10 rokov

Ono, ak by chcelo AMD navrat ludi na low power jadra, tak su lepsi kandidati ako Keller.
Casom vyhodili aj Bennona, odisiel aj Witek

microPRISM - Rich Witek (lead microarchitect)

Alpha - Dick Sites and Rich Witek

Dick Sites and Dirk Meyer, Alpha architecture video, April 1992
Allen Baum, Evolution of the Alpha (video), November 2000

implementations

21064 (EV4), 1992 - Rich Witek (lead)
Jim Montanaro, Design of the Alpha 21064 CPU Chip video, April 1992
21164 (EV5), 1995 - John Edmondson (lead during design), Pete Bannon, and Jim Keller (lead during advanced development)
Beth Cooper, lead cache designer; Gilbert Wolrich, FPU; Ronald Preston, instruction unit; Paul Gronowski, integer execution unit
21164PC, 1997 - Pete Bannon (lead)
21264 (EV6), 1998 - Jim Keller (lead)
21364 (EV7), 2003 - Pete Bannon, ...

PRISM (Parallel Reduced Instruction Set Machine), 1989 - Dave Cutler, Dileep Bhandarkar, Rich Witek, Dave Orbits, and Wayne Cardoza
HR-32, started in 1984 - Rich Witek and Dave Dobberpuhl

StrongARM

StrongARM 110, 1996 - Rich Witek (lead), Greg Hoepnner, Ray Stephany, Jim Montanaro, +
Sribalan Santhanam, StrongArm 110: A 160MHz 32b 0.5W CMOS ARM Processor (Hot Chips 8 slides)
StrongARM 1100, 1997 - Rich Witek (lead microarchitect), Ray Stephany (implementation)

Jednoducho Ak by AMd chcelo mobilne CPU tak musia staihnut Richa Witeka z Microsoftu, kde robil Win RT
https://encrypted.google.com/#hl=sk&sclient=psy-ab&q=rich+witek+site:mic...

Witek a Hoeppner prisli do AMD spolu
http://www.amd.com/us/press-releases/Pages/Press_Release_14491.aspx

A Hoeppner je vo fimre ex-prezidenta AMD Atiq-a Raza-u, ktoru AMD de facto kupila
http://www.amd.com/us/press-releases/Pages/Press_Release_109665.aspx

a
http://www.amd.com/us/press-releases/Pages/Press_Release_768.aspx

Zaujimave je,ze od K7 do Phenomu je vsteko od AMD vytune=ovana
Alpha 21164PC Lite a Bulldozer a Liano je vytune-ovna 21164PC. Od K7 ide ale o stsreme s vytune-ovanou Alpha EV6 zbernicou.

Intyel QPI je tiez len EV6 system bus. To PC v nazve Alpha-y znamane, ze ma v sebe HW dekoder x86 instrukcii.

Povodna K8 mala byt nieco medzi EV6 a EV7. Podla mna teda AMD zobralo Kellera, aby oprasil povodnu K8 a vytune-il ju.

+1
+1
-1
Je komentář přínosný?

To je zajímavá možnost. Ale nemyslím si, že by museli nutně odstoupit od konceptu Bulldozeru - tam jde o rozpor toho, co jsem se snažil pojmenovat v článku: Jedna věc je určitá vize a základní principy (které na konceptu Bulldozeru nejsou špatné), druhá věc je reálné provedení (které pro změnu není dobré).

Podobně to bylo i s R600 - základ velice promyšlený a postavený na až geniálním konceptu, ale provedení velmi špatné: bugy, poddimenzované ROPs kvůli naražení na limit rozpočtu tranzistorů, k tomu jeden z nejhorších výrobních procesů, jaký TSMC kdy vypodilo plus ještě zdržení způsobená spojením ATI s AMD.

+1
+1
-1
Je komentář přínosný?

Súhlas. Bulldozer je pokrokový koncept ale zle implementovaný.
....FPU papierovo brutálna, ale len malinko výkonnejšia než stará FPU z čias K8 na jedno vlákno (ak by niekto namietal, že je delená pri dvoch vláknach). Len 2x ALU a všetko okolo toho, s výsledkom slabého výkonu na jedno vlákno. Pri tak veľkej spotrebe tranzistorov a plochy je to fault. Spotreba, detto. Nevyznamenal sa ani vo výkone 2 násobného počtu vlákien. Na plochu 4/8 Bulldozera by zmestili aj 16-20 Bobcatov, a viacvláknový výkon by bol vyšší. (fiktívne to skladali tuším na www.chip-architect.com, tam sa hrajú s fotečkami čipov)

+1
+1
-1
Je komentář přínosný?

Chlape neblázni, fpu u BD a K8 je nebe a dudy, když nic jiného, tak jen datapath fpu je dvojnásobný 64/128bit (možná si myslel spíše K10). Jinak dle mého 2 int ALU nejsou problémové, zvláště když další int výpočty mohou být prováděny na dvou dalších int SIMDs.
Nejvíc tranzistorů spotřebovává ohromná a mnohdy zbytečná cache a mnoho dalších nevyužitých věcí jako FMA nebo jiných serverovských fičůren. Pokud by AMD modul BD prezentovala jako core s CMT (podobně jako Intel core s SMT), výkon by nevypadal zas tak šedě.
Systém modulu mi přijde také jako dobrý nápad, ale je také možné, že nověpříchozí Keller celý tenhle koncept hodí do koše tak, jak Intel Netburst, a vrátí se ke koncepci K7/8/10, kterou vylepší k obrazu svému.

+1
+1
-1
Je komentář přínosný?

Asi sme sa neperozumeli. To som aj prízvukoval že papierovo je FPU zdvojnásobená, ale opať podotýkam, že výkon v plávajúcej na takt tam nieje, teda aspoň ten syntetický:
http://www.hardwarecanucks.com/forum/hardware-canucks-reviews/47155-amd-....
Cache je naozaj veľká. Respektíve nech by aj ostala len keby ju tam efektívnejšie porozhadzovali, alebo pre desktop zmänšili. Chápem že pridávaním ďalšej int. ALU by sa nič výrazne nezlepšilo, pretože celé to má 4 inštrukčné decód. a je to prispôsobené na 4 = 2+2. V tejto situácii, by ďalšia ALU nič nepriniesla. To by naozaj museli prispôsobyť celú FU s Sch. na oveľa vyššie IPC a to by už plochou bolo asi v prdeli. Len bull-u sa vytýka jeho nízky výkon na jadro v jednovláknových app.! Keď je to multi-vlákno tak je to celkom OK. Otázka je, či by ďalšou ALU v jednovláknových app. zvýšili toľko vytýkaný výkon aspoň o pár %. (samozrejme paralelizácia u x86 do nekonečna nieje možná a s IPC nad 2 málo efektívna). Pre pridanie ďalšej ALU FU na to "parametre" má (obrazne), za podmienok, že by druhá nič nerobila. Len tak na ilustráciu koncept trojitej INT ALU u K8/10:
http://www.chip-architect.com/news/2003_09_21_Detailed_Architecture_of_A...

A Bulldozer/Piledriver:
http://hoyloleo.com/wp-content/uploads/2012/04/piledriver-divider.jpg

...datapath neprechádzali cez seba ako u K8/10, ale vedľa seba cez MUX. Zhodou okolnosti tento obrázok, sa točí okolo nefunkčnej deličky u Bulldozera (bola deaktivovaná, u Pila už funkčná). To málo kto vedel !

+1
-1
-1
Je komentář přínosný?

Tím "datapath" bylo myšleno tak, že K8 byla schopna pracovat pouze s 64bit daty, tedy instrukce typu 128bit SSE, musely být rozděleny do 2 mops a počítány na obou fpu současně (stejně jako dnešní Bobcaty). U K10 a BD jsou již 128bit jednotky, tedy SSE dekódovány do 1mops, čímž propustnost těchto instrukcí stoupla dvojnásobně.

No SuperPi je už historický test x87, kódu který tu již dávno neměl být. Bohužel většina her x87 stále využívá. Na fpu K10 můžeš odeslat 1 až max 2 x87 instrukce (podle typu), u BD prakticky vždy 2 instrukce v jednom taktu. Z tvého odkazovaného testu SuperPi také PhX4 980 poráží dokonce Phx6, který je stejné uarch, proč? Odpovědí je evidentně "špatná" funkce turba u Ph6 (zřejmě neběží trvale na max) nikoliv to, že PhX4 má silnější fpu. To samé se imho týká BD - zřejmě nedrží turbo a k tomu se přidává zřejmě špatný výkon cache a malá L1data, ale neznamená to automaticky horší výkon fpu.

Máš pravdu, že v x86 světě je IPC (nebo spíše ILP) omezeno díky závislostem. Můžeš mít třeba 10 superskalárních jednotek, ale přes IPC=1 málokdy přelezeš. Vyšší hodnoty IPC ukazují pouze nějaké ty benchmarky, ale v praxi vždy ~1. Tedy samozřejmě pokud není daný program vytvářen přesně na míru určité uarch cpu, což se dnes také bohužel stává (třeba takový hojně využívaný CB11).

+1
-2
-1
Je komentář přínosný?

Asi tak nejak.

+1
+1
-1
Je komentář přínosný?

Trochu mi to pripadá ako u nás doma... Stále sa len vyzdvihuje práca riadiacej zložky firmy. Áno, je veľmi dôležitá. Ale ako vie pomôcť tak vie aj poriadne uškodiť. Naozaj šikovný ľudia v skrytosti na konci rebríčka tvoriaci reálne hodnoty spoločnosti sú tlačený ešte do vyšších výkonov za horších podmienok a chyby spôsobené marketingom musia často znášať ako dôsledok neschopnosti sebareflexie vedenia. Život ma doma naučil, že je na nezaplatenie mať v tíme 10 šikovných fandov, ktorí samostatne v pokoji tvoria produkt na rysovacej doske a jedného šikovného manažéra, ako 10 manažerov bez technickej a obchodnej praxe dusiacich 2-3 výkonných pracantov.

+1
+1
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.