Diskuse k AMD Piledriver: Kolik stojí 4MB cache a kolik integrovaná grafika?

ptipi | 6. 11. 2012 - 02:03

"...nese označení A10-5700. Ta je podle současného ceníku (nepochopitelně) na korunu stejně drahá jako výše uvedená A10-5800K."
Není na tom nic nepochopitelného. A10-5700 je 65W kousek a i reálně má výrazně nižší spotřebu (v klidu 4W, v plné zátěži rozdíl cca 40W). A popravdě mi A10-5700 přijde jako rozumnější volba. Test viz hexus ( http://hexus.net/tech/reviews/cpu/47257-amd-a10-5700/?page=8 ).

"L3 cache Vishery nemá (přinejmenším ve čtyřjádrovém provedení v kombinaci s desktopovým využitím) valný dopad na výkon."
Má obrovský dopad na výkon ve hrách ( http://www.anandtech.com/bench/Product/700?vs=675 - úplně dole). To je imho užití, které bude hodně lidem blízké.

no-X | 6. 11. 2012 - 09:04

ad L3 - tyhle výsledky se poměrně vymykají ostatním, které jsem viděl. Třeba na ComputerBase mají v testu i čtyřjádrový Bulldozer FX 4170 s 8MB(!) L3 cache a přínos oproti Trinity je i ve hrách minimální. Je otázkou, do jaké míry zrovna tyhle tři hry reprezentují celkovou situaci.

ptipi | 6. 11. 2012 - 11:35

To je tak, když se porovnávají hrušky s jabkama. Porovnáváte Bulldozer s Piledriverem v aplikaci, kde je takt na takt Piledriver výrazně rychlejší (podle EHW mezi 12 a 19% v cca deseti herních testech).
Takže od těch 7%, o které na je na zvoleném CB.de fx-4170 rychlejší proti a10-5800 si odečtěte 5% kvůli nižšímu taktu fx-4300 a přidejte 15% za vyšší efektivitu Piledriveru a jste na 15-20% výkonu navíc. A to pouze díky L3 cache. Tomu říkám obrovský dopad na výkon.

no-X | 6. 11. 2012 - 13:01

Dvě věci. Rozdíl frekvencí mezi FX-4170 a FX-4300 není 5 %, ale 10 %. Druhá věc je, co už jsem zmiňoval - některé weby používají pro testování procesorů několik her účelně vybraných k tomu, aby jim hezky škálovaly grafy. Můj názor je takový, že sice grafy vypadají hezky, ale zjistí se tím jen nějaký mezní rozdíl, kterého lze laboratorně dosáhnout - nikoli objektivně rozdíl, který to přinese uživateli. Oproti tomu ComputerBase používá standardní set her, kterým testuje i grafické karty, takže tato čísla lépe odrážejí reálné chování. Podobně tak http://www.hardware.fr/articles/880-6/bulldozer-vs-piledriver-4-ghz.html - kde je rozdíl ve hrách v průměru 13,5 % (1920×1080 a to ještě bez AA). Takže rozdíl v efektivitě (13,5 %) je v případě FX-4170 prakticky setřen vyššími frekvencemi (10 %) - pokud bychom měli řešit ta zbývající 3,5 %, která považuju za zanedbatelná, tak tu stále ještě máme výhodu u FX-4170 v podobě dvojnásobné cache. Na základě uvedených důvodů se domnívám, že reálný herní výkon FX-4170 a FX-4300 je v průměru totožný.

Troufám si tvrdit, že kdyby AMD namísto L3 do čtyřjádrového modelu integrovala třetí Piledriver modul , měl by výsledný čip při stejných výrobních nákladech daleko lepší výkon (v desktopu).

ptipi | 6. 11. 2012 - 13:51

I pokud použiji 10% do výpočtu místo 5% (což je absurdní vzhledem k agresivnějšímu Turbu PD a faktu, že ani tady se výkon neškáluje beze zbytku s frekvencí), kde se vám ztratilo 7% výkonu navíc, co má FX-4170 proti A10-5800K? I pokud tedy použiji vaše čísla, vychází mi to dohromady přes 10% (+7% počáteční výhoda -10% frekvence +13,5% efektivita).

A co se týká dalšího modulu - problém PD v desktopu není vícevláknový výkon, ale jednovláknový. A v tom by mu další modul pouze ublížil na rozdíl od L3, která trochu pomáhá (někde hodně, někde vůbec).

PS: Jinak je správné IMHO používat hry, ve kterých se výkon dobře škáluje, protože právě ty jsou závislé na CPU. Nás totiž ve své podstatě až na výjimky nezajímá, jak se CPU chová v konkrétních dnešních hrách (stačí skoro cokoliv). Cílem je zjistit jak se obecně chová v herním nasazení a tedy jestli bude třeba vyměnit dříve, nebo později.

webwalker | 6. 11. 2012 - 14:58

No já si myslím, že právě u her toto srovnávání mnoho smyslu nedává.
U APU je paměťový řadič využíván nejen pro potřeby cpu, ale také k němu má "nekoheretní" přístup igpu (se všemi svými operačními bufery). O kolik procentních bodů se tato "nevýhoda" APU oproti zapojení diskrétní gpu (s vlastní pamětí) projeví ve výsledcích nevím, ale určitě nějak musí.
Je možné, že by třeba právě L3$ APU pomohla mnohem výrazněji, ale kdo ví? Nicméně hry imho nejsou dobrým příkladem k porovnávání zrovna u APU.

webwalker | 6. 11. 2012 - 15:30

Tak teď koukám, že to APU na CB měřili s dgpu. Pak by to mělo být tedy OK.

no-X | 6. 11. 2012 - 15:23

I pokud budeme brát v potaz, že L3 cache přidává 10 % výkonu ve hrách, tak je to stále průšvih vzhledem k tomu, o kolik zvětšuje plochu procesoru. Přidáním jednoho modulu, který by zabral srovnatelnou plochu, by podle mě výkon vzrostl výrazněji. Takové šestijádro by díky nižší spotřebě mohlo mít vyšší takty než osmijádro, čímž by se zlepšil i jednovláknový výkon.

"Jinak je správné IMHO používat hry, ve kterých se výkon dobře škáluje, protože právě ty jsou závislé na CPU."
Já se domnívám, že správný je opak. Pokud uživatel upgraduje procesor na základě recenze postavené na aplikacích vybraných tak, aby recenze vypadala "hezky", pak může čekat nárůst 30 %, zatímco reálně zaznamená rozdíl 5 - 10 % a zjistí, že se mu upgrade absolutně nevyplatil. Testy ve hrách závislých na CPU s ještě očesanými detaily (a rozlišením) nám řeknou, jak se procesor chová v situaci, ve které ho nikdo neprovozuje. Taková informace je zavádějící a v podstatě k ničemu.

del42sa | 7. 11. 2012 - 22:50

mám takový pocit, že AMD na něčem takovém pracuje :)

non4654564 | 6. 11. 2012 - 09:52

možna jo. a možna kdby se A10-5700 přetaktovala na 3,8Ghz tak by spotřeba byla srovnatelna s A10 5800K a nebo obracene 5800K podtaktovala na 3,4 tak tech 65W by taky asi dal. jen muj nazor. diky

no-X | 6. 11. 2012 - 10:06

Vidím to podobně, nenarazil jsem na informaci, že by se desktopová Trinity prodávala v několika revizích čipu, takže to může být dáno jedině kombinací parametrů. Resonant Clock Mesh vykazuje nejvyšší efektivitu na frekvencích kolem 3,3-3,4 GHz, na kterých právě A10-5700 běží, což může vysvětlovat mnohé :-) Test porovnávající 5700 s podtaktovanou 5800 by napověděl víc.

ptipi | 6. 11. 2012 - 11:38

Nepochybuji, že se jedná o ten samý čip, jen výběrové kusy (nejspíš do obou). Ale to nic nemění na užitečnosti takového modelu. Taktuje jen nepatrný zlomek lidí a navíc nikde není napsáno, že a10-5700 zvládne nastavení a10-5800 a dokonce ani naopak (podle výsledku spotřeby bych spíše řekl, že opravdu výběrový je model 5700).

any wher | 6. 11. 2012 - 06:42

jj, A10-5700 je nádhera.....čekám na nástupce pro FM2 a kupuju :)

nd76 | 6. 11. 2012 - 08:15

Nástupce? Jen tipuji: Gigabyte UD4H?

webwalker | 6. 11. 2012 - 11:20

Ty malé rozdíly s/bez L3 imho ukazují na "kvalitu" AMD L3$ :(

no-X | 6. 11. 2012 - 13:08

Neřekl bych, že kvalitu - spíš tu cache většina aplikací nepotřebuje. Když se podíváš na dieshot celého Piledriveru (Vishery), je vidět, že L3 není žádný drobek. Kdyby se vzalo osmijádro, polovina se ho odřízla (zbylo čtyřjádro s L3) a namísto L3 by se přidal třetí modul (dvě jádra), vzniklo by šestijádro o polovičních rozměrech oproti stávající Visheře. Spotřeba by byla nižší, takže by mohlo běžet na vyšších taktech, výkon by ve výsledku za osmijádrem nijak výrazně nezaostával (většina aplikací navíc ocení spíš vyšší takty než sedmé a osmé jádro) a AMD by mohla témeř za tytéž peníze (ovšem s polovičními výrobními náklady) prodávat poměrně zajímavé produkty. Osobně se domnívám, že v segmentu samostatných CPU je už desktop téměř nezajímá a jde jim spíš o servery, kde cache zřejmě nachází výraznější uplatnění.

webwalker | 6. 11. 2012 - 13:55

Myslím, že jsi uhodil hřebíček na hlavičku, tohle není řešení pro desktop :-)
Ale i tak zbývají nějaké otázky nezodpovězené.
Proč u zápisu nebo kopírování není valného rozdílu mezi přístupem k L3$ a pamětí, nebo proč L3$ zabírá tak obrovskou plochu čipu?
Pokud tedy některé aplikace těží z této L3$ evidentně musejí být závislé na čtení a latencích. Imho AMD bude muset na celé systémové cache do budoucna hodně zapracovat.

l0rdh4d3s (neověřeno) | 6. 11. 2012 - 23:02

Pri citani/zapise/kopirovani z/do RAM sa mozu pouzit SIMD instrukcie pre load/store ktore nezahlcuju cache a vtedy nezalezi na velkosti L2 ci L3. A ked sa cita pamat sekvencne, alebo sa len zapisuje, tak odpada aj problem s latenciami.
Ale inak je pristup do L3 10x rychlejsi, do L2 cca 25x rychlejsi, do L1 i 100x rychlejsi ako do RAM a to si zrejme vyzaduje aj adekvatny pocet tranzistorov a plochu.

A aplikacia je zavisla na velkosti cache vtedy ked nema optimalizovany pristup k datam, tj. malo cita sekvencne, viac nahodne a vtedy vacsia cache znamena vacsiu pravdepodobnost ze data uz su v cache a nemusia sa citat z pomalej RAM. Typicky ide o vacsinu kodu v hrach, optimalizovat to nema cenu, lebo su to miliony riadkov kodu a tyka sa to hlavne AI, hernej logiky a skriptov.

webwalker | 7. 11. 2012 - 10:15

Pokud se koukneš na testy propustnosti paměti Visherä, tak ukazují něco docela jiného.
Zrychlení čtení, zápis, copy do L3$ oproti RAM není v násobcích ale procentech: 66%(read), 8% (write) a -3% (copy), latence ~600%. Vektorový stream pak zhruba 8% (copy bez aritmetiky).

l0rdh4d3s (neověřeno) | 7. 11. 2012 - 18:20

Ehm, odpoved som poslal o 2 komenty nizsie.

l0rdh4d3s (neověřeno) | 6. 11. 2012 - 21:59

Existuje jedno specificke riesenie pri ktorom odpada potreba L2 cache. A to v pripade ak by jadro dokazalo obsluzit velke mnozstvo threadov, zhruba 50-100 threadov na 1 jadro. Vtedy by nevadilo ze thready tahaju data priamo z RAM. IPC na thread by bolo sice dost nizke, ale latencie pri tahani dat z RAM by neboli problem. Je to rovnake ako u GPU, ktore ma tisice jadier, je schopne vykonavat aj miliony threadov paralelne a ma velmi male cache na jadro. A uplne idealne by bolo ak by sa na toto pouzili GPU jadra Fusionu a mali priamy pristup do RAM. Fusion by tak mohol mat 4 rychle jadra a nejaku tu stovku pomalsich jednoduchych jadier. Vyzadovalo by to sice aplikaciu ktora dokaze generovat stovky threadov, ale zato vykon by bol ohromny a to az na urovni 10-nasobku dnesnych i7.

l0rdh4d3s (neověřeno) | 7. 11. 2012 - 18:13

Tak samozrejme som mal na mysli latencie nie citanie/zapis. Prave latencie su dovod preco existuju cache. A pre porovnanie ak je latencia pre nahodny pristup do RAM 100ns, tak pre 4GHz CPU je to 400 cyklov. A latenciu pre L1/L2/L3 mas tu:
http://media.bestofmicro.com/Y/K/357644/original/sandra%20cache%20latenc...

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k AMD Piledriver: Kolik stojí 4MB cache a kolik integrovaná grafika?

Komerční sdělení

CDR Hry

Zákaz trollů, goblinů a holubů. Interní pravidla OpenAI zní jako pořádná satira

Windows 11 dostává za vyučenou od SteamOS. Microsoft konečně přiznává problém

Kdo a proč vykopal sítě tunelů pod Evropou? Archeologové jsou dlouhodobě zmatení

Naděje jménem 2D materiály naráží na fyzikální limit, který nelze obejít

Jak vznikly obří černé díry dřív, než vůbec měly existovat

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT