Diskuse k Computex 2013: Kaveri přesáhne 1 TFLOPS, AMD se pochlubila i novou Ruby

Richmond | 7. 6. 2013 - 01:10

Když už jsme u těch faux pas tak ta Ruby taky neběžela v realtimu http://www.youtube.com/watch?v=YxhkWM0QGTE pár slajdů here http://bit.ly/19N57IA

ptipi | 7. 6. 2013 - 02:24

Myslím, že s tím "prvním TFLOPS+ APU" přicházejí trochu pozdě...pochopitelně pokud nedefinují, že apu musí být od AMD. Takový i7-4770R má 410-500 GFLOPS jen na CPU (podle frekvence) a 832 GFLOPS na grafice.

no-X | 7. 6. 2013 - 08:45

Bez ohledu na to, jestli APU je nebo není od AMD, se i7-4770R liší tím, že není z jednoho kusu křemíku - nemluvě o tom, že neexistuje v socketové verzi, což je další rozdíl oproti zmíněným APU. Mimochodem, moc by mě zajímala frekvence, na které i7-4770R dosahuje 500 GFLOPS :-))

webwalker | 7. 6. 2013 - 09:47

Imho při započítání FMA/AVX by mohl Haswellovské cpu dosáhnout teoretických 500GFlops při 3,9GHz.

no-X | 7. 6. 2013 - 09:52

Jenže ptipi si jaksi neuvědomuje, že čtyři jádra na turbo frekvenci tak nějak neběží, takže v okamžiku, kdy 4770R dosáhne 3,9 GHz, nemá výkon 500 GFLOPS, ale čtvrtinu této hodnoty.

ptipi | 7. 6. 2013 - 10:01

Já si to velice dobře uvědomuji a proto jsem uvedl rozmezí (oba limity jsou spíše teoretické). Ale pokud se bavíme o teorii, tak pokud vím současný TurboBoost nemá explicitní omezení na jaké frekvenci může kolik jader běžet. Takže krátkodobě je nejspíš možné v dávkách dosáhnout 500GFLOPS bez dosažení termálního limitu.

no-X | 7. 6. 2013 - 10:43

Proč tedy Intel v materiálech k Haswellu rozebírá base clock, dual-core boost a single-core boost? Jsem ochotný akceptovat přístup, kdy se sčítá GPU a CPU v základu, ale k tebou popsané situaci nemůže dojít ani teoreticky. Na energetický dluh mohou běžet maximálně tak mobilní Haswellová dvoujádra (pokud vůbec), která jsou pro to vybavena (z důvodu omezených možností chlazení): Mají základní takt (dvě jádra), boost pro dvě jádra a boost pro jedno jádro. Přičemž dvoujádrový boost je nižší než maximální frekvence (jednojádrový boost). Pro desktop Intel nic jako quad-core boost ve specifikacích neuvádí, natož aby mohl dosahovat hodnot single-core boostu. Tím by celý koncept ztrácel smysl.

ptipi | 7. 6. 2013 - 11:08

Jak jsi sám podotýkal, tak 4770R vychází z mobilního čipu. Ale ok, třeba se v tomto pletu. NIC to ale nemění na výsledku.Na překonání 1 TFLOPS by stačil i takt 1,33GHz.

ptipi | 7. 6. 2013 - 09:56

500GFLOPS je spíše teoretický limit na 3,9GHz, 410 je pro změnu spodní a taky teoretický limit na 3,2GHz. Realita bude asi napůl cesty. Obojí je více jak dvojnásobek potřebný k dosažení 1TFLOPS při daném výkonu GPU.
Podmínka socketu je nesmysl už jen z důvodu existence APU jako E350 (nebo to podle vás není APU?). A stejně tak je nesmysl v počtu křemíků, protože crystalwell nepřidává ani jediný FLOPS (ergo bez ní má haswell stejný teoretický výkon). Jedná se o externí paměť a pokud chcete počítat paměťové čipy, tak každý procesor jich potřebuje spoustu (taky jsou to kusy křemíku) a je jedno jestli jsou v modulech, příletované na desce nebo přímo u něj.

del42sa | 7. 6. 2013 - 10:22

Crystalwell určitě na výkon vliv mít bude, protože to není jen framebuffer pro GPU, ale i L4 Cache pro CPU.

webwalker | 7. 6. 2013 - 10:36

No, on to myslí tak, že to nemá vliv na "teoretický peek" výkon (jeho výpočet). Imho

del42sa | 7. 6. 2013 - 10:47

tož to potem jo :o))

ptipi | 7. 6. 2013 - 11:05

Všechna tato čísla (i u AMD) jsou teoretický peak.

no-X | 7. 6. 2013 - 10:45

Ne, to není ani teoretická hodnota, protože ani teoreticky není možné Haswell přimět, aby bez zásahu uživatele všechna čtyři jádra běžela zároveň v boostu.

ptipi | 7. 6. 2013 - 11:04

A znovu se zeptám. Co to mění? I ten základní takt 3,2GHz více než bohatě stačí na překonání 1TFLOPS.

no-X | 7. 6. 2013 - 11:33

Já neříkám, že to něco mění nebo nemění, jen upozorňuju, že tebou uvedená hodnota je nesmyslná a vysvětluju proč.

Tedy ještě jednou k překonání 1 TFLOPS: i7-4770R je slepenec dvou kusů křemíku. Dá se něco takového považovat za APU a srovnávat s nimi? Já se domnívám, že ne, protože sama AMD žádný slepenec nikdy jako APU nenazývala, všechna APU jsou monolity. Krom toho i7-4770R je embedded produkt. Embedded produkt za $400. Slyšel jsi někdy o high-end embedded segmentu? Předpokládám, že ne, protože nic takového neexistuje. Intel prostě vzal high-endový mobilní čip a minimálně ho upravil pro desktop, aby mohl konstatovat, že má nejrychlejší integrovanou grafiku. To je poněkud samoúčelné, protože integrovaná grafika, která je dražší a pomalejší než dedikovaná, jaksi postrádá smysl. Je to stejný případ jako s nVidií a její GTX 680MX, kterou ráda vydává za nejrychlejší mobilní grafiku, ale ve skutečnosti neexistuje jediný mobilní produkt, ve kterém by byla osazena.

ptipi | 7. 6. 2013 - 12:03

Chytáš se stébla, které nemá na výsledek vliv a potom mi dokazuješ, jakou že jsou udělal obrovskou chybu. Něco typu "přiletěli mimozemšťani ve velké červené lodi" a ty na to "loď nebyla červená, ale oranžová!".
Další stéblo je cena. Taky nic nemění na tom, že se jedná o APU (1GHz CPU v pár kusech za nehoraznou sumu taky byl samoúčelný, měnilo to něco na jeho imho nepochybném prvenství?). Jinak samozřejmě, že jsem slyšel o highend embedded (např all-in-one počítače). Navíc ta cena stojí na výkonu a spotřebě (můžete překonat jedno, nepřekonáte oba najednou).
Další stéblo "dvoučip". Co v popisu APU zamezuje mít on-package (nebo vlastně kdekoliv jinde) rychlou paměť? Nic. Ostatně nemá náhodou APU v xboxu taky externí cache?
Prostě a jednoduše, pokud chtěli první 1TFLOPS APU, měli s ním přijít o půl roku dříve. Další možnost je přijít s vyumělkovaným důvodem, proč konkurence není APU. To bych čekal od markeťáků, ne od "nezaujatého" novináře.
PS: Pokud nepříjdete s něčím novým, co opravdu mění situaci, dále v této debatě nepokračuji.

ptipi | 7. 6. 2013 - 12:18

Tak mě napadá, že to APU v xboxu bude mít určitě výkon přesahující 1TFLOPS. Sice to není PC, ale rozhodně mnohem lepší argument a skoro bych řekl "close enough". AMD ho ale z nějakého důvodu nepočítá (asi by se na slidu pěkně nevyjímalo, že jejich Kaveri bude mít poloviční výkon).

leppard (neověřeno) | 7. 6. 2013 - 12:20

"od "nezaujatého" novináře." :-)))

cyberreality | 7. 6. 2013 - 07:40

ted me linpack na trinity ukazal 14.56gflops ...

ptipi | 7. 6. 2013 - 10:05

Všechna tato čísla jsou teoretické limity dosažitelné za předpokladu ideálního vytížení těch všech jednotek. Zvláště u GPU části z toho vytřískáš většinou jen zlomek.

webwalker | 7. 6. 2013 - 10:35

No ono nejde ani tak o ideální vytížení, jako spíše o teoretické peek vytížení. Prakticky i z cpu vytřískáš pouze zlomek protože jsou tam ještě další omezení jako (v případě SandyBridge) L/S jednotky, které nestíhají krmit výpočetní jednotky daty nebo třeba také zaplnění celého 256bit vektoru daty v každém cyklu :(

del42sa | 7. 6. 2013 - 10:48

v tomhle jsou výpočty na GPU mnohem lepší

ptipi | 7. 6. 2013 - 11:23

Děláš s ilegraci, že ano? Podívej se na TOP500, kde optimalizují na kost a u strojů jen s CPU většina strojů dosahuje hodnoty Rmax velmi blízké Rpeak. U strojů s GPU (nebo i Xeon Phi) je to výrazně horší. Drtivá většina tranzistorů u klasických CPU jde do toho, aby byly výkonné jednotky co nejlépe vytížené.

del42sa | 7. 6. 2013 - 11:44

myslím, že si legraci nedělá, naopak ví o čem mluví ....

ASD_SK | 7. 6. 2013 - 12:01

Tak v pomere Rmax a Rpeak jasne vedie Spark su niekde okolo 94%. X86 je pod 70% a to uz nie je tak daleko od grafik.

ptipi | 7. 6. 2013 - 12:08

Já tam vidím několik xeonů na infinibandu, které dosahují kolem 90%. Nevidím žádné GPU, které by se přehouplo přes 70% (a nezapomínat, že nezanedbatelná část výkonu i u nich jde z CPU).

webwalker | 7. 6. 2013 - 12:26

Imho gpu jsou pro paralelní úlohy a vektorové zpracování dat mnohem lepší volbou než cpu. U gpgpu ale vznikají celkem značné ztráty efektivity při přesunech dat, kde se o data gpu musí postarat cpu. Čím více "stěhování", tím nižší efektivita, ale jak patrno v TOP žebříčcích, i tak se to stále vyplatí. Jó, až si bude moct kernel na gpu sám stáhnout data z operační paměti, efektivita poskočí zase výše. Teď se jen ještě zbavit latentní pcie jako u APU :)

del42sa | 7. 6. 2013 - 12:34

tohle snad pořeší hUMA...

ASD_SK | 7. 6. 2013 - 13:23

Pozeral som ten list. Uz to nie je tak tragicke ako pred par rokmy, ale stale napriklad poadie 11 s efektivitou 80% alebo 14 dokonca len asi 71% nie je ziadny zazrak.

Ache Ache | 9. 6. 2013 - 00:10

Nové Ruby demo vypadá možná zajímavě, ale ještě zajímavější je ten slajd o něm:
http://diit.cz/sites/default/files/computex_2013_-_amd_richland_kaveri_r...
Docela pobavilo... si dělají z lidí fakt legraci. :)

Richmond | 9. 6. 2013 - 12:15

V té prezentaci, na kterou jsem dával odkaz je to popsané detailněji, na hardware.de je video z making of... Byla by docela sranda, kdyby to bylo celé renderované (nikoliv realtime vypočítávané přes vga) jako tenkrát první Ruby http://www.youtube.com/watch?v=VxKdl5pZ880 :D Ale tak co, je to AMD takže sropvnávat s poměrně starým demem Samaritan https://www.youtube.com/watch?v=XgS67BwPfFY nebo Infiltrator https://www.youtube.com/watch?v=dO2rM-l-vdQ (stejný engine) nebudeme...

Richmond | 11. 6. 2013 - 00:55

Mesh Tesselation 2x :D

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Computex 2013: Kaveri přesáhne 1 TFLOPS, AMD se pochlubila i novou Ruby

Komerční sdělení

CDR Hry

Epic rozdává zdarma hru, která potěší hráče fantasy strategických her

Zákaz trollů, goblinů a holubů. Interní pravidla OpenAI zní jako pořádná satira

Windows 11 dostává za vyučenou od SteamOS. Microsoft konečně přiznává problém

Kdo a proč vykopal sítě tunelů pod Evropou? Archeologové jsou dlouhodobě zmatení

Naděje jménem 2D materiály naráží na fyzikální limit, který nelze obejít

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT