Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Computex 2013: Kaveri přesáhne 1 TFLOPS, AMD se pochlubila i novou Ruby

Když už jsme u těch faux pas tak ta Ruby taky neběžela v realtimu http://www.youtube.com/watch?v=YxhkWM0QGTE pár slajdů here http://bit.ly/19N57IA

+1
+1
-1
Je komentář přínosný?

Myslím, že s tím "prvním TFLOPS+ APU" přicházejí trochu pozdě...pochopitelně pokud nedefinují, že apu musí být od AMD. Takový i7-4770R má 410-500 GFLOPS jen na CPU (podle frekvence) a 832 GFLOPS na grafice.

+1
+1
-1
Je komentář přínosný?

Bez ohledu na to, jestli APU je nebo není od AMD, se i7-4770R liší tím, že není z jednoho kusu křemíku - nemluvě o tom, že neexistuje v socketové verzi, což je další rozdíl oproti zmíněným APU. Mimochodem, moc by mě zajímala frekvence, na které i7-4770R dosahuje 500 GFLOPS :-))

+1
+1
-1
Je komentář přínosný?

Imho při započítání FMA/AVX by mohl Haswellovské cpu dosáhnout teoretických 500GFlops při 3,9GHz.

+1
+1
-1
Je komentář přínosný?

Jenže ptipi si jaksi neuvědomuje, že čtyři jádra na turbo frekvenci tak nějak neběží, takže v okamžiku, kdy 4770R dosáhne 3,9 GHz, nemá výkon 500 GFLOPS, ale čtvrtinu této hodnoty.

+1
+1
-1
Je komentář přínosný?

Já si to velice dobře uvědomuji a proto jsem uvedl rozmezí (oba limity jsou spíše teoretické). Ale pokud se bavíme o teorii, tak pokud vím současný TurboBoost nemá explicitní omezení na jaké frekvenci může kolik jader běžet. Takže krátkodobě je nejspíš možné v dávkách dosáhnout 500GFLOPS bez dosažení termálního limitu.

+1
+1
-1
Je komentář přínosný?

Proč tedy Intel v materiálech k Haswellu rozebírá base clock, dual-core boost a single-core boost? Jsem ochotný akceptovat přístup, kdy se sčítá GPU a CPU v základu, ale k tebou popsané situaci nemůže dojít ani teoreticky. Na energetický dluh mohou běžet maximálně tak mobilní Haswellová dvoujádra (pokud vůbec), která jsou pro to vybavena (z důvodu omezených možností chlazení): Mají základní takt (dvě jádra), boost pro dvě jádra a boost pro jedno jádro. Přičemž dvoujádrový boost je nižší než maximální frekvence (jednojádrový boost). Pro desktop Intel nic jako quad-core boost ve specifikacích neuvádí, natož aby mohl dosahovat hodnot single-core boostu. Tím by celý koncept ztrácel smysl.

+1
+1
-1
Je komentář přínosný?

Jak jsi sám podotýkal, tak 4770R vychází z mobilního čipu. Ale ok, třeba se v tomto pletu. NIC to ale nemění na výsledku.Na překonání 1 TFLOPS by stačil i takt 1,33GHz.

+1
+1
-1
Je komentář přínosný?

500GFLOPS je spíše teoretický limit na 3,9GHz, 410 je pro změnu spodní a taky teoretický limit na 3,2GHz. Realita bude asi napůl cesty. Obojí je více jak dvojnásobek potřebný k dosažení 1TFLOPS při daném výkonu GPU.
Podmínka socketu je nesmysl už jen z důvodu existence APU jako E350 (nebo to podle vás není APU?). A stejně tak je nesmysl v počtu křemíků, protože crystalwell nepřidává ani jediný FLOPS (ergo bez ní má haswell stejný teoretický výkon). Jedná se o externí paměť a pokud chcete počítat paměťové čipy, tak každý procesor jich potřebuje spoustu (taky jsou to kusy křemíku) a je jedno jestli jsou v modulech, příletované na desce nebo přímo u něj.

+1
+1
-1
Je komentář přínosný?

Crystalwell určitě na výkon vliv mít bude, protože to není jen framebuffer pro GPU, ale i L4 Cache pro CPU.

+1
+1
-1
Je komentář přínosný?

No, on to myslí tak, že to nemá vliv na "teoretický peek" výkon (jeho výpočet). Imho

+1
+1
-1
Je komentář přínosný?

tož to potem jo :o))

+1
+1
-1
Je komentář přínosný?

Všechna tato čísla (i u AMD) jsou teoretický peak.

+1
+1
-1
Je komentář přínosný?

Ne, to není ani teoretická hodnota, protože ani teoreticky není možné Haswell přimět, aby bez zásahu uživatele všechna čtyři jádra běžela zároveň v boostu.

+1
+1
-1
Je komentář přínosný?

A znovu se zeptám. Co to mění? I ten základní takt 3,2GHz více než bohatě stačí na překonání 1TFLOPS.

+1
+1
-1
Je komentář přínosný?

Já neříkám, že to něco mění nebo nemění, jen upozorňuju, že tebou uvedená hodnota je nesmyslná a vysvětluju proč.

Tedy ještě jednou k překonání 1 TFLOPS: i7-4770R je slepenec dvou kusů křemíku. Dá se něco takového považovat za APU a srovnávat s nimi? Já se domnívám, že ne, protože sama AMD žádný slepenec nikdy jako APU nenazývala, všechna APU jsou monolity. Krom toho i7-4770R je embedded produkt. Embedded produkt za $400. Slyšel jsi někdy o high-end embedded segmentu? Předpokládám, že ne, protože nic takového neexistuje. Intel prostě vzal high-endový mobilní čip a minimálně ho upravil pro desktop, aby mohl konstatovat, že má nejrychlejší integrovanou grafiku. To je poněkud samoúčelné, protože integrovaná grafika, která je dražší a pomalejší než dedikovaná, jaksi postrádá smysl. Je to stejný případ jako s nVidií a její GTX 680MX, kterou ráda vydává za nejrychlejší mobilní grafiku, ale ve skutečnosti neexistuje jediný mobilní produkt, ve kterém by byla osazena.

+1
+1
-1
Je komentář přínosný?

Chytáš se stébla, které nemá na výsledek vliv a potom mi dokazuješ, jakou že jsou udělal obrovskou chybu. Něco typu "přiletěli mimozemšťani ve velké červené lodi" a ty na to "loď nebyla červená, ale oranžová!".
Další stéblo je cena. Taky nic nemění na tom, že se jedná o APU (1GHz CPU v pár kusech za nehoraznou sumu taky byl samoúčelný, měnilo to něco na jeho imho nepochybném prvenství?). Jinak samozřejmě, že jsem slyšel o highend embedded (např all-in-one počítače). Navíc ta cena stojí na výkonu a spotřebě (můžete překonat jedno, nepřekonáte oba najednou).
Další stéblo "dvoučip". Co v popisu APU zamezuje mít on-package (nebo vlastně kdekoliv jinde) rychlou paměť? Nic. Ostatně nemá náhodou APU v xboxu taky externí cache?
Prostě a jednoduše, pokud chtěli první 1TFLOPS APU, měli s ním přijít o půl roku dříve. Další možnost je přijít s vyumělkovaným důvodem, proč konkurence není APU. To bych čekal od markeťáků, ne od "nezaujatého" novináře.
PS: Pokud nepříjdete s něčím novým, co opravdu mění situaci, dále v této debatě nepokračuji.

+1
+1
-1
Je komentář přínosný?

Tak mě napadá, že to APU v xboxu bude mít určitě výkon přesahující 1TFLOPS. Sice to není PC, ale rozhodně mnohem lepší argument a skoro bych řekl "close enough". AMD ho ale z nějakého důvodu nepočítá (asi by se na slidu pěkně nevyjímalo, že jejich Kaveri bude mít poloviční výkon).

+1
+1
-1
Je komentář přínosný?

"od "nezaujatého" novináře." :-)))

+1
+1
-1
Je komentář přínosný?

ted me linpack na trinity ukazal 14.56gflops ...

+1
+1
-1
Je komentář přínosný?

Všechna tato čísla jsou teoretické limity dosažitelné za předpokladu ideálního vytížení těch všech jednotek. Zvláště u GPU části z toho vytřískáš většinou jen zlomek.

+1
+1
-1
Je komentář přínosný?

No ono nejde ani tak o ideální vytížení, jako spíše o teoretické peek vytížení. Prakticky i z cpu vytřískáš pouze zlomek protože jsou tam ještě další omezení jako (v případě SandyBridge) L/S jednotky, které nestíhají krmit výpočetní jednotky daty nebo třeba také zaplnění celého 256bit vektoru daty v každém cyklu :(

+1
+1
-1
Je komentář přínosný?

v tomhle jsou výpočty na GPU mnohem lepší

+1
+1
-1
Je komentář přínosný?

Děláš s ilegraci, že ano? Podívej se na TOP500, kde optimalizují na kost a u strojů jen s CPU většina strojů dosahuje hodnoty Rmax velmi blízké Rpeak. U strojů s GPU (nebo i Xeon Phi) je to výrazně horší. Drtivá většina tranzistorů u klasických CPU jde do toho, aby byly výkonné jednotky co nejlépe vytížené.

+1
+1
-1
Je komentář přínosný?

myslím, že si legraci nedělá, naopak ví o čem mluví ....

+1
+1
-1
Je komentář přínosný?

Tak v pomere Rmax a Rpeak jasne vedie Spark su niekde okolo 94%. X86 je pod 70% a to uz nie je tak daleko od grafik.

+1
+1
-1
Je komentář přínosný?

Já tam vidím několik xeonů na infinibandu, které dosahují kolem 90%. Nevidím žádné GPU, které by se přehouplo přes 70% (a nezapomínat, že nezanedbatelná část výkonu i u nich jde z CPU).

+1
+1
-1
Je komentář přínosný?

Imho gpu jsou pro paralelní úlohy a vektorové zpracování dat mnohem lepší volbou než cpu. U gpgpu ale vznikají celkem značné ztráty efektivity při přesunech dat, kde se o data gpu musí postarat cpu. Čím více "stěhování", tím nižší efektivita, ale jak patrno v TOP žebříčcích, i tak se to stále vyplatí. Jó, až si bude moct kernel na gpu sám stáhnout data z operační paměti, efektivita poskočí zase výše. Teď se jen ještě zbavit latentní pcie jako u APU :)

+1
+1
-1
Je komentář přínosný?

tohle snad pořeší hUMA...

+1
+1
-1
Je komentář přínosný?

Pozeral som ten list. Uz to nie je tak tragicke ako pred par rokmy, ale stale napriklad poadie 11 s efektivitou 80% alebo 14 dokonca len asi 71% nie je ziadny zazrak.

+1
+1
-1
Je komentář přínosný?

Nové Ruby demo vypadá možná zajímavě, ale ještě zajímavější je ten slajd o něm:
http://diit.cz/sites/default/files/computex_2013_-_amd_richland_kaveri_r...
Docela pobavilo... si dělají z lidí fakt legraci. :)

+1
+1
-1
Je komentář přínosný?

V té prezentaci, na kterou jsem dával odkaz je to popsané detailněji, na hardware.de je video z making of... Byla by docela sranda, kdyby to bylo celé renderované (nikoliv realtime vypočítávané přes vga) jako tenkrát první Ruby http://www.youtube.com/watch?v=VxKdl5pZ880 :D Ale tak co, je to AMD takže sropvnávat s poměrně starým demem Samaritan https://www.youtube.com/watch?v=XgS67BwPfFY nebo Infiltrator https://www.youtube.com/watch?v=dO2rM-l-vdQ (stejný engine) nebudeme...

+1
+1
-1
Je komentář přínosný?

Mesh Tesselation 2x :D

+1
+1
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.