7. 6. 2013 - 01:10https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseKdyž už jsme u těch faux pas tak ta Ruby taky neběžela v realtimu http://www.youtube.com/watch?v=YxhkWM0QGTE pár slajdů here http://bit.ly/19N57IAhttps://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656775
+
Myslím, že s tím "prvním TFLOPS+ APU" přicházejí trochu pozdě...pochopitelně pokud nedefinují, že apu musí být od AMD. Takový i7-4770R má 410-500 GFLOPS jen na CPU (podle frekvence) a 832 GFLOPS na grafice.
+1
+1
-1
Je komentář přínosný?
Myslím, že s tím "prvním
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 02:24https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseMyslím, že s tím "prvním TFLOPS+ APU" přicházejí trochu pozdě...pochopitelně pokud nedefinují, že apu musí být od AMD. Takový i7-4770R má 410-500 GFLOPS jen na CPU (podle frekvence) a 832 GFLOPS na grafice.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656777
+
Bez ohledu na to, jestli APU je nebo není od AMD, se i7-4770R liší tím, že není z jednoho kusu křemíku - nemluvě o tom, že neexistuje v socketové verzi, což je další rozdíl oproti zmíněným APU. Mimochodem, moc by mě zajímala frekvence, na které i7-4770R dosahuje 500 GFLOPS :-))
+1
+1
-1
Je komentář přínosný?
Bez ohledu na to, jestli APU
no-X https://diit.cz/autor/no-x
7. 6. 2013 - 08:45https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseBez ohledu na to, jestli APU je nebo není od AMD, se i7-4770R liší tím, že není z jednoho kusu křemíku - nemluvě o tom, že neexistuje v socketové verzi, což je další rozdíl oproti zmíněným APU. Mimochodem, moc by mě zajímala frekvence, na které i7-4770R dosahuje 500 GFLOPS :-))https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656783
+
Imho při započítání FMA/AVX by mohl Haswellovské cpu dosáhnout teoretických 500GFlops při 3,9GHz.
+1
+1
-1
Je komentář přínosný?
Imho při započítání FMA/AVX
webwalker https://diit.cz/profil/webwalker
7. 6. 2013 - 09:47https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseImho při započítání FMA/AVX by mohl Haswellovské cpu dosáhnout teoretických 500GFlops při 3,9GHz.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656794
+
Jenže ptipi si jaksi neuvědomuje, že čtyři jádra na turbo frekvenci tak nějak neběží, takže v okamžiku, kdy 4770R dosáhne 3,9 GHz, nemá výkon 500 GFLOPS, ale čtvrtinu této hodnoty.
+1
+1
-1
Je komentář přínosný?
Jenže ptipi si jaksi
no-X https://diit.cz/autor/no-x
7. 6. 2013 - 09:52https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseJenže ptipi si jaksi neuvědomuje, že čtyři jádra na turbo frekvenci tak nějak neběží, takže v okamžiku, kdy 4770R dosáhne 3,9 GHz, nemá výkon 500 GFLOPS, ale čtvrtinu této hodnoty.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656796
+
Já si to velice dobře uvědomuji a proto jsem uvedl rozmezí (oba limity jsou spíše teoretické). Ale pokud se bavíme o teorii, tak pokud vím současný TurboBoost nemá explicitní omezení na jaké frekvenci může kolik jader běžet. Takže krátkodobě je nejspíš možné v dávkách dosáhnout 500GFLOPS bez dosažení termálního limitu.
+1
+1
-1
Je komentář přínosný?
Já si to velice dobře
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 10:01https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseJá si to velice dobře uvědomuji a proto jsem uvedl rozmezí (oba limity jsou spíše teoretické). Ale pokud se bavíme o teorii, tak pokud vím současný TurboBoost nemá explicitní omezení na jaké frekvenci může kolik jader běžet. Takže krátkodobě je nejspíš možné v dávkách dosáhnout 500GFLOPS bez dosažení termálního limitu.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656799
+
Proč tedy Intel v materiálech k Haswellu rozebírá base clock, dual-core boost a single-core boost? Jsem ochotný akceptovat přístup, kdy se sčítá GPU a CPU v základu, ale k tebou popsané situaci nemůže dojít ani teoreticky. Na energetický dluh mohou běžet maximálně tak mobilní Haswellová dvoujádra (pokud vůbec), která jsou pro to vybavena (z důvodu omezených možností chlazení): Mají základní takt (dvě jádra), boost pro dvě jádra a boost pro jedno jádro. Přičemž dvoujádrový boost je nižší než maximální frekvence (jednojádrový boost). Pro desktop Intel nic jako quad-core boost ve specifikacích neuvádí, natož aby mohl dosahovat hodnot single-core boostu. Tím by celý koncept ztrácel smysl.
+1
+1
-1
Je komentář přínosný?
Proč tedy Intel v materiálech
no-X https://diit.cz/autor/no-x
7. 6. 2013 - 10:43https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseProč tedy Intel v materiálech k Haswellu rozebírá base clock, dual-core boost a single-core boost? Jsem ochotný akceptovat přístup, kdy se sčítá GPU a CPU v základu, ale k tebou popsané situaci nemůže dojít ani teoreticky. Na energetický dluh mohou běžet maximálně tak mobilní Haswellová dvoujádra (pokud vůbec), která jsou pro to vybavena (z důvodu omezených možností chlazení): Mají základní takt (dvě jádra), boost pro dvě jádra a boost pro jedno jádro. Přičemž dvoujádrový boost je nižší než maximální frekvence (jednojádrový boost). Pro desktop Intel nic jako quad-core boost ve specifikacích neuvádí, natož aby mohl dosahovat hodnot single-core boostu. Tím by celý koncept ztrácel smysl.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656808
+
Jak jsi sám podotýkal, tak 4770R vychází z mobilního čipu. Ale ok, třeba se v tomto pletu. NIC to ale nemění na výsledku.Na překonání 1 TFLOPS by stačil i takt 1,33GHz.
+1
+1
-1
Je komentář přínosný?
Jak jsi sám podotýkal, tak
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 11:08https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseJak jsi sám podotýkal, tak 4770R vychází z mobilního čipu. Ale ok, třeba se v tomto pletu. NIC to ale nemění na výsledku.Na překonání 1 TFLOPS by stačil i takt 1,33GHz.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656817
+
500GFLOPS je spíše teoretický limit na 3,9GHz, 410 je pro změnu spodní a taky teoretický limit na 3,2GHz. Realita bude asi napůl cesty. Obojí je více jak dvojnásobek potřebný k dosažení 1TFLOPS při daném výkonu GPU.
Podmínka socketu je nesmysl už jen z důvodu existence APU jako E350 (nebo to podle vás není APU?). A stejně tak je nesmysl v počtu křemíků, protože crystalwell nepřidává ani jediný FLOPS (ergo bez ní má haswell stejný teoretický výkon). Jedná se o externí paměť a pokud chcete počítat paměťové čipy, tak každý procesor jich potřebuje spoustu (taky jsou to kusy křemíku) a je jedno jestli jsou v modulech, příletované na desce nebo přímo u něj.
+1
+1
-1
Je komentář přínosný?
500GFLOPS je spíše teoretický
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 09:56https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse500GFLOPS je spíše teoretický limit na 3,9GHz, 410 je pro změnu spodní a taky teoretický limit na 3,2GHz. Realita bude asi napůl cesty. Obojí je více jak dvojnásobek potřebný k dosažení 1TFLOPS při daném výkonu GPU.
Podmínka socketu je nesmysl už jen z důvodu existence APU jako E350 (nebo to podle vás není APU?). A stejně tak je nesmysl v počtu křemíků, protože crystalwell nepřidává ani jediný FLOPS (ergo bez ní má haswell stejný teoretický výkon). Jedná se o externí paměť a pokud chcete počítat paměťové čipy, tak každý procesor jich potřebuje spoustu (taky jsou to kusy křemíku) a je jedno jestli jsou v modulech, příletované na desce nebo přímo u něj.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656797
+
Crystalwell určitě na výkon vliv mít bude, protože to není jen framebuffer pro GPU, ale i L4 Cache pro CPU.
+1
+1
-1
Je komentář přínosný?
Crystalwell určitě na výkon
del42sa https://diit.cz/profil/del42sa
7. 6. 2013 - 10:22https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseCrystalwell určitě na výkon vliv mít bude, protože to není jen framebuffer pro GPU, ale i L4 Cache pro CPU.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656804
+
No, on to myslí tak, že to nemá vliv na "teoretický peek" výkon (jeho výpočet). Imho
+1
+1
-1
Je komentář přínosný?
No, on to myslí tak, že to
webwalker https://diit.cz/profil/webwalker
7. 6. 2013 - 10:36https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseNo, on to myslí tak, že to nemá vliv na "teoretický peek" výkon (jeho výpočet). Imhohttps://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656807
+
7. 6. 2013 - 10:47https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskusetož to potem jo :o))https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656811
+
Všechna tato čísla (i u AMD) jsou teoretický peak.
+1
+1
-1
Je komentář přínosný?
Všechna tato čísla (i u AMD)
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 11:05https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseVšechna tato čísla (i u AMD) jsou teoretický peak.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656816
+
Ne, to není ani teoretická hodnota, protože ani teoreticky není možné Haswell přimět, aby bez zásahu uživatele všechna čtyři jádra běžela zároveň v boostu.
+1
+1
-1
Je komentář přínosný?
Ne, to není ani teoretická
no-X https://diit.cz/autor/no-x
7. 6. 2013 - 10:45https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseNe, to není ani teoretická hodnota, protože ani teoreticky není možné Haswell přimět, aby bez zásahu uživatele všechna čtyři jádra běžela zároveň v boostu.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656810
+
A znovu se zeptám. Co to mění? I ten základní takt 3,2GHz více než bohatě stačí na překonání 1TFLOPS.
+1
+1
-1
Je komentář přínosný?
A znovu se zeptám. Co to
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 11:04https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseA znovu se zeptám. Co to mění? I ten základní takt 3,2GHz více než bohatě stačí na překonání 1TFLOPS.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656815
+
Já neříkám, že to něco mění nebo nemění, jen upozorňuju, že tebou uvedená hodnota je nesmyslná a vysvětluju proč.
Tedy ještě jednou k překonání 1 TFLOPS: i7-4770R je slepenec dvou kusů křemíku. Dá se něco takového považovat za APU a srovnávat s nimi? Já se domnívám, že ne, protože sama AMD žádný slepenec nikdy jako APU nenazývala, všechna APU jsou monolity. Krom toho i7-4770R je embedded produkt. Embedded produkt za $400. Slyšel jsi někdy o high-end embedded segmentu? Předpokládám, že ne, protože nic takového neexistuje. Intel prostě vzal high-endový mobilní čip a minimálně ho upravil pro desktop, aby mohl konstatovat, že má nejrychlejší integrovanou grafiku. To je poněkud samoúčelné, protože integrovaná grafika, která je dražší a pomalejší než dedikovaná, jaksi postrádá smysl. Je to stejný případ jako s nVidií a její GTX 680MX, kterou ráda vydává za nejrychlejší mobilní grafiku, ale ve skutečnosti neexistuje jediný mobilní produkt, ve kterém by byla osazena.
+1
+1
-1
Je komentář přínosný?
Já neříkám, že to něco mění
no-X https://diit.cz/autor/no-x
7. 6. 2013 - 11:33https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseJá neříkám, že to něco mění nebo nemění, jen upozorňuju, že tebou uvedená hodnota je nesmyslná a vysvětluju proč.
Tedy ještě jednou k překonání 1 TFLOPS: i7-4770R je slepenec dvou kusů křemíku. Dá se něco takového považovat za APU a srovnávat s nimi? Já se domnívám, že ne, protože sama AMD žádný slepenec nikdy jako APU nenazývala, všechna APU jsou monolity. Krom toho i7-4770R je embedded produkt. Embedded produkt za $400. Slyšel jsi někdy o high-end embedded segmentu? Předpokládám, že ne, protože nic takového neexistuje. Intel prostě vzal high-endový mobilní čip a minimálně ho upravil pro desktop, aby mohl konstatovat, že má nejrychlejší integrovanou grafiku. To je poněkud samoúčelné, protože integrovaná grafika, která je dražší a pomalejší než dedikovaná, jaksi postrádá smysl. Je to stejný případ jako s nVidií a její GTX 680MX, kterou ráda vydává za nejrychlejší mobilní grafiku, ale ve skutečnosti neexistuje jediný mobilní produkt, ve kterém by byla osazena.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656820
+
Chytáš se stébla, které nemá na výsledek vliv a potom mi dokazuješ, jakou že jsou udělal obrovskou chybu. Něco typu "přiletěli mimozemšťani ve velké červené lodi" a ty na to "loď nebyla červená, ale oranžová!".
Další stéblo je cena. Taky nic nemění na tom, že se jedná o APU (1GHz CPU v pár kusech za nehoraznou sumu taky byl samoúčelný, měnilo to něco na jeho imho nepochybném prvenství?). Jinak samozřejmě, že jsem slyšel o highend embedded (např all-in-one počítače). Navíc ta cena stojí na výkonu a spotřebě (můžete překonat jedno, nepřekonáte oba najednou).
Další stéblo "dvoučip". Co v popisu APU zamezuje mít on-package (nebo vlastně kdekoliv jinde) rychlou paměť? Nic. Ostatně nemá náhodou APU v xboxu taky externí cache?
Prostě a jednoduše, pokud chtěli první 1TFLOPS APU, měli s ním přijít o půl roku dříve. Další možnost je přijít s vyumělkovaným důvodem, proč konkurence není APU. To bych čekal od markeťáků, ne od "nezaujatého" novináře.
PS: Pokud nepříjdete s něčím novým, co opravdu mění situaci, dále v této debatě nepokračuji.
+1
+1
-1
Je komentář přínosný?
Chytáš se stébla, které nemá
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 12:03https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseChytáš se stébla, které nemá na výsledek vliv a potom mi dokazuješ, jakou že jsou udělal obrovskou chybu. Něco typu "přiletěli mimozemšťani ve velké červené lodi" a ty na to "loď nebyla červená, ale oranžová!".
Další stéblo je cena. Taky nic nemění na tom, že se jedná o APU (1GHz CPU v pár kusech za nehoraznou sumu taky byl samoúčelný, měnilo to něco na jeho imho nepochybném prvenství?). Jinak samozřejmě, že jsem slyšel o highend embedded (např all-in-one počítače). Navíc ta cena stojí na výkonu a spotřebě (můžete překonat jedno, nepřekonáte oba najednou).
Další stéblo "dvoučip". Co v popisu APU zamezuje mít on-package (nebo vlastně kdekoliv jinde) rychlou paměť? Nic. Ostatně nemá náhodou APU v xboxu taky externí cache?
Prostě a jednoduše, pokud chtěli první 1TFLOPS APU, měli s ním přijít o půl roku dříve. Další možnost je přijít s vyumělkovaným důvodem, proč konkurence není APU. To bych čekal od markeťáků, ne od "nezaujatého" novináře.
PS: Pokud nepříjdete s něčím novým, co opravdu mění situaci, dále v této debatě nepokračuji.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656826
+
Tak mě napadá, že to APU v xboxu bude mít určitě výkon přesahující 1TFLOPS. Sice to není PC, ale rozhodně mnohem lepší argument a skoro bych řekl "close enough". AMD ho ale z nějakého důvodu nepočítá (asi by se na slidu pěkně nevyjímalo, že jejich Kaveri bude mít poloviční výkon).
+1
+1
-1
Je komentář přínosný?
Tak mě napadá, že to APU v
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 12:18https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseTak mě napadá, že to APU v xboxu bude mít určitě výkon přesahující 1TFLOPS. Sice to není PC, ale rozhodně mnohem lepší argument a skoro bych řekl "close enough". AMD ho ale z nějakého důvodu nepočítá (asi by se na slidu pěkně nevyjímalo, že jejich Kaveri bude mít poloviční výkon).https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656830
+
Všechna tato čísla jsou teoretické limity dosažitelné za předpokladu ideálního vytížení těch všech jednotek. Zvláště u GPU části z toho vytřískáš většinou jen zlomek.
+1
+1
-1
Je komentář přínosný?
Všechna tato čísla jsou
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 10:05https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseVšechna tato čísla jsou teoretické limity dosažitelné za předpokladu ideálního vytížení těch všech jednotek. Zvláště u GPU části z toho vytřískáš většinou jen zlomek.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656800
+
No ono nejde ani tak o ideální vytížení, jako spíše o teoretické peek vytížení. Prakticky i z cpu vytřískáš pouze zlomek protože jsou tam ještě další omezení jako (v případě SandyBridge) L/S jednotky, které nestíhají krmit výpočetní jednotky daty nebo třeba také zaplnění celého 256bit vektoru daty v každém cyklu :(
+1
+1
-1
Je komentář přínosný?
No ono nejde ani tak o
webwalker https://diit.cz/profil/webwalker
7. 6. 2013 - 10:35https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseNo ono nejde ani tak o ideální vytížení, jako spíše o teoretické peek vytížení. Prakticky i z cpu vytřískáš pouze zlomek protože jsou tam ještě další omezení jako (v případě SandyBridge) L/S jednotky, které nestíhají krmit výpočetní jednotky daty nebo třeba také zaplnění celého 256bit vektoru daty v každém cyklu :(https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656806
+
7. 6. 2013 - 10:48https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskusev tomhle jsou výpočty na GPU mnohem lepší https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656812
+
Děláš s ilegraci, že ano? Podívej se na TOP500, kde optimalizují na kost a u strojů jen s CPU většina strojů dosahuje hodnoty Rmax velmi blízké Rpeak. U strojů s GPU (nebo i Xeon Phi) je to výrazně horší. Drtivá většina tranzistorů u klasických CPU jde do toho, aby byly výkonné jednotky co nejlépe vytížené.
+1
+1
-1
Je komentář přínosný?
Děláš s ilegraci, že ano?
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 11:23https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseDěláš s ilegraci, že ano? Podívej se na TOP500, kde optimalizují na kost a u strojů jen s CPU většina strojů dosahuje hodnoty Rmax velmi blízké Rpeak. U strojů s GPU (nebo i Xeon Phi) je to výrazně horší. Drtivá většina tranzistorů u klasických CPU jde do toho, aby byly výkonné jednotky co nejlépe vytížené.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656818
+
myslím, že si legraci nedělá, naopak ví o čem mluví ....
+1
+1
-1
Je komentář přínosný?
myslím, že si legraci nedělá,
del42sa https://diit.cz/profil/del42sa
7. 6. 2013 - 11:44https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskusemyslím, že si legraci nedělá, naopak ví o čem mluví ....https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656821
+
Tak v pomere Rmax a Rpeak jasne vedie Spark su niekde okolo 94%. X86 je pod 70% a to uz nie je tak daleko od grafik.
+1
+1
-1
Je komentář přínosný?
Tak v pomere Rmax a Rpeak
ASD_SK https://diit.cz/profil/asdsk
7. 6. 2013 - 12:01https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseTak v pomere Rmax a Rpeak jasne vedie Spark su niekde okolo 94%. X86 je pod 70% a to uz nie je tak daleko od grafik.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656824
+
Já tam vidím několik xeonů na infinibandu, které dosahují kolem 90%. Nevidím žádné GPU, které by se přehouplo přes 70% (a nezapomínat, že nezanedbatelná část výkonu i u nich jde z CPU).
+1
+1
-1
Je komentář přínosný?
Já tam vidím několik xeonů na
ptipi https://diit.cz/profil/ptipi
7. 6. 2013 - 12:08https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseJá tam vidím několik xeonů na infinibandu, které dosahují kolem 90%. Nevidím žádné GPU, které by se přehouplo přes 70% (a nezapomínat, že nezanedbatelná část výkonu i u nich jde z CPU).https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656828
+
Imho gpu jsou pro paralelní úlohy a vektorové zpracování dat mnohem lepší volbou než cpu. U gpgpu ale vznikají celkem značné ztráty efektivity při přesunech dat, kde se o data gpu musí postarat cpu. Čím více "stěhování", tím nižší efektivita, ale jak patrno v TOP žebříčcích, i tak se to stále vyplatí. Jó, až si bude moct kernel na gpu sám stáhnout data z operační paměti, efektivita poskočí zase výše. Teď se jen ještě zbavit latentní pcie jako u APU :)
+1
+1
-1
Je komentář přínosný?
Imho gpu jsou pro paralelní
webwalker https://diit.cz/profil/webwalker
7. 6. 2013 - 12:26https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseImho gpu jsou pro paralelní úlohy a vektorové zpracování dat mnohem lepší volbou než cpu. U gpgpu ale vznikají celkem značné ztráty efektivity při přesunech dat, kde se o data gpu musí postarat cpu. Čím více "stěhování", tím nižší efektivita, ale jak patrno v TOP žebříčcích, i tak se to stále vyplatí. Jó, až si bude moct kernel na gpu sám stáhnout data z operační paměti, efektivita poskočí zase výše. Teď se jen ještě zbavit latentní pcie jako u APU :)https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656833
+
Pozeral som ten list. Uz to nie je tak tragicke ako pred par rokmy, ale stale napriklad poadie 11 s efektivitou 80% alebo 14 dokonca len asi 71% nie je ziadny zazrak.
+1
+1
-1
Je komentář přínosný?
Pozeral som ten list. Uz to
ASD_SK https://diit.cz/profil/asdsk
7. 6. 2013 - 13:23https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskusePozeral som ten list. Uz to nie je tak tragicke ako pred par rokmy, ale stale napriklad poadie 11 s efektivitou 80% alebo 14 dokonca len asi 71% nie je ziadny zazrak.https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656849
+
9. 6. 2013 - 00:10https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseNové Ruby demo vypadá možná zajímavě, ale ještě zajímavější je ten slajd o něm:
http://diit.cz/sites/default/files/computex_2013_-_amd_richland_kaveri_ruby_01.jpg
Docela pobavilo... si dělají z lidí fakt legraci. :)
https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656952
+
9. 6. 2013 - 12:15https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuseV té prezentaci, na kterou jsem dával odkaz je to popsané detailněji, na hardware.de je video z making of... Byla by docela sranda, kdyby to bylo celé renderované (nikoliv realtime vypočítávané přes vga) jako tenkrát první Ruby http://www.youtube.com/watch?v=VxKdl5pZ880 :D Ale tak co, je to AMD takže sropvnávat s poměrně starým demem Samaritan https://www.youtube.com/watch?v=XgS67BwPfFY nebo Infiltrator https://www.youtube.com/watch?v=dO2rM-l-vdQ (stejný engine) nebudeme...https://diit.cz/clanek/kaveri-presahne-1-tflops-a-prezentace-amd-ruby/diskuse#comment-656967
+
Když už jsme u těch faux pas tak ta Ruby taky neběžela v realtimu http://www.youtube.com/watch?v=YxhkWM0QGTE pár slajdů here http://bit.ly/19N57IA
Myslím, že s tím "prvním TFLOPS+ APU" přicházejí trochu pozdě...pochopitelně pokud nedefinují, že apu musí být od AMD. Takový i7-4770R má 410-500 GFLOPS jen na CPU (podle frekvence) a 832 GFLOPS na grafice.
Bez ohledu na to, jestli APU je nebo není od AMD, se i7-4770R liší tím, že není z jednoho kusu křemíku - nemluvě o tom, že neexistuje v socketové verzi, což je další rozdíl oproti zmíněným APU. Mimochodem, moc by mě zajímala frekvence, na které i7-4770R dosahuje 500 GFLOPS :-))
Imho při započítání FMA/AVX by mohl Haswellovské cpu dosáhnout teoretických 500GFlops při 3,9GHz.
Jenže ptipi si jaksi neuvědomuje, že čtyři jádra na turbo frekvenci tak nějak neběží, takže v okamžiku, kdy 4770R dosáhne 3,9 GHz, nemá výkon 500 GFLOPS, ale čtvrtinu této hodnoty.
Já si to velice dobře uvědomuji a proto jsem uvedl rozmezí (oba limity jsou spíše teoretické). Ale pokud se bavíme o teorii, tak pokud vím současný TurboBoost nemá explicitní omezení na jaké frekvenci může kolik jader běžet. Takže krátkodobě je nejspíš možné v dávkách dosáhnout 500GFLOPS bez dosažení termálního limitu.
Proč tedy Intel v materiálech k Haswellu rozebírá base clock, dual-core boost a single-core boost? Jsem ochotný akceptovat přístup, kdy se sčítá GPU a CPU v základu, ale k tebou popsané situaci nemůže dojít ani teoreticky. Na energetický dluh mohou běžet maximálně tak mobilní Haswellová dvoujádra (pokud vůbec), která jsou pro to vybavena (z důvodu omezených možností chlazení): Mají základní takt (dvě jádra), boost pro dvě jádra a boost pro jedno jádro. Přičemž dvoujádrový boost je nižší než maximální frekvence (jednojádrový boost). Pro desktop Intel nic jako quad-core boost ve specifikacích neuvádí, natož aby mohl dosahovat hodnot single-core boostu. Tím by celý koncept ztrácel smysl.
Jak jsi sám podotýkal, tak 4770R vychází z mobilního čipu. Ale ok, třeba se v tomto pletu. NIC to ale nemění na výsledku.Na překonání 1 TFLOPS by stačil i takt 1,33GHz.
500GFLOPS je spíše teoretický limit na 3,9GHz, 410 je pro změnu spodní a taky teoretický limit na 3,2GHz. Realita bude asi napůl cesty. Obojí je více jak dvojnásobek potřebný k dosažení 1TFLOPS při daném výkonu GPU.
Podmínka socketu je nesmysl už jen z důvodu existence APU jako E350 (nebo to podle vás není APU?). A stejně tak je nesmysl v počtu křemíků, protože crystalwell nepřidává ani jediný FLOPS (ergo bez ní má haswell stejný teoretický výkon). Jedná se o externí paměť a pokud chcete počítat paměťové čipy, tak každý procesor jich potřebuje spoustu (taky jsou to kusy křemíku) a je jedno jestli jsou v modulech, příletované na desce nebo přímo u něj.
Crystalwell určitě na výkon vliv mít bude, protože to není jen framebuffer pro GPU, ale i L4 Cache pro CPU.
No, on to myslí tak, že to nemá vliv na "teoretický peek" výkon (jeho výpočet). Imho
tož to potem jo :o))
Všechna tato čísla (i u AMD) jsou teoretický peak.
Ne, to není ani teoretická hodnota, protože ani teoreticky není možné Haswell přimět, aby bez zásahu uživatele všechna čtyři jádra běžela zároveň v boostu.
A znovu se zeptám. Co to mění? I ten základní takt 3,2GHz více než bohatě stačí na překonání 1TFLOPS.
Já neříkám, že to něco mění nebo nemění, jen upozorňuju, že tebou uvedená hodnota je nesmyslná a vysvětluju proč.
Tedy ještě jednou k překonání 1 TFLOPS: i7-4770R je slepenec dvou kusů křemíku. Dá se něco takového považovat za APU a srovnávat s nimi? Já se domnívám, že ne, protože sama AMD žádný slepenec nikdy jako APU nenazývala, všechna APU jsou monolity. Krom toho i7-4770R je embedded produkt. Embedded produkt za $400. Slyšel jsi někdy o high-end embedded segmentu? Předpokládám, že ne, protože nic takového neexistuje. Intel prostě vzal high-endový mobilní čip a minimálně ho upravil pro desktop, aby mohl konstatovat, že má nejrychlejší integrovanou grafiku. To je poněkud samoúčelné, protože integrovaná grafika, která je dražší a pomalejší než dedikovaná, jaksi postrádá smysl. Je to stejný případ jako s nVidií a její GTX 680MX, kterou ráda vydává za nejrychlejší mobilní grafiku, ale ve skutečnosti neexistuje jediný mobilní produkt, ve kterém by byla osazena.
Chytáš se stébla, které nemá na výsledek vliv a potom mi dokazuješ, jakou že jsou udělal obrovskou chybu. Něco typu "přiletěli mimozemšťani ve velké červené lodi" a ty na to "loď nebyla červená, ale oranžová!".
Další stéblo je cena. Taky nic nemění na tom, že se jedná o APU (1GHz CPU v pár kusech za nehoraznou sumu taky byl samoúčelný, měnilo to něco na jeho imho nepochybném prvenství?). Jinak samozřejmě, že jsem slyšel o highend embedded (např all-in-one počítače). Navíc ta cena stojí na výkonu a spotřebě (můžete překonat jedno, nepřekonáte oba najednou).
Další stéblo "dvoučip". Co v popisu APU zamezuje mít on-package (nebo vlastně kdekoliv jinde) rychlou paměť? Nic. Ostatně nemá náhodou APU v xboxu taky externí cache?
Prostě a jednoduše, pokud chtěli první 1TFLOPS APU, měli s ním přijít o půl roku dříve. Další možnost je přijít s vyumělkovaným důvodem, proč konkurence není APU. To bych čekal od markeťáků, ne od "nezaujatého" novináře.
PS: Pokud nepříjdete s něčím novým, co opravdu mění situaci, dále v této debatě nepokračuji.
Tak mě napadá, že to APU v xboxu bude mít určitě výkon přesahující 1TFLOPS. Sice to není PC, ale rozhodně mnohem lepší argument a skoro bych řekl "close enough". AMD ho ale z nějakého důvodu nepočítá (asi by se na slidu pěkně nevyjímalo, že jejich Kaveri bude mít poloviční výkon).
"od "nezaujatého" novináře." :-)))
ted me linpack na trinity ukazal 14.56gflops ...
Všechna tato čísla jsou teoretické limity dosažitelné za předpokladu ideálního vytížení těch všech jednotek. Zvláště u GPU části z toho vytřískáš většinou jen zlomek.
No ono nejde ani tak o ideální vytížení, jako spíše o teoretické peek vytížení. Prakticky i z cpu vytřískáš pouze zlomek protože jsou tam ještě další omezení jako (v případě SandyBridge) L/S jednotky, které nestíhají krmit výpočetní jednotky daty nebo třeba také zaplnění celého 256bit vektoru daty v každém cyklu :(
v tomhle jsou výpočty na GPU mnohem lepší
Děláš s ilegraci, že ano? Podívej se na TOP500, kde optimalizují na kost a u strojů jen s CPU většina strojů dosahuje hodnoty Rmax velmi blízké Rpeak. U strojů s GPU (nebo i Xeon Phi) je to výrazně horší. Drtivá většina tranzistorů u klasických CPU jde do toho, aby byly výkonné jednotky co nejlépe vytížené.
myslím, že si legraci nedělá, naopak ví o čem mluví ....
Tak v pomere Rmax a Rpeak jasne vedie Spark su niekde okolo 94%. X86 je pod 70% a to uz nie je tak daleko od grafik.
Já tam vidím několik xeonů na infinibandu, které dosahují kolem 90%. Nevidím žádné GPU, které by se přehouplo přes 70% (a nezapomínat, že nezanedbatelná část výkonu i u nich jde z CPU).
Imho gpu jsou pro paralelní úlohy a vektorové zpracování dat mnohem lepší volbou než cpu. U gpgpu ale vznikají celkem značné ztráty efektivity při přesunech dat, kde se o data gpu musí postarat cpu. Čím více "stěhování", tím nižší efektivita, ale jak patrno v TOP žebříčcích, i tak se to stále vyplatí. Jó, až si bude moct kernel na gpu sám stáhnout data z operační paměti, efektivita poskočí zase výše. Teď se jen ještě zbavit latentní pcie jako u APU :)
tohle snad pořeší hUMA...
Pozeral som ten list. Uz to nie je tak tragicke ako pred par rokmy, ale stale napriklad poadie 11 s efektivitou 80% alebo 14 dokonca len asi 71% nie je ziadny zazrak.
Nové Ruby demo vypadá možná zajímavě, ale ještě zajímavější je ten slajd o něm:
http://diit.cz/sites/default/files/computex_2013_-_amd_richland_kaveri_r...
Docela pobavilo... si dělají z lidí fakt legraci. :)
V té prezentaci, na kterou jsem dával odkaz je to popsané detailněji, na hardware.de je video z making of... Byla by docela sranda, kdyby to bylo celé renderované (nikoliv realtime vypočítávané přes vga) jako tenkrát první Ruby http://www.youtube.com/watch?v=VxKdl5pZ880 :D Ale tak co, je to AMD takže sropvnávat s poměrně starým demem Samaritan https://www.youtube.com/watch?v=XgS67BwPfFY nebo Infiltrator https://www.youtube.com/watch?v=dO2rM-l-vdQ (stejný engine) nebudeme...
Mesh Tesselation 2x :D
Pro psaní komentářů se, prosím, přihlaste nebo registrujte.