Ono mimochodem, chce si nekdo kupovat notebook s procesorem ze zkusebni mezigenerace, ktera bude dostupna jen pro mobilni U notebooky?
Ikdyz jasne takove ty firemni notebooky obnovovane po dvou letech, tem bude jedno co v tom maji a Intel tak treba vydela na nejaky vyvoj neceho konkurencniho.
+1
+1
-1
Je komentář přínosný?
Ono mimochodem, chce si nekdo
RedMaX https://diit.cz/profil/redmarx
22. 5. 2018 - 08:33https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuseOno mimochodem, chce si nekdo kupovat notebook s procesorem ze zkusebni mezigenerace, ktera bude dostupna jen pro mobilni U notebooky?
Ikdyz jasne takove ty firemni notebooky obnovovane po dvou letech, tem bude jedno co v tom maji a Intel tak treba vydela na nejaky vyvoj neceho konkurencniho.https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1149891
+
Tak hlavně aby to nedopadlo jako z degradujícím křemíkem u atomů a dřívějších chipsetů. Přece jen jde o novej proces.
+1
+1
-1
Je komentář přínosný?
Tak hlavně aby to nedopadlo
Amater https://diit.cz/profil/zedoross
22. 5. 2018 - 08:43https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuseTak hlavně aby to nedopadlo jako z degradujícím křemíkem u atomů a dřívějších chipsetů. Přece jen jde o novej proces. https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1149900
+
som zvedavy aky bude Throttling pri AVX512, 0.8 GHz? teplota ako na povrchu slnka :)
+1
+1
-1
Je komentář přínosný?
som zvedavy aky bude
QWERTY https://diit.cz/profil/slavo-fabian
22. 5. 2018 - 09:12https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskusesom zvedavy aky bude Throttling pri AVX512, 0.8 GHz? teplota ako na povrchu slnka :)https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1149915
+
ad ten vykonovy narast, ten je realny len pokial sa vsetky data pre vypocet zmestia do L1 cache, v opacnom pripade sa stane uzkym hrdlom citanie dat, ktore nedokaze uspokojit ani obycajne AVX2
+1
+2
-1
Je komentář přínosný?
ad ten vykonovy narast, ten
Doug Quaid https://diit.cz/profil/doug
22. 5. 2018 - 09:20https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskusead ten vykonovy narast, ten je realny len pokial sa vsetky data pre vypocet zmestia do L1 cache, v opacnom pripade sa stane uzkym hrdlom citanie dat, ktore nedokaze uspokojit ani obycajne AVX2https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1149918
+
Ono to je ešte horšie. L1 bandwidth je 2x32B load a 1x32B store, čo sa dá zasaturovať aj skalárnymi inštrukciami, samozrejme pri použití 2 FPU. A ešte je podmienka že cache musí byť taktovaná synchrónne s jadrom.
Čokoľvek nad tým, aj blbé SSE, vyžaduje aby dáta ostávali v registroch. Inak je tam automaticky penalizácia.
No a ešte samozrejme, všetko za predpokladu že tam niesú dátové závislosti, inak bude pipeline stallovať kvôli čakaniu na dáta.
Takže AVX512 je pekné, ale použiteľnosť otázna.
+1
+1
-1
Je komentář přínosný?
Ono to je ešte horšie. L1
Dolan https://diit.cz/profil/jogar-gobz
22. 5. 2018 - 11:54https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuseOno to je ešte horšie. L1 bandwidth je 2x32B load a 1x32B store, čo sa dá zasaturovať aj skalárnymi inštrukciami, samozrejme pri použití 2 FPU. A ešte je podmienka že cache musí byť taktovaná synchrónne s jadrom.
Čokoľvek nad tým, aj blbé SSE, vyžaduje aby dáta ostávali v registroch. Inak je tam automaticky penalizácia.
No a ešte samozrejme, všetko za predpokladu že tam niesú dátové závislosti, inak bude pipeline stallovať kvôli čakaniu na dáta.
Takže AVX512 je pekné, ale použiteľnosť otázna. https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1149993
+
To zní moc vesele, to mi dává větší smysl časem implementovat i do consumer segmentu nějaké velmi malé FPGA k CPU, které bude vykonávat výpočty přímo na míru. Ale to má ještě pár let k uzrání, vzhledem k tomu že s tím intel i amd šaškovali před x lety a první kdo to ofiko přetvořil v reálný produkt je zatím intel.
Osobně jsem ale víc zvědavej (byť už ta bublina s meltou a spektrem uvadla), jak se poperou s agresivní spekulací a honbou za co nejvyšším IPC.
+1
0
-1
Je komentář přínosný?
To zní moc vesele, to mi dává
Artael https://diit.cz/profil/artael
22. 5. 2018 - 12:37https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuseTo zní moc vesele, to mi dává větší smysl časem implementovat i do consumer segmentu nějaké velmi malé FPGA k CPU, které bude vykonávat výpočty přímo na míru. Ale to má ještě pár let k uzrání, vzhledem k tomu že s tím intel i amd šaškovali před x lety a první kdo to ofiko přetvořil v reálný produkt je zatím intel.
Osobně jsem ale víc zvědavej (byť už ta bublina s meltou a spektrem uvadla), jak se poperou s agresivní spekulací a honbou za co nejvyšším IPC.https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1149996
+
skylake-X s podporou avx512 ma pri L1 2x64B read a 1x64B write. Ale ano, pre dve fpu jednotky je to stale malo, kedze to dokaze saturovat jedina 512bit FMA instrukcia
+1
0
-1
Je komentář přínosný?
skylake-X s podporou avx512
Doug Quaid https://diit.cz/profil/doug
22. 5. 2018 - 14:22https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuseskylake-X s podporou avx512 ma pri L1 2x64B read a 1x64B write. Ale ano, pre dve fpu jednotky je to stale malo, kedze to dokaze saturovat jedina 512bit FMA instrukciahttps://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1150086
+
Teoreticky ano, prakticky ani ne. V praxi se FMA pouziva jinym stylem - retezi se. Navic FMA ma na Skylaku latenci 4 cykly a throughput 2/cycle, nicmene pokud se to retezi, musi FMA cekat na vysledek predchozi a plati ty 4 cykly. A to je FMA jedna z tech rychlejsich AVX instrukci... takovej SQRT ma latenci 20. Rekl bych ze tech 2x64B + 1x64B je tak akorat. Pokud mate tak jednoduchej algoritmus ze nedela temer nic v registrech a jste limitovani pameti, pak vam je stejne uz i AVX 1/2 k nicemu.
+1
0
-1
Je komentář přínosný?
> dokaze saturovat jedina
franzzz https://diit.cz/profil/franz-z
22. 5. 2018 - 18:34https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse> dokaze saturovat jedina 512bit FMA instrukcia
Teoreticky ano, prakticky ani ne. V praxi se FMA pouziva jinym stylem - retezi se. Navic FMA ma na Skylaku latenci 4 cykly a throughput 2/cycle, nicmene pokud se to retezi, musi FMA cekat na vysledek predchozi a plati ty 4 cykly. A to je FMA jedna z tech rychlejsich AVX instrukci... takovej SQRT ma latenci 20. Rekl bych ze tech 2x64B + 1x64B je tak akorat. Pokud mate tak jednoduchej algoritmus ze nedela temer nic v registrech a jste limitovani pameti, pak vam je stejne uz i AVX 1/2 k nicemu.https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1150173
+
nieco take ako loop unrolling s akumulatorovymi registrami nepoznas?
nemal som problem na haswelli zretazit fma instrukcie tak aby sa realne vykonavali dve naraz s efektivnou latenciou 1 cyklus, potom ma samozrejme zacala brzdit L1 cache
ale to vsetko na malickych datach, pokial som to skusil na vacsich, ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSE
+1
0
-1
Je komentář přínosný?
nieco take ako loop unrolling
Doug Quaid https://diit.cz/profil/doug
23. 5. 2018 - 08:23https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskusenieco take ako loop unrolling s akumulatorovymi registrami nepoznas?
nemal som problem na haswelli zretazit fma instrukcie tak aby sa realne vykonavali dve naraz s efektivnou latenciou 1 cyklus, potom ma samozrejme zacala brzdit L1 cache
ale to vsetko na malickych datach, pokial som to skusil na vacsich, ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSEhttps://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1150275
+
poznam, ma to jen drobnej hacek - potrebujes loop :) pokud v nem nejsi, tak je ti unrolling na dve veci, ze...
> ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSE
a co jako ? vzdyt jsem rikal, kdyz mas tak jednoduchej algoritmus ze je limitovan pameti, tak ti nemuze nic. To neni zadna novinka, a rychlejsi L1 by ti taky nepomohla, takze je zbytecne narikat ze L1 load/store ma jen 2x64B/1x64B.
+1
0
-1
Je komentář přínosný?
> nieco take ako loop
franzzz https://diit.cz/profil/franz-z
23. 5. 2018 - 10:40https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse> nieco take ako loop unrolling
poznam, ma to jen drobnej hacek - potrebujes loop :) pokud v nem nejsi, tak je ti unrolling na dve veci, ze...
> ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSE
a co jako ? vzdyt jsem rikal, kdyz mas tak jednoduchej algoritmus ze je limitovan pameti, tak ti nemuze nic. To neni zadna novinka, a rychlejsi L1 by ti taky nepomohla, takze je zbytecne narikat ze L1 load/store ma jen 2x64B/1x64B.https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1150335
+
Mozno za 5 rokov to bude pouzitelne, ak to zacne podporovat vacsina CPU.
+1
0
-1
Je komentář přínosný?
Mozno za 5 rokov to bude
l0rdh4d3s (neověřeno) https://diit.cz
22. 5. 2018 - 09:27https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuseMozno za 5 rokov to bude pouzitelne, ak to zacne podporovat vacsina CPU.https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1149927
+
No a hlavně většina aplikací, která múže těžit z AVX, pojede na GPU ještě lépe...
+1
+1
-1
Je komentář přínosný?
No a hlavně většina aplikací,
Milan Bačík https://diit.cz/profil/mildaiv
22. 5. 2018 - 11:02https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuseNo a hlavně většina aplikací, která múže těžit z AVX, pojede na GPU ještě lépe...https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1149972
+
To jsem si říkal v době tehdy inzerovaného HSA, ale software utek. :/
+1
0
-1
Je komentář přínosný?
To jsem si říkal v době tehdy
Gath G https://diit.cz/profil/ggeal
22. 5. 2018 - 13:50https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuseTo jsem si říkal v době tehdy inzerovaného HSA, ale software utek. :/https://diit.cz/clanek/cannon-lake-podporuje-avx-512/diskuse#comment-1150053
+
Ono mimochodem, chce si nekdo kupovat notebook s procesorem ze zkusebni mezigenerace, ktera bude dostupna jen pro mobilni U notebooky?
Ikdyz jasne takove ty firemni notebooky obnovovane po dvou letech, tem bude jedno co v tom maji a Intel tak treba vydela na nejaky vyvoj neceho konkurencniho.
Tak hlavně aby to nedopadlo jako z degradujícím křemíkem u atomů a dřívějších chipsetů. Přece jen jde o novej proces.
Intel Core i3-8121U
Advanced Vector Extensions 512 (AVX-512) Present
AVX-512 Prefetch Instructions Not Present
AVX-512 Exponential and Reciprocal Instructions Not Present
AVX-512 Conflict Detection Instructions Present
AVX-512 Doubleword and Quadword Instructions Present
AVX-512 Byte and Word Instructions Present
AVX-512 Vector Length Extensions Present
AVX-512 52-bit Integer FMA Instructions Present
AVX-512 Vector Bit Manipulation Instructions Present
AVX-512 Vector Bit Manipulation Instructions 2 Not Present
AVX-512 Galois Fields New Instructions Not Present
AVX-512 Vector AES Not Present
AVX-512 Vector Neural Network Instructions Word Not Present
AVX-512 Bit Algorithms Not Present
AVX-512 Carry-Less Multiplication Quadword (VPCLMULQDQ) Not Present
AVX-512 Vector POPCNT (VPOPCNTD/VPOPCNTQ) Not Present
AVX-512 4 x Vector Neural Network Instructions Word Variable Precision Not Present
AVX-512 4 x Fused Multiply Accumulation Packed Single Precision Not Present
som zvedavy aky bude Throttling pri AVX512, 0.8 GHz? teplota ako na povrchu slnka :)
ad ten vykonovy narast, ten je realny len pokial sa vsetky data pre vypocet zmestia do L1 cache, v opacnom pripade sa stane uzkym hrdlom citanie dat, ktore nedokaze uspokojit ani obycajne AVX2
Ono to je ešte horšie. L1 bandwidth je 2x32B load a 1x32B store, čo sa dá zasaturovať aj skalárnymi inštrukciami, samozrejme pri použití 2 FPU. A ešte je podmienka že cache musí byť taktovaná synchrónne s jadrom.
Čokoľvek nad tým, aj blbé SSE, vyžaduje aby dáta ostávali v registroch. Inak je tam automaticky penalizácia.
No a ešte samozrejme, všetko za predpokladu že tam niesú dátové závislosti, inak bude pipeline stallovať kvôli čakaniu na dáta.
Takže AVX512 je pekné, ale použiteľnosť otázna.
To zní moc vesele, to mi dává větší smysl časem implementovat i do consumer segmentu nějaké velmi malé FPGA k CPU, které bude vykonávat výpočty přímo na míru. Ale to má ještě pár let k uzrání, vzhledem k tomu že s tím intel i amd šaškovali před x lety a první kdo to ofiko přetvořil v reálný produkt je zatím intel.
Osobně jsem ale víc zvědavej (byť už ta bublina s meltou a spektrem uvadla), jak se poperou s agresivní spekulací a honbou za co nejvyšším IPC.
skylake-X s podporou avx512 ma pri L1 2x64B read a 1x64B write. Ale ano, pre dve fpu jednotky je to stale malo, kedze to dokaze saturovat jedina 512bit FMA instrukcia
> dokaze saturovat jedina 512bit FMA instrukcia
Teoreticky ano, prakticky ani ne. V praxi se FMA pouziva jinym stylem - retezi se. Navic FMA ma na Skylaku latenci 4 cykly a throughput 2/cycle, nicmene pokud se to retezi, musi FMA cekat na vysledek predchozi a plati ty 4 cykly. A to je FMA jedna z tech rychlejsich AVX instrukci... takovej SQRT ma latenci 20. Rekl bych ze tech 2x64B + 1x64B je tak akorat. Pokud mate tak jednoduchej algoritmus ze nedela temer nic v registrech a jste limitovani pameti, pak vam je stejne uz i AVX 1/2 k nicemu.
nieco take ako loop unrolling s akumulatorovymi registrami nepoznas?
nemal som problem na haswelli zretazit fma instrukcie tak aby sa realne vykonavali dve naraz s efektivnou latenciou 1 cyklus, potom ma samozrejme zacala brzdit L1 cache
ale to vsetko na malickych datach, pokial som to skusil na vacsich, ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSE
> nieco take ako loop unrolling
poznam, ma to jen drobnej hacek - potrebujes loop :) pokud v nem nejsi, tak je ti unrolling na dve veci, ze...
> ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSE
a co jako ? vzdyt jsem rikal, kdyz mas tak jednoduchej algoritmus ze je limitovan pameti, tak ti nemuze nic. To neni zadna novinka, a rychlejsi L1 by ti taky nepomohla, takze je zbytecne narikat ze L1 load/store ma jen 2x64B/1x64B.
Mozno za 5 rokov to bude pouzitelne, ak to zacne podporovat vacsina CPU.
No a hlavně většina aplikací, která múže těžit z AVX, pojede na GPU ještě lépe...
To jsem si říkal v době tehdy inzerovaného HSA, ale software utek. :/
Pro psaní komentářů se, prosím, přihlaste nebo registrujte.