Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Cannon Lake podporuje AVX-512

Ono mimochodem, chce si nekdo kupovat notebook s procesorem ze zkusebni mezigenerace, ktera bude dostupna jen pro mobilni U notebooky?
Ikdyz jasne takove ty firemni notebooky obnovovane po dvou letech, tem bude jedno co v tom maji a Intel tak treba vydela na nejaky vyvoj neceho konkurencniho.

+1
+1
-1
Je komentář přínosný?
Obrázek uživatele Amater

Tak hlavně aby to nedopadlo jako z degradujícím křemíkem u atomů a dřívějších chipsetů. Přece jen jde o novej proces.

+1
+1
-1
Je komentář přínosný?

Intel Core i3-8121U
Advanced Vector Extensions 512 (AVX-512) Present
AVX-512 Prefetch Instructions Not Present
AVX-512 Exponential and Reciprocal Instructions Not Present
AVX-512 Conflict Detection Instructions Present
AVX-512 Doubleword and Quadword Instructions Present
AVX-512 Byte and Word Instructions Present
AVX-512 Vector Length Extensions Present
AVX-512 52-bit Integer FMA Instructions Present
AVX-512 Vector Bit Manipulation Instructions Present
AVX-512 Vector Bit Manipulation Instructions 2 Not Present
AVX-512 Galois Fields New Instructions Not Present
AVX-512 Vector AES Not Present
AVX-512 Vector Neural Network Instructions Word Not Present
AVX-512 Bit Algorithms Not Present
AVX-512 Carry-Less Multiplication Quadword (VPCLMULQDQ) Not Present
AVX-512 Vector POPCNT (VPOPCNTD/VPOPCNTQ) Not Present
AVX-512 4 x Vector Neural Network Instructions Word Variable Precision Not Present
AVX-512 4 x Fused Multiply Accumulation Packed Single Precision Not Present

+1
+4
-1
Je komentář přínosný?
Obrázek uživatele QWERTY

som zvedavy aky bude Throttling pri AVX512, 0.8 GHz? teplota ako na povrchu slnka :)

+1
+1
-1
Je komentář přínosný?

ad ten vykonovy narast, ten je realny len pokial sa vsetky data pre vypocet zmestia do L1 cache, v opacnom pripade sa stane uzkym hrdlom citanie dat, ktore nedokaze uspokojit ani obycajne AVX2

+1
+2
-1
Je komentář přínosný?

Ono to je ešte horšie. L1 bandwidth je 2x32B load a 1x32B store, čo sa dá zasaturovať aj skalárnymi inštrukciami, samozrejme pri použití 2 FPU. A ešte je podmienka že cache musí byť taktovaná synchrónne s jadrom.

Čokoľvek nad tým, aj blbé SSE, vyžaduje aby dáta ostávali v registroch. Inak je tam automaticky penalizácia.

No a ešte samozrejme, všetko za predpokladu že tam niesú dátové závislosti, inak bude pipeline stallovať kvôli čakaniu na dáta.

Takže AVX512 je pekné, ale použiteľnosť otázna.

+1
+1
-1
Je komentář přínosný?

To zní moc vesele, to mi dává větší smysl časem implementovat i do consumer segmentu nějaké velmi malé FPGA k CPU, které bude vykonávat výpočty přímo na míru. Ale to má ještě pár let k uzrání, vzhledem k tomu že s tím intel i amd šaškovali před x lety a první kdo to ofiko přetvořil v reálný produkt je zatím intel.

Osobně jsem ale víc zvědavej (byť už ta bublina s meltou a spektrem uvadla), jak se poperou s agresivní spekulací a honbou za co nejvyšším IPC.

+1
0
-1
Je komentář přínosný?

skylake-X s podporou avx512 ma pri L1 2x64B read a 1x64B write. Ale ano, pre dve fpu jednotky je to stale malo, kedze to dokaze saturovat jedina 512bit FMA instrukcia

+1
0
-1
Je komentář přínosný?

> dokaze saturovat jedina 512bit FMA instrukcia

Teoreticky ano, prakticky ani ne. V praxi se FMA pouziva jinym stylem - retezi se. Navic FMA ma na Skylaku latenci 4 cykly a throughput 2/cycle, nicmene pokud se to retezi, musi FMA cekat na vysledek predchozi a plati ty 4 cykly. A to je FMA jedna z tech rychlejsich AVX instrukci... takovej SQRT ma latenci 20. Rekl bych ze tech 2x64B + 1x64B je tak akorat. Pokud mate tak jednoduchej algoritmus ze nedela temer nic v registrech a jste limitovani pameti, pak vam je stejne uz i AVX 1/2 k nicemu.

+1
0
-1
Je komentář přínosný?

nieco take ako loop unrolling s akumulatorovymi registrami nepoznas?
nemal som problem na haswelli zretazit fma instrukcie tak aby sa realne vykonavali dve naraz s efektivnou latenciou 1 cyklus, potom ma samozrejme zacala brzdit L1 cache
ale to vsetko na malickych datach, pokial som to skusil na vacsich, ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSE

+1
0
-1
Je komentář přínosný?

> nieco take ako loop unrolling

poznam, ma to jen drobnej hacek - potrebujes loop :) pokud v nem nejsi, tak je ti unrolling na dve veci, ze...

> ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSE

a co jako ? vzdyt jsem rikal, kdyz mas tak jednoduchej algoritmus ze je limitovan pameti, tak ti nemuze nic. To neni zadna novinka, a rychlejsi L1 by ti taky nepomohla, takze je zbytecne narikat ze L1 load/store ma jen 2x64B/1x64B.

+1
0
-1
Je komentář přínosný?

Mozno za 5 rokov to bude pouzitelne, ak to zacne podporovat vacsina CPU.

+1
0
-1
Je komentář přínosný?

No a hlavně většina aplikací, která múže těžit z AVX, pojede na GPU ještě lépe...

+1
+1
-1
Je komentář přínosný?

To jsem si říkal v době tehdy inzerovaného HSA, ale software utek. :/

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.