Diskuse k Cannon Lake podporuje AVX-512

RedMaX | 22. 5. 2018 - 08:33

Ono mimochodem, chce si nekdo kupovat notebook s procesorem ze zkusebni mezigenerace, ktera bude dostupna jen pro mobilni U notebooky?
Ikdyz jasne takove ty firemni notebooky obnovovane po dvou letech, tem bude jedno co v tom maji a Intel tak treba vydela na nejaky vyvoj neceho konkurencniho.

Amater | 22. 5. 2018 - 08:43

Tak hlavně aby to nedopadlo jako z degradujícím křemíkem u atomů a dřívějších chipsetů. Přece jen jde o novej proces.

Mumak | 22. 5. 2018 - 09:07

Intel Core i3-8121U
Advanced Vector Extensions 512 (AVX-512) Present
AVX-512 Prefetch Instructions Not Present
AVX-512 Exponential and Reciprocal Instructions Not Present
AVX-512 Conflict Detection Instructions Present
AVX-512 Doubleword and Quadword Instructions Present
AVX-512 Byte and Word Instructions Present
AVX-512 Vector Length Extensions Present
AVX-512 52-bit Integer FMA Instructions Present
AVX-512 Vector Bit Manipulation Instructions Present
AVX-512 Vector Bit Manipulation Instructions 2 Not Present
AVX-512 Galois Fields New Instructions Not Present
AVX-512 Vector AES Not Present
AVX-512 Vector Neural Network Instructions Word Not Present
AVX-512 Bit Algorithms Not Present
AVX-512 Carry-Less Multiplication Quadword (VPCLMULQDQ) Not Present
AVX-512 Vector POPCNT (VPOPCNTD/VPOPCNTQ) Not Present
AVX-512 4 x Vector Neural Network Instructions Word Variable Precision Not Present
AVX-512 4 x Fused Multiply Accumulation Packed Single Precision Not Present

QWERTY | 22. 5. 2018 - 09:12

som zvedavy aky bude Throttling pri AVX512, 0.8 GHz? teplota ako na povrchu slnka :)

Doug Quaid | 22. 5. 2018 - 09:20

ad ten vykonovy narast, ten je realny len pokial sa vsetky data pre vypocet zmestia do L1 cache, v opacnom pripade sa stane uzkym hrdlom citanie dat, ktore nedokaze uspokojit ani obycajne AVX2

Dolan | 22. 5. 2018 - 11:54

Ono to je ešte horšie. L1 bandwidth je 2x32B load a 1x32B store, čo sa dá zasaturovať aj skalárnymi inštrukciami, samozrejme pri použití 2 FPU. A ešte je podmienka že cache musí byť taktovaná synchrónne s jadrom.

Čokoľvek nad tým, aj blbé SSE, vyžaduje aby dáta ostávali v registroch. Inak je tam automaticky penalizácia.

No a ešte samozrejme, všetko za predpokladu že tam niesú dátové závislosti, inak bude pipeline stallovať kvôli čakaniu na dáta.

Takže AVX512 je pekné, ale použiteľnosť otázna.

Artael | 22. 5. 2018 - 12:37

To zní moc vesele, to mi dává větší smysl časem implementovat i do consumer segmentu nějaké velmi malé FPGA k CPU, které bude vykonávat výpočty přímo na míru. Ale to má ještě pár let k uzrání, vzhledem k tomu že s tím intel i amd šaškovali před x lety a první kdo to ofiko přetvořil v reálný produkt je zatím intel.

Osobně jsem ale víc zvědavej (byť už ta bublina s meltou a spektrem uvadla), jak se poperou s agresivní spekulací a honbou za co nejvyšším IPC.

Doug Quaid | 22. 5. 2018 - 14:22

skylake-X s podporou avx512 ma pri L1 2x64B read a 1x64B write. Ale ano, pre dve fpu jednotky je to stale malo, kedze to dokaze saturovat jedina 512bit FMA instrukcia

franzzz | 22. 5. 2018 - 18:34

> dokaze saturovat jedina 512bit FMA instrukcia

Teoreticky ano, prakticky ani ne. V praxi se FMA pouziva jinym stylem - retezi se. Navic FMA ma na Skylaku latenci 4 cykly a throughput 2/cycle, nicmene pokud se to retezi, musi FMA cekat na vysledek predchozi a plati ty 4 cykly. A to je FMA jedna z tech rychlejsich AVX instrukci... takovej SQRT ma latenci 20. Rekl bych ze tech 2x64B + 1x64B je tak akorat. Pokud mate tak jednoduchej algoritmus ze nedela temer nic v registrech a jste limitovani pameti, pak vam je stejne uz i AVX 1/2 k nicemu.

Doug Quaid | 23. 5. 2018 - 08:23

nieco take ako loop unrolling s akumulatorovymi registrami nepoznas?
nemal som problem na haswelli zretazit fma instrukcie tak aby sa realne vykonavali dve naraz s efektivnou latenciou 1 cyklus, potom ma samozrejme zacala brzdit L1 cache
ale to vsetko na malickych datach, pokial som to skusil na vacsich, ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSE

franzzz | 23. 5. 2018 - 10:40

> nieco take ako loop unrolling

poznam, ma to jen drobnej hacek - potrebujes loop :) pokud v nem nejsi, tak je ti unrolling na dve veci, ze...

> ktore sa uz nezmestili ani do L2, tak kod s fma nebol o nic rychlejsi ako kod s SSE

a co jako ? vzdyt jsem rikal, kdyz mas tak jednoduchej algoritmus ze je limitovan pameti, tak ti nemuze nic. To neni zadna novinka, a rychlejsi L1 by ti taky nepomohla, takze je zbytecne narikat ze L1 load/store ma jen 2x64B/1x64B.

l0rdh4d3s (neověřeno) | 22. 5. 2018 - 09:27

Mozno za 5 rokov to bude pouzitelne, ak to zacne podporovat vacsina CPU.

Milan Bačík | 22. 5. 2018 - 11:02

No a hlavně většina aplikací, která múže těžit z AVX, pojede na GPU ještě lépe...

Gath G | 22. 5. 2018 - 13:50

To jsem si říkal v době tehdy inzerovaného HSA, ale software utek. :/

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Cannon Lake podporuje AVX-512

Komerční sdělení

CDR Hry

Astronomové našli stopu k monstrózním černým dírám. Vznikají jinak, než čekali

AI má další problém. Obří datová centra začínají vysávat zásoby vody

Konec degradace baterií? Nový vodní akumulátor má vydržet až 300 let

Majitelé PS4 dostávají nepříjemnou zprávu: GTA 6 bude jen pro nextgen konzole

Ve sklepích starých budov se dějí znepokojivé věci. A nemusí být paranormální

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT