Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Strix Halo je testovací platforma pro Zen 6, využívá InFO pouzdření

Ten Strix Halo vypadá opravdu zajímavě. Doufám, že AMD zvládne přidání nízkopříkonových jader na centrální čiplet lépe než Intel a vypínáním procesorových čipletů opravdu sníží klidovou spotřebu i spotřebu s malou zátěží.
Ta unifikovaná mezipaměť MALL cache by mohla signalizovat i snad rozumné vyřešení unifikace a sdílení paměti mezi cpu a gpu. Snížení přenosů mezi cpu a gpu pamětí by mohlo šetřit přenosové pásmo paměti a zvýšit výkon grafiky.

+1
+1
-1
Je komentář přínosný?

Tie male jadra od AMD vlastne nemaju L3cache a tym padom su o 50% menšie, tak že by to nemal biť taky pruser ako u intelu. APU GPU s 60Tflops je mazec, Taka GTX1060 ma 4 Tflops tak že 15x vykonejšia a bez problemov GTX1060 mi potiahla WOT na 2K monitore pri 100fps :)
Aj RX6700 ma len 11Tflops a už sa na nej da zahrať čokolvek.

+1
-1
-1
Je komentář přínosný?

RX 6700 má 11 TFLOPS v FP32. Nejak ma obišla informácia o 60 TFLOPS v FP32 u Strix Halo. Tu si zase niekto zamieňa TFLOPS a TOPS.

+1
+4
-1
Je komentář přínosný?

GPU Strix Halo bude dosahovat odhadem 25-30 TFLOPS. 60 TOPS je hodnota pro AI akcelerátor (jak je uvedeno v článku).

+1
+5
-1
Je komentář přínosný?

Ty "efektivni" jadra budou nejspise na jednom z tech CPU cipletu, ne na centralni dlazdici.

No a ke konceptu CPU na centralni dlazdici.... Kdyz na widlich i v klidu bezi stovky procesu a tisice vlaken..... Tak by asi nejdrive nekdo musel umravnit Widle, aby se spokojily s centralnim minijadrem.... A nesahaly po dalsich jadrech.

+1
-1
-1
Je komentář přínosný?

V článku se jednoznačně píše, že úsporné jádro/jádra obsahuje centrálním čipletu. Jasně, že problém je v plánovači procesů ve Windows. To, že plánovač probouzel i při minimální zátěži velké cpu dlaždice, bylo jedním z důvodů neúspěchu Intelského řešení. Aby k tomu nedocházelo si musí výrobce procesoru zajistit vhodným přihnutím plánovače nejspíš sám.

Koncepčně to bude trošku složitější, protože někdy je potřeba dát jednojádrovou zátěž na nejvýkonnější jádro (jednojádrové testy) a jindy na nejslabší jádro (klidové procesy). A to v podstatě nesouvisí s fyzickým umístěním jader, ale s jejich kategorizací podle účelu. Ale když to jde naprogramovat v mobilech, musí to být řešitelné i v PC.

+1
+1
-1
Je komentář přínosný?

Naprogramovat lze ledacos.... Treba se MS rozhodne to naprogramovat. Do deseti, dvaceti let to mozna bude i vice mene spolehlive fungovat.

+1
+2
-1
Je komentář přínosný?

Lze očekávát v rámci Strix Halo podporu "unified memory", kdy CPU, GPU a AI jádra jsou schopna přímo (bez zapojení PCIe) přistupovat ke stejné části paměti? Jako je to u herních konzolí či Apple Silicon?

+1
0
-1
Je komentář přínosný?

To by byl skvělý krok, celkově kdyby se GPU přesunuly do CPU a mohly čerpat ze stejného úseku paměti, minimálně v HPC by to pomohlo. Oni už to tak provozují, ale pořád to jde přes sběrnici, nabírá latence, atd...

+1
+1
-1
Je komentář přínosný?

Předat párbajtový ukazatel na paměťový blok versus přenášení datasetu ke zpracování v GPU přes pomalé PCIe. V ideálním případě realizované pomocí LPCAMM2 modulů, při osazení dvěma by se docílilo i toho 256-bitového rozhraní paměťové sběrnice.

Na druhou stranu to může ohrožovat zisky z výpočetních akcelerátorů, při velké dostupné unified paměti může poklesnout chuť platit za drahá GPU+HBM řešení. Již dnes mnozí preferují "výpočetně pomalejší" Apple Silicon řešení právě díky dostupnosti velké "VRAM".

+1
+1
-1
Je komentář přínosný?

Vzhledem k tomu, že ta 32MB mezipaměť MALL cache je společná pro CPU a GPU bych čekal, že i RAM bude unifikovaná. To ale nemusí nutně znamenat, že ve hrách nebudou paměti pro CPU a GPU oddělené, a že se mezi nimi nebudou data muset přenášet.

Hádám, že správu objektů v paměti zajišťuje hra, nebo herní stroj (engie), na kterém hra běží. A na nižší úrovni asi i příslušný directX. Je tedy otázka, zda je na unifikovanou paměť tahle infrastruktura připravena a nebo se jí dá přes ovladače grafiky, nebo jiným způsobem ta unifikovaná paměť podstrčit tak, aby pro ni vypadala tak, jak to ty programy čekají. Ale to je otázka spíš na někoho, kdo správu paměti ve hrách programuje.

Nemyslím, že by unifikovaná paměť pro APU mohla ohrozit výpočetní akcelerátory. To je úplně jiná třída zařízení a úloh. Tam spíš dojde k přechodu od samostatných výpočetních karet ke kombinaci CPU a GPU na jedné kartě a sdílení její paměti. Někde jsem viděl, že testovali akcelerátor od AMD a v některých úlohách to sdílení paměti přineslo nárůst výkonu o 400%, protože unifikovaná paměť odstranila úzké hrdlo způsobené stěhováním dat po sběrnicích mezi základní deskou a GPU akcelerátorem.

+1
0
-1
Je komentář přínosný?

To je právě ta unifikace, kdy cpu/gpu jádra mají unifikovaný(jednotný/společný) fyzický adresní prostor paměti. U dosud realizovaných APU x86_64 řešení tomu tak není. Paměť je rozdělena na tu přístupnou cpu a na tu přístupnou gpu (výměna dat probíhá via PCIe).

+1
0
-1
Je komentář přínosný?

No a neni to u tech soucasnych APU spise umelym rozdelenim danym drivery, OS a tak? Vzdyt CPU a iGPU sdileji fyzicky totoznou RAM. Mozna, ze iGPU z nejakych HW duvodu nedokaze namapovat vyssi adresy RAM, ale CPU by mel zvladat celou RAM....

+1
+1
-1
Je komentář přínosný?

CPU i GPU mají samozřejmě přístup do stejné paměti v plném rozsahu a už dávno si mohou předávat ukazatele místo kopírování dat a dokonce i sdílet obsah mezipamětí (viz odkaz dole).

Problém je zřejmě v tom, jestli a jak to podporují windows, direktX, herní stroje (engine) a samotné hry.

Podle schématu ve druhém odkazu je igpu připojena přes vnitřní sběrnici Infinity Fabric a ne přes pcie. Obsluha přenosů nezi RAM a vyhrazenou VRAM tedy musí na fyzické úrovni fungovat jinak, než u externí grafiky. Je otázka, jak se to předkládá a tedy jeví programům, které přenosy mezi RAM a VRAM využívají. Je možné, že hra/herní stroj to volá jako službu přenosu přes PCIe, ale na fyzické úrovni to běží jako kopírování po InfinityFabric.

https://en.wikipedia.org/wiki/AMD_APU#Heterogeneous_System_Architecture
https://www.anandtech.com/show/16236/asrock-4x4-box4800u-renoir-nuc-revi...

+1
0
-1
Je komentář přínosný?

Krom toho AMD prý používá unifikovanou paměť už řadu let v konzolích. Takže to vypadá, že problém asi nebude ani v samotných hrách, ale někde mezi nimi a železem.

http://www.redgamingtech.com/amd-huma-ps4-and-xbox-one-memory-system-ana...

+1
+1
-1
Je komentář přínosný?

"No a neni to u tech soucasnych APU spise umelym rozdelenim danym drivery, OS a tak?" <= Dokud někdo nepřijde s jiným logickým vysvětlením, přijde mi to umělé omezení jako pravděpodobné (i smysluplné) vysvětlení ... A to jsme si mysleli, že limitem iGPU je rychlost RAM, ale ono těch důvodů může být víc. :-)

+1
0
-1
Je komentář přínosný?

Udává se, že např 780M je ke zbytku systému připojena PCIe 8x 4.0. To, že je spojení fyzicky realizováno pomocí IF na věci asi nic nemění. Z pohledu HW/OS/APL jde o PCIe konektivitu.
https://www.techpowerup.com/cpu-specs/ryzen-7-7840hs.c3033

+1
0
-1
Je komentář přínosný?

To bude asi nejake nedorozumeni. Ja ve schematu na te strane sice vidim 8 pcie linek, ale u nich neni napsano igpu, nybrz dgpu. To znamena, ze pri standardnim rozdeleni linek je pro pripojeni samostatne grafiky k dispozici jen osm a ne obvyklych sestnact linek.

Vnitrni sbernice Infinity Fabric bude asi tezko umoznovat emulovani pcie protokolu s rozdelenim na jednotlive kanaly/linly. Ale umim si predstavit, ze z pohledu OS a programu se mohou prenosy bloku dat s igpu volat pres stejne sluzby jako prenosy s dgpu pres pcie, jen technicka realizace na nizsi urovni bude jina.

+1
0
-1
Je komentář přínosný?

Dal jsem jiný odkaz, k APU místo iGPU.
https://www.techpowerup.com/gpu-specs/radeon-780m.c4020

Dopl. Možná zase tak chybný nebyl. Připojení iGPU se možná schovává pod dvěma 4x 4.0 GPP, které patrně sdílí konektivitu IF s M.2NVMe. GPP je snad zkratkou pro Graphics Processor Pipeline.

+1
0
-1
Je komentář přínosný?
+1
0
-1
Je komentář přínosný?

Se me tohle fakt nezda, je to nejaky nesmyslny gulas, viz ten obrazek InFO vs COWOS .. vzdyt je to ten samej obrazek, ne?

To InFO pouzdreni je jiz nejakou dobu na trhu - viz Zynq/Artix Ultrascale+ ... kde je videt ze z puvodniho organickeho substratu (pro flip chip bga pouzdreni) pak v pripade prechodu na InFO nezustane nic - InFO znamena, ze na spodku kremiku je minimalni vrstva pod kterou jsou pajitelne kulicky. Hodne to pripomina WLCSP, ale pro omnoho vetsi obvody s hodne vyvodama.

Takze jestli nejaky cpu bude InFO, tak tam zadny kremikovy interposer nebude.. budou to jednoduse hotove cipy s velice jemnym rastrem kulicek, pajene do formy "modulu", pro konecny produkt. Takovy lowcost MCM na obycejnem ci organickem substratu.

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.