Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k APU Medusa Halo: 24× Zen 6, 3072 stream-procesorů, možná i 384bit varianta

Chápu, proč ne navi5/udna. Ale proč ne navi4/rdna4?

+1
0
-1
Je komentář přínosný?

bavime sa o APU a to proste nie su na hry najvykonnejsie grafiky v style RTX 5090
no a pretoze multimedialnych rozdielov medzi RDNA3.5 a RDNA4 je asi menej ako hernych rozdielov medzi RDNA3.5 a RDNA4 a ked bereme do uvahy iba multimedia, tak prejst z RDNA3.5 na RDNA4 cisto iba kvoli multimediam sa mozno az tak neoplati (budeme oslavovat podporu B frames pri AV1 encodingu?)

+1
+2
-1
Je komentář přínosný?

No to ještě nikdo neví, co bude v medusa halo, resp v článku to nevidím? A to je herní apu. Taková absence FSR4 v roce 2027 by zamrzela ...

+1
0
-1
Je komentář přínosný?

Pokud se to týká jen Medusa Point, pak bude důvod ten, že úprava architektury pro mobilní segment + softwarová podpora mobilní verze architektury, by se kvůli jedinému produktu nevyplácela.

+1
+4
-1
Je komentář přínosný?

Jenže bude chybět FSR4.
Takto z toho dělají druhou vegu, z hlediska podpory to není ideální. 2027. No nevím no.

+1
+2
-1
Je komentář přínosný?

„Jenže bude chybět FSR4.“

Určitě?

1. Víme, že s RDNA 4 by nechybělo? Víme, že by AI výkon integrované grafiky s ~1024 stream-procesory stačil na FSR 4?
2. Víme, že AMD s RDNA 3.5 nepřevede nějaké výpočty FSR 4 na NPU, které má být v případě Medusa Point snad 2× větší oproti Strix Point?

Abychom mohli dělat podobné závěry, jako zda bude nebo nebude chybět FSR 4, museli bychom mít podstatně víc informací.

+1
0
-1
Je komentář přínosný?

Je to sice rovnák na ohejbák, ale aspoň by to NPU mělo nějaké využití.

+1
0
-1
Je komentář přínosný?

Nevíme ani jedno, ale za to víme, že RDNA4 právě udělala architektonické kroky tím směrem, aby AI upscale byl použitelný a na RDNA3 a starší zatím dostupný není právě z toho důvodu. Vzdor vyššímu množství stream procesorů.

1, Pokud umí AI upscale i taková křuska jako rtx 2060, pak jej musí utáhnout i o dekádu novější APU z roku 2027.

2, To je odvážná myšlenka. Skoro jako MCM.

I kdyby reálně vycházeli z RDNA3 resp 3.5, pochybuji, že to tak napíšou do slajdů. To spíš věřím na "RDNA 4.5" (TM), které vyjde z 3.5 a udělají částečný backport toho, co umí rdna4, než to co píše zlaté prase z číny, že to nechají jak to je, jen vymění media engine.

+1
0
-1
Je komentář přínosný?

>> taková křuska jako rtx 2060
Zatím to vypadá tak, že křuska bude i 5060 s výkonem o ca 50% vyšším než 2060.
Mimochodem řada 20xx má 2x počet tensor cores než všechny následující v poměru ke CUDA cores.

+1
0
-1
Je komentář přínosný?

Stále je rtx 2060 stará křuska. Z roku 2019. Přidejte optiku roku 2027.

+1
0
-1
Je komentář přínosný?

5060 je křuska už před vydáním.
V roce 2027 to bude pořád křuska a navíc stará.
nVidia možná uvede nějakou další sadu SW fíčur, které možno budou fungovat i na ní. A možná ne. V nVidia pracují chytří lidé a nezvyknout opakovat stejné chyby vícekrát.

+1
0
-1
Je komentář přínosný?

> Zcela jistě nejde o snahu o zvýšení datové propustnosti, které má již stávající Strix Halo díky
> Infinity Cache víc než dost.

Zcela jistě jít může a zcela jistě nemá. Propustnost je JEDINÁ věc, která diskvalifikuje Strix Halo od využití jako LLM inferenční box na velké (>=70B) modely s geniálním poměrem cena/výkon.

Pokud jste náhodou opilí AMD marketingovým rohlíkem, tak si představte pustit na Strix Halo 70B Q8 model - budete zpracovávat závratnou rychlostí řádově 3-4 tokeny za vteřinu. To je dobré tak na zpracování přes noc, ale na interaktivní činnost je to na nic. Každý další token za vteřinu se projeví velmi pozitivně - vyšší propustnost bude mít jednoznačně viditelný přínos.

+1
0
-1
Je komentář přínosný?

„ To je dobré tak na zpracování přes noc, ale na interaktivní činnost je to na nic.“

Pardon, ale tato argumentace nedává smysl. Zvýšení datové propustnosti o 50 % nezmění vůbec nic na tom, zda bude hardware použitelný pro interaktivní činnost, nebo ne. I kdyby daná zátěž byla 100% limitovaná datovou propustností (což skoro žádná není, většinu limituje buď výpočetní výkon nebo kapacita paměti), tak výsledkem bude, že místo 3 tokenů za vteřinu zvládne čip zpracovat 4,5 tokenů za vteřinu. Co tak zásadního to mění z hlediska interaktivní činnosti, kterou tu argumentujete?

+1
0
-1
Je komentář přínosný?

LLM inference (token generation) je v zásadě 100% limitovaná datovou propustností pamětí, dokud se model do té paměti celý vleze. Pro ilustraci váhy 70B 8-bit kvantizovaného modelu mají orientačně 70 GB. Akcelerovat to zvládne i CPU, takže veškerá NPU, GPU a další slouží primárně ke snížení spotřeby, ale výkon pořád vázne na propustnosti pamětí. Na grafikách s 1 TB/s propustností takové modely lítají, ale tam se zase nedostává kapacity VRAM, proto bylo Strix Halo měsíce vyhlíženo s očekáváními vysoké propustnosti, která je nakonec relativně dobrá, ale ne výborná.

Bavím se jen o LLM token generation, spousta jiných činností včetně LLM prompt processing těží z masivní paralelizace na GPU a tam se úzké hrdlo přesouvá z propustnosti jinam.

Ono ani to "jen" 50% zrychlení nebude špatné, když se na něj nebudeme dívat ve vakuu. Během těch dvou let budou i takty DDR5 pamětí optimisticky o několik desítek procent dál, dalších pár desítek procent přináší spekulativní dekódování, když se dá pro daný úkol využít... Když se to nasčítá (základ × relativní šířka sběrnice × relativní takt pamětí × spekulativní dekódování), tak z 3 × 1 × 1 × 1.5 = 4.5 tk/s na Strix Halo se (třeba) posuneme na 3 × 1.5 × 1.33 × 1.5 = 9 tk/s na Medusa Halo a to už jsme na dvojnásobku výkonu. A s 9 tk/s už se dá pracovat.

Je spousta dalších proměnných, které jsem nezahrnul - třeba paměti tolik nezrychlí, třeba se brzo objeví DDR6, třeba se v LLM inferenci začnou víc objevovat MoE modely (z modelu je v jednu chvíli aktivní vždycky jen část, takže v paměti sice musí zabírat místo celý, ale nároky na propustnost klesají).

+1
+3
-1
Je komentář přínosný?

„dokud se model do té paměti celý vleze.“

No a prvořadý problém je ten, že velikost modelů roste a do paměti se mnohé nevejdou. I proto si AMD mohla dovolit prezentaci, kde byl Strix Halo s 96 GB rychlejší než GeForce RTX 4090 navzdory tomu, že paměťová propustnost GeForce RTX 4090 je 4×(!) vyšší. Pokud zvýšením kapacity paměti lze získat více výkonu než zvýšením datové propustnosti, pak je snad zjevné, že rozšíření sběrnice pomůže AI výkonu podstatněji v důsledku vyšší kapacity paměti než v důsledku navýšení paměťové propustnosti.

+1
+9
-1
Je komentář přínosný?

Mne nepríde, že by veľkosť lokálnych modelov nejak dramaticky rástla. De facto použiteľné maximum je okolo 70B parametrov. A to na Strix Halo so 128 GB RAM vôjde v pohode. Nemá význam zväčšovať pamäť na 192 GB bez zvýšenia priepustnosti. Ináč sa tam síce vôjde o 50% väčší model ale on práve už ten hypotetický 70B Q8 model beží dosť pomaly a o polovicu väčší model by bežal iba dvojtretinovou rýchlosťou.

Aj menšie modely, cca 20 GB veľké by na Strix Halo bežali iba rýchlosťou 10 tokenov za sekundu. Takže vyššia priepustnosť by na LLM bola úplne jednoznačne prospešná.

A zatiaľ som nevidel test rýchlosti spracovania promptu na Strix Halo (v poslednom čase som ale moc intenzívne nehľadal). To je slabina Apple HW pri veľkých LLM a som zvedavý ako to bude na Strix Halo.

+1
0
-1
Je komentář přínosný?

> No a prvořadý problém je ten, že velikost modelů roste a do paměti se mnohé nevejdou.

128 GB je úžasná kapacita, plně souhlasím, možnosti grafik v té cenové relaci jsou buď 24 GB nebo 32 GB.

> prezentaci, kde by Strix Halo s 96 GB rychlejší než GeForce RTX 4090 navzdory
> tomu, že paměťová propustnost GeForce RTX 4090 je 4×(!) vyšší

LLM token generation je prostě za účasti GPU limitovaná jen paměťovou propustností a ničím jiným, klidně si na to potvrzení někoho sežeňte nebo běžte na LocalLLaMa subreddit, jestli nevěříte mně. Marketing si vyhrál. VRAM v tom testovacím systému nebyla využitá naplno (LM Studio, které použili, defaultně nechává bohatou bezpečnostní rezervu) a RAM na systému měla výrazně nížší propustnost než co má Strix Halo. V té footnote se píše jen "NVidia system ... 32 GB RAM", takže klidně to tam mohli mít zapojené jednokanálově a hned by se ten výkon dodatečně zmrzačil, aby Strix Halo vyniklo lépe než ve skutečnosti. A ono i ve skutečnosti je dobré a zajímavé.

Tady je ten daný slajd i s přilepenou vysvětlenou footnote: https://www.reddit.com/media?url=https%3A%2F%2Fi.redd.it%2F1pjg4qnmfgbe1...

> pomůže AI výkonu podstatněji v důsledku vyšší kapacity paměti než v důsledku navýšení paměťové propustnosti

Pokud se bavíme o lokálních reálných modelech, které si člověk může stáhnout a které nežijí jen někde v datacentru, tak se opakují tyto významné body na stupnici: 32B, 70B, 123B, 405B, 671B.

Medusa Halo se 192 GB paměti pomůže, aby se tam vešel ten 123B 8-bit kvantizovaný, protože má reálně 130 GB (https://huggingface.co/bartowski/Mistral-Large-Instruct-2411-GGUF). Díky více paměti u příliš velkých modelů nebude potřeba kvantizovat tak silně, aby se do paměti zase vešly, ano, zvýší to kvalitu výstupu inference. Tím se ale oklikou zase vracíme k debatě o tom, že se to tam sice nakonec vleze, ale je zbytečně pomalé.

Naopak zvýšená propustnost pomůže zrychlit úplně všechny velikosti modelů, i ty, které se už dávno vejdou, proto mi dává větší smysl se soutředit na tu.

Klidně mi argumentujte tím, že na deset dalších AI scénářů je dosavadní propustnost dobrá a je potřeba se soustředit na víc paměti, já to beru. Ale na LLM token generation je malá paměťová propustnost prostě zatažená ruční brzda a větší paměť ji nijak neodbrzdí, naopak nacpání většího modelu ještě zdůrazní její efekt.

P.S. nevěřte mi, potvrďte si to klidně někde jinde, v IT branži máte určitě k dispozici kontakty na odborníky, kteří se LLM inferencí zabývají. 128 GB unified memory Macy už se na inferenci používají dávno a ta data z toho jsou veřejně dostupná. Já jsem jen uživatel, který s tím experimentuje pomalu každý týden a mluví z praxe vlastní i ostatních mu podobných.

EDIT: překlep, doplněný slajd z AMD prezentace

+1
+1
-1
Je komentář přínosný?

Já bych ještě doplnil, že v poslední době se dobře použitelné stávají i menší modely a hlavně se daleko víc používá menší kvantizace, takže klidně běhají modely s Q4 a dopad na inteligenci není tak zásadní jako byl před rokem nebo dvěma. Čili dají se používat grafiky s těmi 32 GB VRAM, pokud to člověk sežene za dostupné peníze. Propustnost pamětí se samozřejmě velmi důležitá, ale stejně tak je důležitá schopnost dělat masivně paralelní maticové výpočty.

Na velké modely (tedy vlastně i na ty menší) se pak určitě vyplatí pronajímat si profesionální cloudové služby, kde mají akcelerátory se spoustu paměti, za generování odpovědi pak platíte klidně centy (Openrouter) a nevyužitý čas (což je pro běžného uživatele 99%+) neplatíte za ten drahý hardware.

+1
0
-1
Je komentář přínosný?

>> „dokud se model do té paměti celý vleze.“
> No a prvořadý problém je ten, že velikost modelů roste a do paměti se mnohé nevejdou.

To, ze se model nevejde do pameti je akceptovatelne pro aplikace, ktere mohou bezet nejakou dobu na pozadi. Interaktivni aplikace jako diskuse, coz je pripad zde zminovanych LLM, nemohou uzivatele nechat dlouho cekat. LLM se musi vejit to pameti. Skutecne aplikace vam vetsi model vybrat ani nedovoli, nebo se s nim nespusti.

+1
0
-1
Je komentář přínosný?

problém je neoptimálny softvér, inak by nešlo robiť optimalizácie

AMD ZenDNN 5.0.1 Released To Help With EPYC Inferencing For Recommender Systems & LLMs
on 4 March 2025
Zen 5 optimized CPU inferencing with the likes of PyTorch and TensorFlow. ZenDNN 5.0 delivers up to a 400% performance uplift according to AMD engineers
https://www.phoronix.com/news/AMD-ZenDNN-5.0.1

AMD ZenDNN 5.0 Software For AI Delivers "400% Performance Uplift"
AMD on 27 January 2025
Not only do they talk up its Zen 5 / Turin CPU support but that ZenDNN 5.0 can provide a 400% performance uplift on average.
https://www.phoronix.com/news/AMD-ZenDNN-5.0-400p-Performance

+1
+3
-1
Je komentář přínosný?

Díky za opravu mojí chyby, opravdu čistě CPU LLM inference je stále limitovaná více faktory než jen propustností a dá se zlepšit.

Moje zprostředkovaná zkušenost je, že s llama.cpp/vLLM je na EPYC systémech bottleneck opět v paměťové propustnosti (čím víc kanálů se na stejném CPU - nebo dvou - podaří osadit, tím rychleji to jede). Ale vždycky je tam i nějaké GPU, které s tou výpočetní stránkou pomůže, takže jsem se mýlil, že stačí jen CPU a rychlé paměti a GPU není potřeba - je.

+1
+1
-1
Je komentář přínosný?

To 384bit IOD s 3072 SP by mohlo být připravované pro příští generaci konzolí, kde to může žrát více než 256bit verze pro herní laptopy.

+1
0
-1
Je komentář přínosný?

chtělo by to co nejdřív, třeba překvapí. Ono už je musí nasírat že přišel Apple a ukázal jak se to dělá, pěkně svižně bez roků okecávání bylo suprové SoC na světě. AMD roky zkušeností a pokusů od prvního jménem Llano už uplynulo hodně vody.

+1
-2
-1
Je komentář přínosný?

Není Apple Silicon jen ekvivalentem toho co v x86_64 APU pro konzole s jejich unifikovanou pamětí existuje více než dekádu?

+1
+4
-1
Je komentář přínosný?

A dá se vůbec AMD Ryzen™ Al Max+ 395 koupit?

+1
0
-1
Je komentář přínosný?

https://www.zbozi.cz/nabidka/714d03008316ed30254c96652adb44173ba7eb97/

+1
0
-1
Je komentář přínosný?

Se tomu nechce.

+1
0
-1
Je komentář přínosný?

Ships Q3, zbožné přání u takhle podivného skoro start-upu.
Takže nejde.

+1
0
-1
Je komentář přínosný?

Framework spolehlivě dodává notebooky už několik let, nemám strach.

Ale OK, jestli se bavíme zaplatit a do 2 dnů doma, to nejde asi nikde. Nějaká čínská firma zabývající se MiniPC slibuje Q1/Q2 a všichni ostatní (ještě HP chystá podobnou cihličku) určitě později. Laptop/tablet form factor nesleduju.

+1
0
-1
Je komentář přínosný?
+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.