Diskuse k CDNA 4 / Instinct MI350 přináší 2-4× vyšší ML výkon a 30× rychlejší inferenci

Pjetro de | 17. 6. 2025 - 08:04

A co si vy predstavujete pod pojmom "inferenční výkon" vojine Kefaline?

ANDREW | 17. 6. 2025 - 08:25

ja dedukuji že je to neco jako predikce - domysleni - dopocitani ... tak hadam ze se to tyka Al

Kubrak | 17. 6. 2025 - 08:34

Inference je dopredny chod neuronove site. Inferencni vykon tedy asi bude, vykon pri pouziti natrenovanych neuronovych siti. Tedy vykon pri praktickem pouziti neuronovych siti.

A castecne i pri trenovani site, protoze tam se stridaji faze inference a faze uceni.

Ziik | 17. 6. 2025 - 08:22

Nechápu jak u takhle optimalizované výpočetní architektury chce AMD něco sdílet s desktopovým GPU v budoucí UDNA.
Mě logicky vychází lepší aktuální rozdělení, ale určitě vědí co dělají.

Tom Buri | 17. 6. 2025 - 08:46

'' jak u takhle optimalizované výpočetní architektury chce AMD něco sdílet ''

asi uplne stejne jako nVidie s amperem, blackwellem atd..

NTFSynergy | 17. 6. 2025 - 08:54

To síce na papieri dáva zmysel, ale v praxi u AMD je problematická podpora. Rozpisoval som sa o tom nedávno - aktuálny stav ROCm, kde pre každú SKU (nie architektúru!) sú zvlášť kompilované moduly na daný výpočet spôsobil, že celý balík má okolo 38GB. To však nie je ten hlavný problém - tým je to, že keď človek chce začať niečo páchať v tomto segmente a nechce predávať obličku, môže siahnuť po consumer karte ako ja - ale neskutočne sa opáli, pretože to nie je na to stavané. Ak chce stabilitu a priamu podporu, musí siahnuť po Instincte (RX Pro je len taký bočák).

Ak to mám prirovnať ku CUDA: ten istý (minimum zmien) kód zbehne rovnako na GTX1080 ako na RTX3080, čo je za mňa super. Potom príde ku skutočnému železu (H100/200) a tam zase minimum zmien (ak sa nebavíme o optimalizácii) a kód beží.

Toto pri AMD neplatí, čo ma mrzí, lebo papierovo HW na to majú. Každá architektúra má svoj codepath, s tým, že ešte sú aj rozdiely medzi jednotlivými GPU tej istej arch podľa použitého jadra (napr Navi 44 vs 48XL). Vôbec sa nečudujem, že niekto v školstve "káže" aby si študenti kúpili nVidia GPU, lebo na AMD jednoducho nemá nervy/prostriedky.

UDNA, spolu s ROCm 7.x, by to mohla zlepšiť resp. zjednodušiť. Samozrejme, bordel to bude tak či tak, lebo nemôžu (nemali by) zarezať podporu predošlých.

Podotýkam, že aktuálne sú moje znalosti iba povrchné, takže pokojne/doplňte ma opravte ak sa mýlim.

Emenems | 17. 6. 2025 - 11:30

na kazde SKU? to zni dost hrozne.

Ladis | 17. 6. 2025 - 11:45

I moje zkušenost. Jsem slyšel, že výpočty na APU fungují. No asi mám o jedno čísélko jiný model, než podporovaný 😅

Kutil | 17. 6. 2025 - 13:00

Ladis - Kdo ví, jak stará ta zkušenost je. Ale možná i proto chystají UDMA, aby to programování víc sjednotili.

Ladis | 17. 6. 2025 - 13:02

Tak snad vím, jak stará zkušenost to je, když je to osobní zkušenost. Mimochodem půl roku a záměrně jsem nainstaloval přesně verzi Ubuntu, co píšou na AMD webu jako oficiální podporovanou.

Kutil | 17. 6. 2025 - 13:07

Mohl jsi to napsat rovnou.

Peca | 17. 6. 2025 - 11:59

Psal jsem na CUDA 1.0 diplomku, od té doby jsem se o to už jen zajímal.

V CUDA postupem času přibylo poměrně hodně věcí z nichž spousta není zpětně kompatibilní (možnost stopnout a debugovat gpu, spousta async mem operací, změny v paměti - např. objem shared mem na jádro, tensor operace atd atd). Plus stejný kód vám na starším gpu pojede mizerně (protože např. nemáte zcela přesný memory coalescing), zatímco na novém rychle (protože cache). Vlastně jediné co funguje od první verze jsou základní maticové operace s velmi dobrým low level přístupem k paměti :-)

Souhlasím, že nVidii se s CUDA podařilo vybudovat něco jako povědomí o vědeckých výpočtech na GPU. Nicméně že by to bylo kvůli zachovávání zpětné kompatiblity si až tak úplně nemyslím. Má za sebou prostě ty roky historie.

Plus se dneska už nikdo nechce drbat s lowlevel C, alokací paměti a paralelismem a radši použije Python wrapper co to "nějak" udělá.

Kutil | 17. 6. 2025 - 13:04

To dává smysl, programování GPU je vic nízkoúrovňové, asi jako srovnávat Pascal a Assembler, nebo něco mezi Assemblerem a C, protože pak lze GPU lépe využít.

Ladis | 17. 6. 2025 - 13:04

Spíš jako C a Python.

Kutil | 17. 6. 2025 - 13:08

Třeba.

ANDREW | 17. 6. 2025 - 09:02

... no nevim jestli se to v historii osvedcilo ci neosvedcilo, ale nejakou logiku by to mit mohlo .. uz je to ze pokud ta architktura v Al serverech bude i v desktopu tak asi na klientska -desktopova cast bude mit mene prekazek- vice kompatibility k tem sluzbam Al ....

Ladis | 17. 6. 2025 - 10:39

Tak vzhledem k minimálním prodejům dedikovaných karet stačí upřednostnit ty serverové a v těch herních bude pár zbytečných obvodů navíc.

Kutil | 17. 6. 2025 - 12:57

Ziik - Nesdílí se celá architektura, ale jen některé společné prvky.

Ladis | 17. 6. 2025 - 12:58

Ono stačí, že se sdílí jádra a jejich architektura. Něco jako Apple Silicon Mx v Macu a Ax v iPhone. Případně ve výpočetní kartě vyhodí texturovací a RT jednotky.

Kutil | 17. 6. 2025 - 13:06

Zrovna výpočetní a grafická jádra tak úplně stejná nebudou. Grafická cílí na paralelně skalární výkon FP 32, kdežto AI na matickový FP 6 (nebo prostě FP 4 až FP 16).

Ladis | 17. 6. 2025 - 13:11

Grafika je nejefektivnější přes VLIW, což bylo pre-GCN. Na skalární výpočty se přešlo kvůli GPGPU. Maticový výpočet se udělá sérií skalárních výpočtů. Stejně to dělá Apple Silicon a jeho "Apple AMX Instruction Set". Nejstarší příklad, co znám, bylo, když 8bit CPU interně jel 4bit ALU a 16bit CPU jel interně 8bit ALU. Když se procesor zvenku tváří, že umí to a to, tak program nemusí obcházet chybějící operace sérií lowlevel operací. Ušetří se dekodér instrukcí a procesor nemusí hádat vazby mezi instrukcemi - má klidně natvrdo efektivní mikrokód pro danou situaci. A teoreticky v budoucnu může přidat specializovanou jednotku.

Kutil | 17. 6. 2025 - 13:15

Very Long Instruction Word je právě paralelní zpracování instrukcí. To z GPU nezmizelo nikdy. A k přechodu na dual issue jednotky měli taky nějaký důvod.

Je pravda že AMD nyní používá SIMD, ale to Nvidia taky a je to patrně tím, že GPU musí být víc universální, tedy že kromě rasterizace a raytracingu musí zvládat i víc post processingu.

no-X | 17. 6. 2025 - 13:31

RDNA 4 podporuje nativně FP8 (tím to jistě neskončí) a navíc stejně jako GCN podporovala volitelě FP32:FP64 v poměru 1:2 až 1:16, tak může UDNA podporovat různé poměry. Zen 5 taky podle verze podporuje různé stupně rychlosti AVX-512 a stále je to stejná architektura. Tam jde pouze o to, aby architektura byla natolik stejná, aby zachovávala softwarovou kompatibilitu a nebylo potřeba na každý čip dělat samostatné optimalizace.

Kutil | 17. 6. 2025 - 16:08

To právě vychází z toho, že shadery fungují jako vektorové jednotky, takže jedna shader jednotka (v rámci CU jich je 64) obsahuje 2x 32 bit vektorové FPU a 1x 32 bit skalární CPU. Může tedy pracovat jako 2x FPU, nebo FPU + ALU. Ale proto nedokáže efektivně zpracovat 64 FP, kde výkon klseá k 1:64. ale zase dokáže velmi dobře škálovat nižší formáty, zde Radeon AI Pro 9700:

Peak Half Precision (FP16) 95.7 TFLOPs
Peak Single Precision (FP32) 47.8 TFLOPs
Peak INT4 1531 TOPs
Peak INT8 766 TOPs

Vlko | 17. 6. 2025 - 21:06

Instinct MI355X CDNA4 1400W hehe pekne to žere ((:

Kutil | 17. 6. 2025 - 21:46

Kdyby nebylo AI bubliny, akcelerátory by uměly 32 a 64 bitů FP, spousta zbytečného křemíku by neexistovala a buď by tedy výkon superpočítačů rostl rychleji a nebo by ty karty aspoň byly úspornější. Ale UDMA neznamená jen společné prvky pro grafiky a výpočetní řešení. Akcelerátory se u AMD totiž rozdělí na dvě řady, jedna pro AI a druhá pro HPC. Jestli to budou čistá řešení, nebo universál se zaměřením jedním či druhým smerem, zatím není známo.

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k CDNA 4 / Instinct MI350 přináší 2-4× vyšší ML výkon a 30× rychlejší inferenci

Komerční sdělení

CDR Hry

Nečekané gesto z vesmíru: Čína varovala NASA před kolizí satelitů

Miniaturní laser s 80% účinností: Vědci ukázali budoucnost medicíny a vědy

Soukromé chaty uživatelů ChatGPT skončily v nástroji pro webmastery

Epic rozdává zdarma hru, která potěší hráče 3D logických her

Sam Altman chce, aby ho nahradila umělá inteligence. V čele OpenAI má stát AI

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT