A co si vy predstavujete pod pojmom "inferenční výkon" vojine Kefaline?
+1
-4
-1
Je komentář přínosný?
A co si vy predstavujete pod
Pjetro de https://diit.cz/profil/pjetro-de
17. 6. 2025 - 08:04https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseA co si vy predstavujete pod pojmom "inferenční výkon" vojine Kefaline?https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506047
+
ja dedukuji že je to neco jako predikce - domysleni - dopocitani ... tak hadam ze se to tyka Al
+1
-1
-1
Je komentář přínosný?
ja dedukuji že je to neco
ANDREW https://diit.cz/profil/andrew
17. 6. 2025 - 08:25https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseja dedukuji že je to neco jako predikce - domysleni - dopocitani ... tak hadam ze se to tyka Alhttps://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506054
+
Inference je dopredny chod neuronove site. Inferencni vykon tedy asi bude, vykon pri pouziti natrenovanych neuronovych siti. Tedy vykon pri praktickem pouziti neuronovych siti.
A castecne i pri trenovani site, protoze tam se stridaji faze inference a faze uceni.
+1
+10
-1
Je komentář přínosný?
Inference je dopredny chod
Kubrak https://diit.cz/profil/tsxoyhh5g8
17. 6. 2025 - 08:34https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseInference je dopredny chod neuronove site. Inferencni vykon tedy asi bude, vykon pri pouziti natrenovanych neuronovych siti. Tedy vykon pri praktickem pouziti neuronovych siti.
A castecne i pri trenovani site, protoze tam se stridaji faze inference a faze uceni.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506059
+
Nechápu jak u takhle optimalizované výpočetní architektury chce AMD něco sdílet s desktopovým GPU v budoucí UDNA.
Mě logicky vychází lepší aktuální rozdělení, ale určitě vědí co dělají.
+1
+1
-1
Je komentář přínosný?
Nechápu jak u takhle
Ziik https://diit.cz/profil/tomas-mraz
17. 6. 2025 - 08:22https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseNechápu jak u takhle optimalizované výpočetní architektury chce AMD něco sdílet s desktopovým GPU v budoucí UDNA.
Mě logicky vychází lepší aktuální rozdělení, ale určitě vědí co dělají.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506052
+
'' jak u takhle optimalizované výpočetní architektury chce AMD něco sdílet ''
asi uplne stejne jako nVidie s amperem, blackwellem atd..
+1
0
-1
Je komentář přínosný?
'' jak u takhle
Tom Buri https://diit.cz/profil/t-b
17. 6. 2025 - 08:46https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse'' jak u takhle optimalizované výpočetní architektury chce AMD něco sdílet ''
asi uplne stejne jako nVidie s amperem, blackwellem atd..https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506061
+
To síce na papieri dáva zmysel, ale v praxi u AMD je problematická podpora. Rozpisoval som sa o tom nedávno - aktuálny stav ROCm, kde pre každú SKU (nie architektúru!) sú zvlášť kompilované moduly na daný výpočet spôsobil, že celý balík má okolo 38GB. To však nie je ten hlavný problém - tým je to, že keď človek chce začať niečo páchať v tomto segmente a nechce predávať obličku, môže siahnuť po consumer karte ako ja - ale neskutočne sa opáli, pretože to nie je na to stavané. Ak chce stabilitu a priamu podporu, musí siahnuť po Instincte (RX Pro je len taký bočák).
Ak to mám prirovnať ku CUDA: ten istý (minimum zmien) kód zbehne rovnako na GTX1080 ako na RTX3080, čo je za mňa super. Potom príde ku skutočnému železu (H100/200) a tam zase minimum zmien (ak sa nebavíme o optimalizácii) a kód beží.
Toto pri AMD neplatí, čo ma mrzí, lebo papierovo HW na to majú. Každá architektúra má svoj codepath, s tým, že ešte sú aj rozdiely medzi jednotlivými GPU tej istej arch podľa použitého jadra (napr Navi 44 vs 48XL). Vôbec sa nečudujem, že niekto v školstve "káže" aby si študenti kúpili nVidia GPU, lebo na AMD jednoducho nemá nervy/prostriedky.
UDNA, spolu s ROCm 7.x, by to mohla zlepšiť resp. zjednodušiť. Samozrejme, bordel to bude tak či tak, lebo nemôžu (nemali by) zarezať podporu predošlých.
Podotýkam, že aktuálne sú moje znalosti iba povrchné, takže pokojne/doplňte ma opravte ak sa mýlim.
+1
+3
-1
Je komentář přínosný?
To síce na papieri dáva
NTFSynergy https://diit.cz/profil/john-doe-0
17. 6. 2025 - 08:54https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseTo síce na papieri dáva zmysel, ale v praxi u AMD je problematická podpora. Rozpisoval som sa o tom nedávno - aktuálny stav ROCm, kde pre každú SKU (nie architektúru!) sú zvlášť kompilované moduly na daný výpočet spôsobil, že celý balík má okolo 38GB. To však nie je ten hlavný problém - tým je to, že keď človek chce začať niečo páchať v tomto segmente a nechce predávať obličku, môže siahnuť po consumer karte ako ja - ale neskutočne sa opáli, pretože to nie je na to stavané. Ak chce stabilitu a priamu podporu, musí siahnuť po Instincte (RX Pro je len taký bočák).
Ak to mám prirovnať ku CUDA: ten istý (minimum zmien) kód zbehne rovnako na GTX1080 ako na RTX3080, čo je za mňa super. Potom príde ku skutočnému železu (H100/200) a tam zase minimum zmien (ak sa nebavíme o optimalizácii) a kód beží.
Toto pri AMD neplatí, čo ma mrzí, lebo papierovo HW na to majú. Každá architektúra má svoj codepath, s tým, že ešte sú aj rozdiely medzi jednotlivými GPU tej istej arch podľa použitého jadra (napr Navi 44 vs 48XL). Vôbec sa nečudujem, že niekto v školstve "káže" aby si študenti kúpili nVidia GPU, lebo na AMD jednoducho nemá nervy/prostriedky.
UDNA, spolu s ROCm 7.x, by to mohla zlepšiť resp. zjednodušiť. Samozrejme, bordel to bude tak či tak, lebo nemôžu (nemali by) zarezať podporu predošlých.
Podotýkam, že aktuálne sú moje znalosti iba povrchné, takže pokojne/doplňte ma opravte ak sa mýlim.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506063
+
I moje zkušenost. Jsem slyšel, že výpočty na APU fungují. No asi mám o jedno čísélko jiný model, než podporovaný 😅
+1
+1
-1
Je komentář přínosný?
Jsem slyšel, že výpočty na
Ladis https://diit.cz/profil/ladislav-zima
17. 6. 2025 - 11:45https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseI moje zkušenost. Jsem slyšel, že výpočty na APU fungují. No asi mám o jedno čísélko jiný model, než podporovaný 😅https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506080
+
Ladis - Kdo ví, jak stará ta zkušenost je. Ale možná i proto chystají UDMA, aby to programování víc sjednotili.
+1
-1
-1
Je komentář přínosný?
Ladis - Kdo ví, jak stará ta
Kutil https://diit.cz/profil/andrewx
17. 6. 2025 - 13:00https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseLadis - Kdo ví, jak stará ta zkušenost je. Ale možná i proto chystají UDMA, aby to programování víc sjednotili.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506090
+
Tak snad vím, jak stará zkušenost to je, když je to osobní zkušenost. Mimochodem půl roku a záměrně jsem nainstaloval přesně verzi Ubuntu, co píšou na AMD webu jako oficiální podporovanou.
+1
+2
-1
Je komentář přínosný?
Tak snad vím, jak stará
Ladis https://diit.cz/profil/ladislav-zima
17. 6. 2025 - 13:02https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseTak snad vím, jak stará zkušenost to je, když je to osobní zkušenost. Mimochodem půl roku a záměrně jsem nainstaloval přesně verzi Ubuntu, co píšou na AMD webu jako oficiální podporovanou.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506091
+
Psal jsem na CUDA 1.0 diplomku, od té doby jsem se o to už jen zajímal.
V CUDA postupem času přibylo poměrně hodně věcí z nichž spousta není zpětně kompatibilní (možnost stopnout a debugovat gpu, spousta async mem operací, změny v paměti - např. objem shared mem na jádro, tensor operace atd atd). Plus stejný kód vám na starším gpu pojede mizerně (protože např. nemáte zcela přesný memory coalescing), zatímco na novém rychle (protože cache). Vlastně jediné co funguje od první verze jsou základní maticové operace s velmi dobrým low level přístupem k paměti :-)
Souhlasím, že nVidii se s CUDA podařilo vybudovat něco jako povědomí o vědeckých výpočtech na GPU. Nicméně že by to bylo kvůli zachovávání zpětné kompatiblity si až tak úplně nemyslím. Má za sebou prostě ty roky historie.
Plus se dneska už nikdo nechce drbat s lowlevel C, alokací paměti a paralelismem a radši použije Python wrapper co to "nějak" udělá.
+1
+5
-1
Je komentář přínosný?
Psal jsem na CUDA 1.0
Peca https://diit.cz/profil/petr-sehnal
17. 6. 2025 - 11:59https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskusePsal jsem na CUDA 1.0 diplomku, od té doby jsem se o to už jen zajímal.
V CUDA postupem času přibylo poměrně hodně věcí z nichž spousta není zpětně kompatibilní (možnost stopnout a debugovat gpu, spousta async mem operací, změny v paměti - např. objem shared mem na jádro, tensor operace atd atd). Plus stejný kód vám na starším gpu pojede mizerně (protože např. nemáte zcela přesný memory coalescing), zatímco na novém rychle (protože cache). Vlastně jediné co funguje od první verze jsou základní maticové operace s velmi dobrým low level přístupem k paměti :-)
Souhlasím, že nVidii se s CUDA podařilo vybudovat něco jako povědomí o vědeckých výpočtech na GPU. Nicméně že by to bylo kvůli zachovávání zpětné kompatiblity si až tak úplně nemyslím. Má za sebou prostě ty roky historie.
Plus se dneska už nikdo nechce drbat s lowlevel C, alokací paměti a paralelismem a radši použije Python wrapper co to "nějak" udělá. https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506083
+
To dává smysl, programování GPU je vic nízkoúrovňové, asi jako srovnávat Pascal a Assembler, nebo něco mezi Assemblerem a C, protože pak lze GPU lépe využít.
+1
0
-1
Je komentář přínosný?
To dává smysl, programování
Kutil https://diit.cz/profil/andrewx
17. 6. 2025 - 13:04https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseTo dává smysl, programování GPU je vic nízkoúrovňové, asi jako srovnávat Pascal a Assembler, nebo něco mezi Assemblerem a C, protože pak lze GPU lépe využít.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506092
+
17. 6. 2025 - 13:04https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseSpíš jako C a Python.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506093
+
... no nevim jestli se to v historii osvedcilo ci neosvedcilo, ale nejakou logiku by to mit mohlo .. uz je to ze pokud ta architktura v Al serverech bude i v desktopu tak asi na klientska -desktopova cast bude mit mene prekazek- vice kompatibility k tem sluzbam Al ....
+1
0
-1
Je komentář přínosný?
... no nevim jestli se to v
ANDREW https://diit.cz/profil/andrew
17. 6. 2025 - 09:02https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse... no nevim jestli se to v historii osvedcilo ci neosvedcilo, ale nejakou logiku by to mit mohlo .. uz je to ze pokud ta architktura v Al serverech bude i v desktopu tak asi na klientska -desktopova cast bude mit mene prekazek- vice kompatibility k tem sluzbam Al ....https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506064
+
Tak vzhledem k minimálním prodejům dedikovaných karet stačí upřednostnit ty serverové a v těch herních bude pár zbytečných obvodů navíc.
+1
0
-1
Je komentář přínosný?
Tak vzhledem k minimálním
Ladis https://diit.cz/profil/ladislav-zima
17. 6. 2025 - 10:39https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseTak vzhledem k minimálním prodejům dedikovaných karet stačí upřednostnit ty serverové a v těch herních bude pár zbytečných obvodů navíc.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506074
+
Ziik - Nesdílí se celá architektura, ale jen některé společné prvky.
+1
-1
-1
Je komentář přínosný?
Nesdílí se celý čip, ale jen
Kutil https://diit.cz/profil/andrewx
17. 6. 2025 - 12:57https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseZiik - Nesdílí se celá architektura, ale jen některé společné prvky.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506087
+
Ono stačí, že se sdílí jádra a jejich architektura. Něco jako Apple Silicon Mx v Macu a Ax v iPhone. Případně ve výpočetní kartě vyhodí texturovací a RT jednotky.
+1
+1
-1
Je komentář přínosný?
Ono stačí, že se sdílí jádra
Ladis https://diit.cz/profil/ladislav-zima
17. 6. 2025 - 12:58https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseOno stačí, že se sdílí jádra a jejich architektura. Něco jako Apple Silicon Mx v Macu a Ax v iPhone. Případně ve výpočetní kartě vyhodí texturovací a RT jednotky.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506089
+
Zrovna výpočetní a grafická jádra tak úplně stejná nebudou. Grafická cílí na paralelně skalární výkon FP 32, kdežto AI na matickový FP 6 (nebo prostě FP 4 až FP 16).
+1
-1
-1
Je komentář přínosný?
Zrovna výpočetní a grafická
Kutil https://diit.cz/profil/andrewx
17. 6. 2025 - 13:06https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseZrovna výpočetní a grafická jádra tak úplně stejná nebudou. Grafická cílí na paralelně skalární výkon FP 32, kdežto AI na matickový FP 6 (nebo prostě FP 4 až FP 16).https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506095
+
Grafika je nejefektivnější přes VLIW, což bylo pre-GCN. Na skalární výpočty se přešlo kvůli GPGPU. Maticový výpočet se udělá sérií skalárních výpočtů. Stejně to dělá Apple Silicon a jeho "Apple AMX Instruction Set". Nejstarší příklad, co znám, bylo, když 8bit CPU interně jel 4bit ALU a 16bit CPU jel interně 8bit ALU. Když se procesor zvenku tváří, že umí to a to, tak program nemusí obcházet chybějící operace sérií lowlevel operací. Ušetří se dekodér instrukcí a procesor nemusí hádat vazby mezi instrukcemi - má klidně natvrdo efektivní mikrokód pro danou situaci. A teoreticky v budoucnu může přidat specializovanou jednotku.
+1
+1
-1
Je komentář přínosný?
Grafika je nejefektivnější
Ladis https://diit.cz/profil/ladislav-zima
17. 6. 2025 - 13:11https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseGrafika je nejefektivnější přes VLIW, což bylo pre-GCN. Na skalární výpočty se přešlo kvůli GPGPU. Maticový výpočet se udělá sérií skalárních výpočtů. Stejně to dělá Apple Silicon a jeho "Apple AMX Instruction Set". Nejstarší příklad, co znám, bylo, když 8bit CPU interně jel 4bit ALU a 16bit CPU jel interně 8bit ALU. Když se procesor zvenku tváří, že umí to a to, tak program nemusí obcházet chybějící operace sérií lowlevel operací. Ušetří se dekodér instrukcí a procesor nemusí hádat vazby mezi instrukcemi - má klidně natvrdo efektivní mikrokód pro danou situaci. A teoreticky v budoucnu může přidat specializovanou jednotku.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506101
+
Very Long Instruction Word je právě paralelní zpracování instrukcí. To z GPU nezmizelo nikdy. A k přechodu na dual issue jednotky měli taky nějaký důvod.
Je pravda že AMD nyní používá SIMD, ale to Nvidia taky a je to patrně tím, že GPU musí být víc universální, tedy že kromě rasterizace a raytracingu musí zvládat i víc post processingu.
+1
-1
-1
Je komentář přínosný?
Very Long Instruction Word je
Kutil https://diit.cz/profil/andrewx
17. 6. 2025 - 13:15https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseVery Long Instruction Word je právě paralelní zpracování instrukcí. To z GPU nezmizelo nikdy. A k přechodu na dual issue jednotky měli taky nějaký důvod.
Je pravda že AMD nyní používá SIMD, ale to Nvidia taky a je to patrně tím, že GPU musí být víc universální, tedy že kromě rasterizace a raytracingu musí zvládat i víc post processingu.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506103
+
RDNA 4 podporuje nativně FP8 (tím to jistě neskončí) a navíc stejně jako GCN podporovala volitelě FP32:FP64 v poměru 1:2 až 1:16, tak může UDNA podporovat různé poměry. Zen 5 taky podle verze podporuje různé stupně rychlosti AVX-512 a stále je to stejná architektura. Tam jde pouze o to, aby architektura byla natolik stejná, aby zachovávala softwarovou kompatibilitu a nebylo potřeba na každý čip dělat samostatné optimalizace.
RDNA 4 podporuje nativně FP8 (tím to jistě neskončí) a navíc stejně jako GCN podporovala volitelě FP32:FP64 v poměru 1:2 až 1:16, tak může UDNA podporovat různé poměry. Zen 5 taky podle verze podporuje různé stupně rychlosti AVX-512 a stále je to stejná architektura. Tam jde pouze o to, aby architektura byla natolik stejná, aby zachovávala softwarovou kompatibilitu a nebylo potřeba na každý čip dělat samostatné optimalizace.
To právě vychází z toho, že shadery fungují jako vektorové jednotky, takže jedna shader jednotka (v rámci CU jich je 64) obsahuje 2x 32 bit vektorové FPU a 1x 32 bit skalární CPU. Může tedy pracovat jako 2x FPU, nebo FPU + ALU. Ale proto nedokáže efektivně zpracovat 64 FP, kde výkon klseá k 1:64. ale zase dokáže velmi dobře škálovat nižší formáty, zde Radeon AI Pro 9700:
17. 6. 2025 - 16:08https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseTo právě vychází z toho, že shadery fungují jako vektorové jednotky, takže jedna shader jednotka (v rámci CU jich je 64) obsahuje 2x 32 bit vektorové FPU a 1x 32 bit skalární CPU. Může tedy pracovat jako 2x FPU, nebo FPU + ALU. Ale proto nedokáže efektivně zpracovat 64 FP, kde výkon klseá k 1:64. ale zase dokáže velmi dobře škálovat nižší formáty, zde Radeon AI Pro 9700:
Peak Half Precision (FP16) 95.7 TFLOPs
Peak Single Precision (FP32) 47.8 TFLOPs
Peak INT4 1531 TOPs
Peak INT8 766 TOPshttps://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506115
+
Kdyby nebylo AI bubliny, akcelerátory by uměly 32 a 64 bitů FP, spousta zbytečného křemíku by neexistovala a buď by tedy výkon superpočítačů rostl rychleji a nebo by ty karty aspoň byly úspornější. Ale UDMA neznamená jen společné prvky pro grafiky a výpočetní řešení. Akcelerátory se u AMD totiž rozdělí na dvě řady, jedna pro AI a druhá pro HPC. Jestli to budou čistá řešení, nebo universál se zaměřením jedním či druhým smerem, zatím není známo.
+1
0
-1
Je komentář přínosný?
Kdyby nebylo AI bubliny,
Kutil https://diit.cz/profil/andrewx
17. 6. 2025 - 21:46https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuseKdyby nebylo AI bubliny, akcelerátory by uměly 32 a 64 bitů FP, spousta zbytečného křemíku by neexistovala a buď by tedy výkon superpočítačů rostl rychleji a nebo by ty karty aspoň byly úspornější. Ale UDMA neznamená jen společné prvky pro grafiky a výpočetní řešení. Akcelerátory se u AMD totiž rozdělí na dvě řady, jedna pro AI a druhá pro HPC. Jestli to budou čistá řešení, nebo universál se zaměřením jedním či druhým smerem, zatím není známo.https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506135
+
A co si vy predstavujete pod pojmom "inferenční výkon" vojine Kefaline?
ja dedukuji že je to neco jako predikce - domysleni - dopocitani ... tak hadam ze se to tyka Al
Inference je dopredny chod neuronove site. Inferencni vykon tedy asi bude, vykon pri pouziti natrenovanych neuronovych siti. Tedy vykon pri praktickem pouziti neuronovych siti.
A castecne i pri trenovani site, protoze tam se stridaji faze inference a faze uceni.
Nechápu jak u takhle optimalizované výpočetní architektury chce AMD něco sdílet s desktopovým GPU v budoucí UDNA.
Mě logicky vychází lepší aktuální rozdělení, ale určitě vědí co dělají.
'' jak u takhle optimalizované výpočetní architektury chce AMD něco sdílet ''
asi uplne stejne jako nVidie s amperem, blackwellem atd..
To síce na papieri dáva zmysel, ale v praxi u AMD je problematická podpora. Rozpisoval som sa o tom nedávno - aktuálny stav ROCm, kde pre každú SKU (nie architektúru!) sú zvlášť kompilované moduly na daný výpočet spôsobil, že celý balík má okolo 38GB. To však nie je ten hlavný problém - tým je to, že keď človek chce začať niečo páchať v tomto segmente a nechce predávať obličku, môže siahnuť po consumer karte ako ja - ale neskutočne sa opáli, pretože to nie je na to stavané. Ak chce stabilitu a priamu podporu, musí siahnuť po Instincte (RX Pro je len taký bočák).
Ak to mám prirovnať ku CUDA: ten istý (minimum zmien) kód zbehne rovnako na GTX1080 ako na RTX3080, čo je za mňa super. Potom príde ku skutočnému železu (H100/200) a tam zase minimum zmien (ak sa nebavíme o optimalizácii) a kód beží.
Toto pri AMD neplatí, čo ma mrzí, lebo papierovo HW na to majú. Každá architektúra má svoj codepath, s tým, že ešte sú aj rozdiely medzi jednotlivými GPU tej istej arch podľa použitého jadra (napr Navi 44 vs 48XL). Vôbec sa nečudujem, že niekto v školstve "káže" aby si študenti kúpili nVidia GPU, lebo na AMD jednoducho nemá nervy/prostriedky.
UDNA, spolu s ROCm 7.x, by to mohla zlepšiť resp. zjednodušiť. Samozrejme, bordel to bude tak či tak, lebo nemôžu (nemali by) zarezať podporu predošlých.
Podotýkam, že aktuálne sú moje znalosti iba povrchné, takže pokojne/doplňte ma opravte ak sa mýlim.
na kazde SKU? to zni dost hrozne.
I moje zkušenost. Jsem slyšel, že výpočty na APU fungují. No asi mám o jedno čísélko jiný model, než podporovaný 😅
Ladis - Kdo ví, jak stará ta zkušenost je. Ale možná i proto chystají UDMA, aby to programování víc sjednotili.
Tak snad vím, jak stará zkušenost to je, když je to osobní zkušenost. Mimochodem půl roku a záměrně jsem nainstaloval přesně verzi Ubuntu, co píšou na AMD webu jako oficiální podporovanou.
Mohl jsi to napsat rovnou.
Psal jsem na CUDA 1.0 diplomku, od té doby jsem se o to už jen zajímal.
V CUDA postupem času přibylo poměrně hodně věcí z nichž spousta není zpětně kompatibilní (možnost stopnout a debugovat gpu, spousta async mem operací, změny v paměti - např. objem shared mem na jádro, tensor operace atd atd). Plus stejný kód vám na starším gpu pojede mizerně (protože např. nemáte zcela přesný memory coalescing), zatímco na novém rychle (protože cache). Vlastně jediné co funguje od první verze jsou základní maticové operace s velmi dobrým low level přístupem k paměti :-)
Souhlasím, že nVidii se s CUDA podařilo vybudovat něco jako povědomí o vědeckých výpočtech na GPU. Nicméně že by to bylo kvůli zachovávání zpětné kompatiblity si až tak úplně nemyslím. Má za sebou prostě ty roky historie.
Plus se dneska už nikdo nechce drbat s lowlevel C, alokací paměti a paralelismem a radši použije Python wrapper co to "nějak" udělá.
To dává smysl, programování GPU je vic nízkoúrovňové, asi jako srovnávat Pascal a Assembler, nebo něco mezi Assemblerem a C, protože pak lze GPU lépe využít.
Spíš jako C a Python.
Třeba.
... no nevim jestli se to v historii osvedcilo ci neosvedcilo, ale nejakou logiku by to mit mohlo .. uz je to ze pokud ta architktura v Al serverech bude i v desktopu tak asi na klientska -desktopova cast bude mit mene prekazek- vice kompatibility k tem sluzbam Al ....
Tak vzhledem k minimálním prodejům dedikovaných karet stačí upřednostnit ty serverové a v těch herních bude pár zbytečných obvodů navíc.
Ziik - Nesdílí se celá architektura, ale jen některé společné prvky.
Ono stačí, že se sdílí jádra a jejich architektura. Něco jako Apple Silicon Mx v Macu a Ax v iPhone. Případně ve výpočetní kartě vyhodí texturovací a RT jednotky.
Zrovna výpočetní a grafická jádra tak úplně stejná nebudou. Grafická cílí na paralelně skalární výkon FP 32, kdežto AI na matickový FP 6 (nebo prostě FP 4 až FP 16).
Grafika je nejefektivnější přes VLIW, což bylo pre-GCN. Na skalární výpočty se přešlo kvůli GPGPU. Maticový výpočet se udělá sérií skalárních výpočtů. Stejně to dělá Apple Silicon a jeho "Apple AMX Instruction Set". Nejstarší příklad, co znám, bylo, když 8bit CPU interně jel 4bit ALU a 16bit CPU jel interně 8bit ALU. Když se procesor zvenku tváří, že umí to a to, tak program nemusí obcházet chybějící operace sérií lowlevel operací. Ušetří se dekodér instrukcí a procesor nemusí hádat vazby mezi instrukcemi - má klidně natvrdo efektivní mikrokód pro danou situaci. A teoreticky v budoucnu může přidat specializovanou jednotku.
Very Long Instruction Word je právě paralelní zpracování instrukcí. To z GPU nezmizelo nikdy. A k přechodu na dual issue jednotky měli taky nějaký důvod.
Je pravda že AMD nyní používá SIMD, ale to Nvidia taky a je to patrně tím, že GPU musí být víc universální, tedy že kromě rasterizace a raytracingu musí zvládat i víc post processingu.
RDNA 4 podporuje nativně FP8 (tím to jistě neskončí) a navíc stejně jako GCN podporovala volitelě FP32:FP64 v poměru 1:2 až 1:16, tak může UDNA podporovat různé poměry. Zen 5 taky podle verze podporuje různé stupně rychlosti AVX-512 a stále je to stejná architektura. Tam jde pouze o to, aby architektura byla natolik stejná, aby zachovávala softwarovou kompatibilitu a nebylo potřeba na každý čip dělat samostatné optimalizace.
RDNA 4 podporuje nativně FP8 (tím to jistě neskončí) a navíc stejně jako GCN podporovala volitelě FP32:FP64 v poměru 1:2 až 1:16, tak může UDNA podporovat různé poměry. Zen 5 taky podle verze podporuje různé stupně rychlosti AVX-512 a stále je to stejná architektura. Tam jde pouze o to, aby architektura byla natolik stejná, aby zachovávala softwarovou kompatibilitu a nebylo potřeba na každý čip dělat samostatné optimalizace.
https://diit.cz/clanek/cdna-4-instinct-mi350-prinasi-2-4x-vyssi-ml-vykon-30x-rychlejsi-inferenci/diskuse#comment-1506106 +To právě vychází z toho, že shadery fungují jako vektorové jednotky, takže jedna shader jednotka (v rámci CU jich je 64) obsahuje 2x 32 bit vektorové FPU a 1x 32 bit skalární CPU. Může tedy pracovat jako 2x FPU, nebo FPU + ALU. Ale proto nedokáže efektivně zpracovat 64 FP, kde výkon klseá k 1:64. ale zase dokáže velmi dobře škálovat nižší formáty, zde Radeon AI Pro 9700:
Peak Half Precision (FP16) 95.7 TFLOPs
Peak Single Precision (FP32) 47.8 TFLOPs
Peak INT4 1531 TOPs
Peak INT8 766 TOPs
Instinct MI355X CDNA4 1400W hehe pekne to žere ((:
Kdyby nebylo AI bubliny, akcelerátory by uměly 32 a 64 bitů FP, spousta zbytečného křemíku by neexistovala a buď by tedy výkon superpočítačů rostl rychleji a nebo by ty karty aspoň byly úspornější. Ale UDMA neznamená jen společné prvky pro grafiky a výpočetní řešení. Akcelerátory se u AMD totiž rozdělí na dvě řady, jedna pro AI a druhá pro HPC. Jestli to budou čistá řešení, nebo universál se zaměřením jedním či druhým smerem, zatím není známo.
Pro psaní komentářů se, prosím, přihlaste nebo registrujte.