2. 7. 2024 - 08:19https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseZvažuje redakce, že by výsledky ověřila?
Stačí koupit kartu.
Tady mají dokonce 8 v jednom balení:
https://smicro.cz/amd-instinct-mi300x-192gb-hbm3-100-300000045hhttps://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462268
+
Users of professional applications can benefit from CUDA graphics stream processors thanks to CUDA architecture. Thanks to this, the raw power of the graphics card can be used for specific calculations, which can accelerate the work manifold compared to a classic processor, which is significantly limited by a lower amount of cores.
+1
-1
-1
Je komentář přínosný?
CUDA Technology
del42sa https://diit.cz/profil/del42sa
2. 7. 2024 - 08:37https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseCUDA Technology
Users of professional applications can benefit from CUDA graphics stream processors thanks to CUDA architecture. Thanks to this, the raw power of the graphics card can be used for specific calculations, which can accelerate the work manifold compared to a classic processor, which is significantly limited by a lower amount of cores.
https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462274
+
2. 7. 2024 - 09:16https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseLidovka, sedm stovek za jednu.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462286
+
Bohužel to nepřipojím do svého Apple Macbook Pro s Apple Silicon a 8GB RAM :(
+1
+7
-1
Je komentář přínosný?
Bohužel to nepřipojím do
Karáš Svorka https://diit.cz/autor/zaatharen
2. 7. 2024 - 10:54https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseBohužel to nepřipojím do svého Apple Macbook Pro s Apple Silicon a 8GB RAM :(https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462317
+
2. 7. 2024 - 17:09https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseTo nepřipojíš ani do PC :'-(https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462387
+
Ale jde to zapojit do "Personal Super Computer" ... pokud jste odkoupil vyřazený superpočítač jako jistý týpek v Emerice.
+1
0
-1
Je komentář přínosný?
Ale jde to zapojit do
melkor https://diit.cz/profil/valter-mayer
2. 7. 2024 - 18:32https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseAle jde to zapojit do "Personal Super Computer" ... pokud jste odkoupil vyřazený superpočítač jako jistý týpek v Emerice.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462396
+
Doma mám vícero Super Computerů, lepších než tehdejší x86 PC...
+1
0
-1
Je komentář přínosný?
Doma mám vícero Super
Ladis https://diit.cz/profil/ladislav-zima
2. 7. 2024 - 18:54https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseDoma mám vícero Super Computerů, lepších než tehdejší x86 PC...https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462399
+
Jistě.
V (pre)historických dobách spadalo pod pojem "Superpočítač" (a pod embargo na vývoz do zemí se kterými US moc nekamarádí) kde-co.
+1
0
-1
Je komentář přínosný?
Jistě.
melkor https://diit.cz/profil/valter-mayer
3. 7. 2024 - 08:40https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseJistě.
V (pre)historických dobách spadalo pod pojem "Superpočítač" (a pod embargo na vývoz do zemí se kterými US moc nekamarádí) kde-co.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462437
+
Dneska taky. I to embargo (pašování procesorů do Číny).
+1
0
-1
Je komentář přínosný?
Dneska taky. I to embargo
Ladis https://diit.cz/profil/ladislav-zima
3. 7. 2024 - 09:43https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseDneska taky. I to embargo (pašování procesorů do Číny).https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462453
+
2. 7. 2024 - 08:22https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseo čem to vypovídá, kromě toho že GEMM tuning umí optimalizovat kód?
u nvidie mají podobné výsledky a nvidia je už zahrnula do svého balíku knihoven a apiček, takže je zase dál a dřív
https://developer.nvidia.com/blog/introducing-grouped-gemm-apis-in-cublas-and-more-performance-updates/
https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462269
+
no dost to vypovida o cely kauze, o ktery se tu myslim nepsalo.. nscale zverejnila nejaky vysledky mi300x proti h100, kdy mi300x dopadla lip.. nVidie to rozporovala, ze prej nscale pouzila software neoptimalizovanej pro h100 a ze kdyby pouzila optimalizovanej pro h100 tak by byla podstatne rychlejsi nez mi300x.. nVidie ale v tichosti presla, ze nscale nepouzila optimalizovanej soft ani pro mi300x.. no a ted nscale temahle vysledkama ukazuje, ze mi300x s optimalizacema by byla rychlejsi nez vysledky h100 na optimalizovanym softu co predlozila nVidie..
+1
+14
-1
Je komentář přínosný?
no dost to vypovida o cely
Tom Buri https://diit.cz/profil/t-b
2. 7. 2024 - 08:49https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseno dost to vypovida o cely kauze, o ktery se tu myslim nepsalo.. nscale zverejnila nejaky vysledky mi300x proti h100, kdy mi300x dopadla lip.. nVidie to rozporovala, ze prej nscale pouzila software neoptimalizovanej pro h100 a ze kdyby pouzila optimalizovanej pro h100 tak by byla podstatne rychlejsi nez mi300x.. nVidie ale v tichosti presla, ze nscale nepouzila optimalizovanej soft ani pro mi300x.. no a ted nscale temahle vysledkama ukazuje, ze mi300x s optimalizacema by byla rychlejsi nez vysledky h100 na optimalizovanym softu co predlozila nVidie..https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462277
+
to mi taky chyběly, abstolutní hodnoty jak si stojí, mi300 třeba i s optimalizacema byla horší než h100, ale asi je to teda obráceně, možná proto i do toho blackweelu tolik buší
ale chápu, že je tohle těžký nějak testovat a vyvozovat z toho nějaké zobecněné závěry
trochu mi to připomíná qnap vs synology, kdy jsem si koupil qnap kvůli lepšímu hw, ale pak zajistit synchronizaci fotek z telefonu není úplně easy oproti synology a tolik výkonu nepotřebuju jsem zjistil
+1
+1
-1
Je komentář přínosný?
to mi taky chybělo,
Pajka https://diit.cz/profil/pavel-dolezal
2. 7. 2024 - 08:58https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseto mi taky chyběly, abstolutní hodnoty jak si stojí, mi300 třeba i s optimalizacema byla horší než h100, ale asi je to teda obráceně, možná proto i do toho blackweelu tolik buší
ale chápu, že je tohle těžký nějak testovat a vyvozovat z toho nějaké zobecněné závěry
trochu mi to připomíná qnap vs synology, kdy jsem si koupil qnap kvůli lepšímu hw, ale pak zajistit synchronizaci fotek z telefonu není úplně easy oproti synology a tolik výkonu nepotřebuju jsem zjistilhttps://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462279
+
"o čem to vypovídá, kromě toho že GEMM tuning umí optimalizovat kód?"
GEMM tuning pak laděním výkonu násobení matic prostřednictvím výběru vhodného (ideálně nejvhodnějšího) algoritmu (aby vyhovoval kombinaci kapacity paměti, cache a výpočetního výkonu) s kombinaci s vyladěním parametrů. Nejde tedy o optimalizace na úrovni kódu.
A ještě jednou... "Nejde tedy o optimalizace na úrovni kódu."
+1
+6
-1
Je komentář přínosný?
"o čem to vypovídá, kromě
Satryx https://diit.cz/profil/ap4w9fgw9f
2. 7. 2024 - 09:17https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse"o čem to vypovídá, kromě toho že GEMM tuning umí optimalizovat kód?"
GEMM tuning pak laděním výkonu násobení matic prostřednictvím výběru vhodného (ideálně nejvhodnějšího) algoritmu (aby vyhovoval kombinaci kapacity paměti, cache a výpočetního výkonu) s kombinaci s vyladěním parametrů. Nejde tedy o optimalizace na úrovni kódu.
A ještě jednou... "Nejde tedy o optimalizace na úrovni kódu."https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462288
+
".. bylo nejčastěji dosahováno nárůstu výkonu blízkému trojnásobku .."
Prej jsou optimalizace zbytečná ztráta času.
Proč se s tím párat, když postačí pořídit trojnásobné množství HW, žeroucí trojnásobné množství energie.
+1
+4
-1
Je komentář přínosný?
".. bylo nejčastěji
melkor https://diit.cz/profil/valter-mayer
2. 7. 2024 - 09:20https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse".. bylo nejčastěji dosahováno nárůstu výkonu blízkému trojnásobku .."
Prej jsou optimalizace zbytečná ztráta času.
Proč se s tím párat, když postačí pořídit trojnásobné množství HW, žeroucí trojnásobné množství energie.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462289
+
2. Ak má nejaký produkt pod 30% trhu neoplatí sa na neho robiť optimalizácie.
To, že produkt, ktorý získa bez optimalizácií 30% trhu a začne sa na neho optimalizovať SW začne rásť masovo, to vieme
+1
0
-1
Je komentář přínosný?
1. lebo optimalizácia
Peter Fodrek https://diit.cz/profil/fotobanew
2. 7. 2024 - 09:42https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse1. lebo optimalizácia predražujú vývoj
2. Ak má nejaký produkt pod 30% trhu neoplatí sa na neho robiť optimalizácie.
To, že produkt, ktorý získa bez optimalizácií 30% trhu a začne sa na neho optimalizovať SW začne rásť masovo, to viemehttps://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462301
+
Na optimalizacie casto staci i 1 clovek a dosiahnes kludne nasobky vykonu, niekedy i o jeden rad vyssi vykon ak to vyvojari predtym dodrbali.
+1
+4
-1
Je komentář přínosný?
Na optimalizacie casto staci
bulldozer https://diit.cz/profil/ghwjrw6ufm
2. 7. 2024 - 10:14https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseNa optimalizacie casto staci i 1 clovek a dosiahnes kludne nasobky vykonu, niekedy i o jeden rad vyssi vykon ak to vyvojari predtym dodrbali.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462311
+
nepopieram, ale ten jeden človek na optimalizácie má často 10-15x vyšší plat, ako tí, čo tvorili neoptimálny kód
+1
-1
-1
Je komentář přínosný?
nepopieram, ale ten jeden
Peter Fodrek https://diit.cz/profil/fotobanew
2. 7. 2024 - 10:46https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskusenepopieram, ale ten jeden človek na optimalizácie má často 10-15x vyšší plat, ako tí, čo tvorili neoptimálny kódhttps://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462315
+
Senior, čo sa učil kódovať na C64, Atari XL, PMD 85-II, ZX Spectrum rozhodne nebude písať neoptimálny kód....
+1
0
-1
Je komentář přínosný?
Senior, čo sa učil kódovať na
Peter Fodrek https://diit.cz/profil/fotobanew
2. 7. 2024 - 11:25https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseSenior, čo sa učil kódovať na C64, Atari XL, PMD 85-II, ZX Spectrum rozhodne nebude písať neoptimálny kód.... https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462331
+
2. 7. 2024 - 11:32https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseTenhle senior je už v důchodu.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462335
+
Nesuhlasim:
1. Dneska je senior kazdy kto ma 5r skusenosti a kodovat zacinal v 2012-2015.
2. I ked narazis na seniora ktory sa ucil na C64, Atari XL atd, tak to neznamena ze vie optimalizovat. Paragidmy sa vyrazne menili, vtedy sa optimalizovalo na instrukcie a latencie neboli problem. Dnes instrukcie nie su problem a optimalizuje sa na latencie a cache friendly algoritmy. Ten senior by sa musel naucit novym kuskom, nezalezi kedy zacinal.
+1
+4
-1
Je komentář přínosný?
Nesuhlasim:
bulldozer https://diit.cz/profil/ghwjrw6ufm
2. 7. 2024 - 11:37https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseNesuhlasim:
1. Dneska je senior kazdy kto ma 5r skusenosti a kodovat zacinal v 2012-2015.
2. I ked narazis na seniora ktory sa ucil na C64, Atari XL atd, tak to neznamena ze vie optimalizovat. Paragidmy sa vyrazne menili, vtedy sa optimalizovalo na instrukcie a latencie neboli problem. Dnes instrukcie nie su problem a optimalizuje sa na latencie a cache friendly algoritmy. Ten senior by sa musel naucit novym kuskom, nezalezi kedy zacinal.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462337
+
Pro zajímavost, vyladěné S3 Virge měly frekvenci paměti nastavenu na stejnou jako "GPU" čip. Necachovala ani texely.
+1
0
-1
Je komentář přínosný?
Pro zajímavost, vyladěné S3
Ladis https://diit.cz/profil/ladislav-zima
2. 7. 2024 - 11:38https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskusePro zajímavost, vyladěné S3 Virge měly frekvenci paměti nastavenu na stejnou jako "GPU" čip. Necachovala ani texely.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462339
+
Jj, to je ten problem, jednojadrovy vykon CPU/GPU sa za 30 rokov zvysil cca 100 nasobne, ale latencie pamati zostali zhruba rovnake. Zvysil sa len bandwidth.
+1
+4
-1
Je komentář přínosný?
Jj, to je ten problem,
bulldozer https://diit.cz/profil/ghwjrw6ufm
2. 7. 2024 - 12:09https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseJj, to je ten problem, jednojadrovy vykon CPU/GPU sa za 30 rokov zvysil cca 100 nasobne, ale latencie pamati zostali zhruba rovnake. Zvysil sa len bandwidth.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462352
+
2. 7. 2024 - 12:05https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseA na to jsi přišel jak?https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462351
+
To nemusi byt pravda. Ja treba budu prepisovat optimalizovane kusy kodu z devadesatych let na neoptimalizovane. Duvodem je, aby se lepe a jednoduseji udrzovaly. Z uzivatelskeho hlediska je jedno, zda se to spocita za 0.001 s nebo 0.0012 s. Sice to je o 20% vic, ale uzivatel to v tomto pripade nepozna, kod vsak bude znatelne prehlednejsi, pripadne budouci upravy budou podstatne jednodussi, pravdepodobnost vzniku chyb podstatne nizsi a testovani mnohem jednodussi.
Dost jsem s tim mentalne bojoval, ale je rozumne v tomto pripade kod zjednodusit, zprehlednit i na ukor efektivity.
+1
0
-1
Je komentář přínosný?
To nemusi byt pravda. Ja
Kubrak https://diit.cz/profil/tsxoyhh5g8
2. 7. 2024 - 17:06https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseTo nemusi byt pravda. Ja treba budu prepisovat optimalizovane kusy kodu z devadesatych let na neoptimalizovane. Duvodem je, aby se lepe a jednoduseji udrzovaly. Z uzivatelskeho hlediska je jedno, zda se to spocita za 0.001 s nebo 0.0012 s. Sice to je o 20% vic, ale uzivatel to v tomto pripade nepozna, kod vsak bude znatelne prehlednejsi, pripadne budouci upravy budou podstatne jednodussi, pravdepodobnost vzniku chyb podstatne nizsi a testovani mnohem jednodussi.
Dost jsem s tim mentalne bojoval, ale je rozumne v tomto pripade kod zjednodusit, zprehlednit i na ukor efektivity. https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462385
+
To bude případ od případu...
BTW v cca 86. jsem jedno zpracování zkrátil z 4 šichet na jednu optimalizaci třídění dat, jinak vše ostatní zůstalo téměř nedotčené....
+1
0
-1
Je komentář přínosný?
To bude případ od případu...
johnthelittle https://diit.cz/profil/johnn
2. 7. 2024 - 18:28https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseTo bude případ od případu...
BTW v cca 86. jsem jedno zpracování zkrátil z 4 šichet na jednu optimalizaci třídění dat, jinak vše ostatní zůstalo téměř nedotčené.... https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462395
+
Tak samozrejme, nekdy optimalizace cenu ma, treba v devadesatkach, kdyz natrenovani jednoduche neuronove site zabralo nekolik dnu (ted by totez na beznem pocitaci totez trvalo jen nekolik minut a s vyuzitim GPU nebo AI akceleratoru jeste mene), jindy casem prestava mit, protoze vykon CPU mezitim razantne stoupnul.
V mem pripade jde o nejake online vypocty. V minulosti slo o to, aby byl vypocet zobrazovanych dat do cca ctvrt/pul vteriny, aby se s tim pohodlne pracovalo. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl, co se pocitalo pul vteriny je ted spocitano za zlomecek milisekundy. Tak rychle to neni z uzivatelskeho hlediska potrebne. Drobne zpomaleni uzivatel ani nepozna a kod se podstatne zjednodusi.
+1
0
-1
Je komentář přínosný?
Tak samozrejme, nekdy
Kubrak https://diit.cz/profil/tsxoyhh5g8
3. 7. 2024 - 00:44https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseTak samozrejme, nekdy optimalizace cenu ma, treba v devadesatkach, kdyz natrenovani jednoduche neuronove site zabralo nekolik dnu (ted by totez na beznem pocitaci totez trvalo jen nekolik minut a s vyuzitim GPU nebo AI akceleratoru jeste mene), jindy casem prestava mit, protoze vykon CPU mezitim razantne stoupnul.
V mem pripade jde o nejake online vypocty. V minulosti slo o to, aby byl vypocet zobrazovanych dat do cca ctvrt/pul vteriny, aby se s tim pohodlne pracovalo. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl, co se pocitalo pul vteriny je ted spocitano za zlomecek milisekundy. Tak rychle to neni z uzivatelskeho hlediska potrebne. Drobne zpomaleni uzivatel ani nepozna a kod se podstatne zjednodusi.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462415
+
".. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl .."
Jenom ten Word už pět minut "něco" dělá.
+1
+3
-1
Je komentář přínosný?
".. Za tech 30 let vykon
melkor https://diit.cz/profil/valter-mayer
3. 7. 2024 - 03:51https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse".. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl .."
Jenom ten Word už pět minut "něco" dělá.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462422
+
vacsinou sa neoplati srat s optimalizaciami prilis skoro vo vyvojovom cykle. proste sa to napise, zisti, kde to najviac drhne a tam sa to zoptimalizuje.
ak mam jednu cast kodu, ktora bola dana dohromady dajme tomu 5 mesiacov pred finalizaciou a ta mi konzumuje 25% casu, tak ak na tejto casti zrazim pri optimalizacii cas iba na polovicu, ziskam 12% zrychlenie.
ak ale po ceste najdem tri ine kusy kodu, ktore sa vo vysledku kazdy podielaju na vyslednom case 3% a zoptimalizujem ich o 90%, som na ~9% usetreneho casu.
kor ak tri optimalizacie vykonane pocas vyvoja zabrali rovnako vela casu ako jedna po spuseni a profilovani, tak som za rovnake naklady ziskal iba 2/3 zlepsenia.
no a preco na tom zalezi? ak tych X penazi investujem do zrychlenia o plnych 12%, tak mi to zaisti peniaze "navyse" (zalezi od biznis modelu) skor, nez keby som ziskal iba 2/3 zrychlenia. takze prva optimalizacia sa zaplati skor a moze zarobit aj na to, aby som urobil tie dalsie.
+1
+3
-1
Je komentář přínosný?
vacsinou sa neoplati srat s
ventYl https://diit.cz/profil/ventyl-ventyl
2. 7. 2024 - 10:32https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskusevacsinou sa neoplati srat s optimalizaciami prilis skoro vo vyvojovom cykle. proste sa to napise, zisti, kde to najviac drhne a tam sa to zoptimalizuje.
ak mam jednu cast kodu, ktora bola dana dohromady dajme tomu 5 mesiacov pred finalizaciou a ta mi konzumuje 25% casu, tak ak na tejto casti zrazim pri optimalizacii cas iba na polovicu, ziskam 12% zrychlenie.
ak ale po ceste najdem tri ine kusy kodu, ktore sa vo vysledku kazdy podielaju na vyslednom case 3% a zoptimalizujem ich o 90%, som na ~9% usetreneho casu.
kor ak tri optimalizacie vykonane pocas vyvoja zabrali rovnako vela casu ako jedna po spuseni a profilovani, tak som za rovnake naklady ziskal iba 2/3 zlepsenia.
no a preco na tom zalezi? ak tych X penazi investujem do zrychlenia o plnych 12%, tak mi to zaisti peniaze "navyse" (zalezi od biznis modelu) skor, nez keby som ziskal iba 2/3 zrychlenia. takze prva optimalizacia sa zaplati skor a moze zarobit aj na to, aby som urobil tie dalsie.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462313
+
No ono když je čekačka na novou kartu rok, tak i 12 % znamená, že měsíční výpočet budeš mít o půl týdne dřív.
+1
+1
-1
Je komentář přínosný?
No ono když je čekačka na
Ladis https://diit.cz/profil/ladislav-zima
2. 7. 2024 - 11:10https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseNo ono když je čekačka na novou kartu rok, tak i 12 % znamená, že měsíční výpočet budeš mít o půl týdne dřív.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462322
+
+9% je hezkých.
+12% je lepších.
O tom není sporu.
Premium ovšem píše o průměrných 330% (+ 230%).
Pokud to skombinujete se systémem, který hodlá použít těch akcelerátorů jeden milion ... tak i těch +9% by pokrylo náklady na několik lidí pro optimalizace.
Nehledě na tu drobnost, že už samotné rozchození systému s 1 000 000 výpočetních karet bude potřebovat slušný team. To není rig o osmi GPU težících doge coin.
+1
+3
-1
Je komentář přínosný?
+9% je hezkých.
melkor https://diit.cz/profil/valter-mayer
2. 7. 2024 - 11:19https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse+9% je hezkých.
+12% je lepších.
O tom není sporu.
Premium ovšem píše o průměrných 330% (+ 230%).
Pokud to skombinujete se systémem, který hodlá použít těch akcelerátorů jeden milion ... tak i těch +9% by pokrylo náklady na několik lidí pro optimalizace.
Nehledě na tu drobnost, že už samotné rozchození systému s 1 000 000 výpočetních karet bude potřebovat slušný team. To není rig o osmi GPU težících doge coin.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462326
+
Hyperscaleři běžně pracují na optimalizacích v jednotkách procent (např. Amazon a úprava PortgreSQL pro ARM). Ono se to pak nasčítá.
+1
0
-1
Je komentář přínosný?
Hyperscaleři běžně pracují na
Ladis https://diit.cz/profil/ladislav-zima
2. 7. 2024 - 11:22https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseHyperscaleři běžně pracují na optimalizacích v jednotkách procent (např. Amazon a úprava PortgreSQL pro ARM). Ono se to pak nasčítá.https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462328
+
Akože AMD je stále softvérovo pozadu ale aspoň to ukazuje, že získalo dostatok trhu aby sa začal softvér poriadne optimalizovať na ich hardvér.
+1
+3
-1
Je komentář přínosný?
Akože AMD je stále softvérovo
Jumper https://diit.cz/profil/wknrbtuyfj
2. 7. 2024 - 13:46https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuseAkože AMD je stále softvérovo pozadu ale aspoň to ukazuje, že získalo dostatok trhu aby sa začal softvér poriadne optimalizovať na ich hardvér. https://diit.cz/clanek/nscale-gemm-tuning-prinasi-instinct-mi300x-az-sedminasobny-narust-vykonu/diskuse#comment-1462372
+
Zvažuje redakce, že by výsledky ověřila?
Stačí koupit kartu.
Tady mají dokonce 8 v jednom balení:
https://smicro.cz/amd-instinct-mi300x-192gb-hbm3-100-300000045h
CUDA Technology
Users of professional applications can benefit from CUDA graphics stream processors thanks to CUDA architecture. Thanks to this, the raw power of the graphics card can be used for specific calculations, which can accelerate the work manifold compared to a classic processor, which is significantly limited by a lower amount of cores.
Lidovka, sedm stovek za jednu.
Bohužel to nepřipojím do svého Apple Macbook Pro s Apple Silicon a 8GB RAM :(
Mac neco nedokaze? To mi hlava nebere.
To nepřipojíš ani do PC :'-(
Ale jde to zapojit do "Personal Super Computer" ... pokud jste odkoupil vyřazený superpočítač jako jistý týpek v Emerice.
Doma mám vícero Super Computerů, lepších než tehdejší x86 PC...
Jistě.
V (pre)historických dobách spadalo pod pojem "Superpočítač" (a pod embargo na vývoz do zemí se kterými US moc nekamarádí) kde-co.
Dneska taky. I to embargo (pašování procesorů do Číny).
o čem to vypovídá, kromě toho že GEMM tuning umí optimalizovat kód?
u nvidie mají podobné výsledky a nvidia je už zahrnula do svého balíku knihoven a apiček, takže je zase dál a dřív
https://developer.nvidia.com/blog/introducing-grouped-gemm-apis-in-cubla...
no dost to vypovida o cely kauze, o ktery se tu myslim nepsalo.. nscale zverejnila nejaky vysledky mi300x proti h100, kdy mi300x dopadla lip.. nVidie to rozporovala, ze prej nscale pouzila software neoptimalizovanej pro h100 a ze kdyby pouzila optimalizovanej pro h100 tak by byla podstatne rychlejsi nez mi300x.. nVidie ale v tichosti presla, ze nscale nepouzila optimalizovanej soft ani pro mi300x.. no a ted nscale temahle vysledkama ukazuje, ze mi300x s optimalizacema by byla rychlejsi nez vysledky h100 na optimalizovanym softu co predlozila nVidie..
to mi taky chyběly, abstolutní hodnoty jak si stojí, mi300 třeba i s optimalizacema byla horší než h100, ale asi je to teda obráceně, možná proto i do toho blackweelu tolik buší
ale chápu, že je tohle těžký nějak testovat a vyvozovat z toho nějaké zobecněné závěry
trochu mi to připomíná qnap vs synology, kdy jsem si koupil qnap kvůli lepšímu hw, ale pak zajistit synchronizaci fotek z telefonu není úplně easy oproti synology a tolik výkonu nepotřebuju jsem zjistil
"o čem to vypovídá, kromě toho že GEMM tuning umí optimalizovat kód?"
GEMM tuning pak laděním výkonu násobení matic prostřednictvím výběru vhodného (ideálně nejvhodnějšího) algoritmu (aby vyhovoval kombinaci kapacity paměti, cache a výpočetního výkonu) s kombinaci s vyladěním parametrů. Nejde tedy o optimalizace na úrovni kódu.
A ještě jednou... "Nejde tedy o optimalizace na úrovni kódu."
-
".. bylo nejčastěji dosahováno nárůstu výkonu blízkému trojnásobku .."
Prej jsou optimalizace zbytečná ztráta času.
Proč se s tím párat, když postačí pořídit trojnásobné množství HW, žeroucí trojnásobné množství energie.
1. lebo optimalizácia predražujú vývoj
2. Ak má nejaký produkt pod 30% trhu neoplatí sa na neho robiť optimalizácie.
To, že produkt, ktorý získa bez optimalizácií 30% trhu a začne sa na neho optimalizovať SW začne rásť masovo, to vieme
Na optimalizacie casto staci i 1 clovek a dosiahnes kludne nasobky vykonu, niekedy i o jeden rad vyssi vykon ak to vyvojari predtym dodrbali.
nepopieram, ale ten jeden človek na optimalizácie má často 10-15x vyšší plat, ako tí, čo tvorili neoptimálny kód
Kdeze, ten neoptimalny kod casto pisu seniori s najvyssim platom. :)
Senior, čo sa učil kódovať na C64, Atari XL, PMD 85-II, ZX Spectrum rozhodne nebude písať neoptimálny kód....
Tenhle senior je už v důchodu.
Nesuhlasim:
1. Dneska je senior kazdy kto ma 5r skusenosti a kodovat zacinal v 2012-2015.
2. I ked narazis na seniora ktory sa ucil na C64, Atari XL atd, tak to neznamena ze vie optimalizovat. Paragidmy sa vyrazne menili, vtedy sa optimalizovalo na instrukcie a latencie neboli problem. Dnes instrukcie nie su problem a optimalizuje sa na latencie a cache friendly algoritmy. Ten senior by sa musel naucit novym kuskom, nezalezi kedy zacinal.
Pro zajímavost, vyladěné S3 Virge měly frekvenci paměti nastavenu na stejnou jako "GPU" čip. Necachovala ani texely.
Jj, to je ten problem, jednojadrovy vykon CPU/GPU sa za 30 rokov zvysil cca 100 nasobne, ale latencie pamati zostali zhruba rovnake. Zvysil sa len bandwidth.
Další příklad: Motorola 6800 používala prvních 256 bajtů RAM jako registry CPU.
A na to jsi přišel jak?
To nemusi byt pravda. Ja treba budu prepisovat optimalizovane kusy kodu z devadesatych let na neoptimalizovane. Duvodem je, aby se lepe a jednoduseji udrzovaly. Z uzivatelskeho hlediska je jedno, zda se to spocita za 0.001 s nebo 0.0012 s. Sice to je o 20% vic, ale uzivatel to v tomto pripade nepozna, kod vsak bude znatelne prehlednejsi, pripadne budouci upravy budou podstatne jednodussi, pravdepodobnost vzniku chyb podstatne nizsi a testovani mnohem jednodussi.
Dost jsem s tim mentalne bojoval, ale je rozumne v tomto pripade kod zjednodusit, zprehlednit i na ukor efektivity.
To bude případ od případu...
BTW v cca 86. jsem jedno zpracování zkrátil z 4 šichet na jednu optimalizaci třídění dat, jinak vše ostatní zůstalo téměř nedotčené....
Tak samozrejme, nekdy optimalizace cenu ma, treba v devadesatkach, kdyz natrenovani jednoduche neuronove site zabralo nekolik dnu (ted by totez na beznem pocitaci totez trvalo jen nekolik minut a s vyuzitim GPU nebo AI akceleratoru jeste mene), jindy casem prestava mit, protoze vykon CPU mezitim razantne stoupnul.
V mem pripade jde o nejake online vypocty. V minulosti slo o to, aby byl vypocet zobrazovanych dat do cca ctvrt/pul vteriny, aby se s tim pohodlne pracovalo. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl, co se pocitalo pul vteriny je ted spocitano za zlomecek milisekundy. Tak rychle to neni z uzivatelskeho hlediska potrebne. Drobne zpomaleni uzivatel ani nepozna a kod se podstatne zjednodusi.
".. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl .."
Jenom ten Word už pět minut "něco" dělá.
vacsinou sa neoplati srat s optimalizaciami prilis skoro vo vyvojovom cykle. proste sa to napise, zisti, kde to najviac drhne a tam sa to zoptimalizuje.
ak mam jednu cast kodu, ktora bola dana dohromady dajme tomu 5 mesiacov pred finalizaciou a ta mi konzumuje 25% casu, tak ak na tejto casti zrazim pri optimalizacii cas iba na polovicu, ziskam 12% zrychlenie.
ak ale po ceste najdem tri ine kusy kodu, ktore sa vo vysledku kazdy podielaju na vyslednom case 3% a zoptimalizujem ich o 90%, som na ~9% usetreneho casu.
kor ak tri optimalizacie vykonane pocas vyvoja zabrali rovnako vela casu ako jedna po spuseni a profilovani, tak som za rovnake naklady ziskal iba 2/3 zlepsenia.
no a preco na tom zalezi? ak tych X penazi investujem do zrychlenia o plnych 12%, tak mi to zaisti peniaze "navyse" (zalezi od biznis modelu) skor, nez keby som ziskal iba 2/3 zrychlenia. takze prva optimalizacia sa zaplati skor a moze zarobit aj na to, aby som urobil tie dalsie.
No ono když je čekačka na novou kartu rok, tak i 12 % znamená, že měsíční výpočet budeš mít o půl týdne dřív.
+9% je hezkých.
+12% je lepších.
O tom není sporu.
Premium ovšem píše o průměrných 330% (+ 230%).
Pokud to skombinujete se systémem, který hodlá použít těch akcelerátorů jeden milion ... tak i těch +9% by pokrylo náklady na několik lidí pro optimalizace.
Nehledě na tu drobnost, že už samotné rozchození systému s 1 000 000 výpočetních karet bude potřebovat slušný team. To není rig o osmi GPU težících doge coin.
Hyperscaleři běžně pracují na optimalizacích v jednotkách procent (např. Amazon a úprava PortgreSQL pro ARM). Ono se to pak nasčítá.
nebo sony, kdyz ma o neco mene vykonejsi hw nez xbox
https://wccftech.com/heres-why-ps5-often-runs-games-better-than-the-alle...
Akože AMD je stále softvérovo pozadu ale aspoň to ukazuje, že získalo dostatok trhu aby sa začal softvér poriadne optimalizovať na ich hardvér.
Pro psaní komentářů se, prosím, přihlaste nebo registrujte.