Diskuse k Nscale: GEMM tuning přináší Instinct MI300X až sedminásobný nárůst výkonu

Samuel | 2. 7. 2024 - 08:19

Zvažuje redakce, že by výsledky ověřila?
Stačí koupit kartu.
Tady mají dokonce 8 v jednom balení:
https://smicro.cz/amd-instinct-mi300x-192gb-hbm3-100-300000045h

del42sa | 2. 7. 2024 - 08:37

CUDA Technology

Users of professional applications can benefit from CUDA graphics stream processors thanks to CUDA architecture. Thanks to this, the raw power of the graphics card can be used for specific calculations, which can accelerate the work manifold compared to a classic processor, which is significantly limited by a lower amount of cores.

Emenems | 2. 7. 2024 - 09:16

Lidovka, sedm stovek za jednu.

Karáš Svorka | 2. 7. 2024 - 10:54

Bohužel to nepřipojím do svého Apple Macbook Pro s Apple Silicon a 8GB RAM :(

Kubrak | 2. 7. 2024 - 16:52

Mac neco nedokaze? To mi hlava nebere.

Ladis | 2. 7. 2024 - 17:09

To nepřipojíš ani do PC :'-(

melkor | 2. 7. 2024 - 18:32

Ale jde to zapojit do "Personal Super Computer" ... pokud jste odkoupil vyřazený superpočítač jako jistý týpek v Emerice.

Ladis | 2. 7. 2024 - 18:54

Doma mám vícero Super Computerů, lepších než tehdejší x86 PC...

melkor | 3. 7. 2024 - 08:40

Jistě.
V (pre)historických dobách spadalo pod pojem "Superpočítač" (a pod embargo na vývoz do zemí se kterými US moc nekamarádí) kde-co.

Ladis | 3. 7. 2024 - 09:43

Dneska taky. I to embargo (pašování procesorů do Číny).

Pajka | 2. 7. 2024 - 08:22

o čem to vypovídá, kromě toho že GEMM tuning umí optimalizovat kód?
u nvidie mají podobné výsledky a nvidia je už zahrnula do svého balíku knihoven a apiček, takže je zase dál a dřív
https://developer.nvidia.com/blog/introducing-grouped-gemm-apis-in-cubla...

Tom Buri | 2. 7. 2024 - 08:49

no dost to vypovida o cely kauze, o ktery se tu myslim nepsalo.. nscale zverejnila nejaky vysledky mi300x proti h100, kdy mi300x dopadla lip.. nVidie to rozporovala, ze prej nscale pouzila software neoptimalizovanej pro h100 a ze kdyby pouzila optimalizovanej pro h100 tak by byla podstatne rychlejsi nez mi300x.. nVidie ale v tichosti presla, ze nscale nepouzila optimalizovanej soft ani pro mi300x.. no a ted nscale temahle vysledkama ukazuje, ze mi300x s optimalizacema by byla rychlejsi nez vysledky h100 na optimalizovanym softu co predlozila nVidie..

Pajka | 2. 7. 2024 - 08:58

to mi taky chyběly, abstolutní hodnoty jak si stojí, mi300 třeba i s optimalizacema byla horší než h100, ale asi je to teda obráceně, možná proto i do toho blackweelu tolik buší
ale chápu, že je tohle těžký nějak testovat a vyvozovat z toho nějaké zobecněné závěry

trochu mi to připomíná qnap vs synology, kdy jsem si koupil qnap kvůli lepšímu hw, ale pak zajistit synchronizaci fotek z telefonu není úplně easy oproti synology a tolik výkonu nepotřebuju jsem zjistil

Satryx | 2. 7. 2024 - 09:17

"o čem to vypovídá, kromě toho že GEMM tuning umí optimalizovat kód?"

GEMM tuning pak laděním výkonu násobení matic prostřednictvím výběru vhodného (ideálně nejvhodnějšího) algoritmu (aby vyhovoval kombinaci kapacity paměti, cache a výpočetního výkonu) s kombinaci s vyladěním parametrů. Nejde tedy o optimalizace na úrovni kódu.
A ještě jednou... "Nejde tedy o optimalizace na úrovni kódu."

Jofo | 2. 7. 2024 - 09:03

melkor | 2. 7. 2024 - 09:20

".. bylo nejčastěji dosahováno nárůstu výkonu blízkému trojnásobku .."

Prej jsou optimalizace zbytečná ztráta času.
Proč se s tím párat, když postačí pořídit trojnásobné množství HW, žeroucí trojnásobné množství energie.

Peter Fodrek | 2. 7. 2024 - 09:42

1. lebo optimalizácia predražujú vývoj

2. Ak má nejaký produkt pod 30% trhu neoplatí sa na neho robiť optimalizácie.

To, že produkt, ktorý získa bez optimalizácií 30% trhu a začne sa na neho optimalizovať SW začne rásť masovo, to vieme

bulldozer | 2. 7. 2024 - 10:14

Na optimalizacie casto staci i 1 clovek a dosiahnes kludne nasobky vykonu, niekedy i o jeden rad vyssi vykon ak to vyvojari predtym dodrbali.

Peter Fodrek | 2. 7. 2024 - 10:46

nepopieram, ale ten jeden človek na optimalizácie má často 10-15x vyšší plat, ako tí, čo tvorili neoptimálny kód

bulldozer | 2. 7. 2024 - 10:57

Kdeze, ten neoptimalny kod casto pisu seniori s najvyssim platom. :)

Peter Fodrek | 2. 7. 2024 - 11:25

Senior, čo sa učil kódovať na C64, Atari XL, PMD 85-II, ZX Spectrum rozhodne nebude písať neoptimálny kód....

Ladis | 2. 7. 2024 - 11:32

Tenhle senior je už v důchodu.

bulldozer | 2. 7. 2024 - 11:37

Nesuhlasim:
1. Dneska je senior kazdy kto ma 5r skusenosti a kodovat zacinal v 2012-2015.
2. I ked narazis na seniora ktory sa ucil na C64, Atari XL atd, tak to neznamena ze vie optimalizovat. Paragidmy sa vyrazne menili, vtedy sa optimalizovalo na instrukcie a latencie neboli problem. Dnes instrukcie nie su problem a optimalizuje sa na latencie a cache friendly algoritmy. Ten senior by sa musel naucit novym kuskom, nezalezi kedy zacinal.

Ladis | 2. 7. 2024 - 11:38

Pro zajímavost, vyladěné S3 Virge měly frekvenci paměti nastavenu na stejnou jako "GPU" čip. Necachovala ani texely.

bulldozer | 2. 7. 2024 - 12:09

Jj, to je ten problem, jednojadrovy vykon CPU/GPU sa za 30 rokov zvysil cca 100 nasobne, ale latencie pamati zostali zhruba rovnake. Zvysil sa len bandwidth.

Ladis | 2. 7. 2024 - 13:26

Další příklad: Motorola 6800 používala prvních 256 bajtů RAM jako registry CPU.

satai | 2. 7. 2024 - 12:05

A na to jsi přišel jak?

Kubrak | 2. 7. 2024 - 17:06

To nemusi byt pravda. Ja treba budu prepisovat optimalizovane kusy kodu z devadesatych let na neoptimalizovane. Duvodem je, aby se lepe a jednoduseji udrzovaly. Z uzivatelskeho hlediska je jedno, zda se to spocita za 0.001 s nebo 0.0012 s. Sice to je o 20% vic, ale uzivatel to v tomto pripade nepozna, kod vsak bude znatelne prehlednejsi, pripadne budouci upravy budou podstatne jednodussi, pravdepodobnost vzniku chyb podstatne nizsi a testovani mnohem jednodussi.

Dost jsem s tim mentalne bojoval, ale je rozumne v tomto pripade kod zjednodusit, zprehlednit i na ukor efektivity.

johnthelittle | 2. 7. 2024 - 18:28

To bude případ od případu...
BTW v cca 86. jsem jedno zpracování zkrátil z 4 šichet na jednu optimalizaci třídění dat, jinak vše ostatní zůstalo téměř nedotčené....

Kubrak | 3. 7. 2024 - 00:44

Tak samozrejme, nekdy optimalizace cenu ma, treba v devadesatkach, kdyz natrenovani jednoduche neuronove site zabralo nekolik dnu (ted by totez na beznem pocitaci totez trvalo jen nekolik minut a s vyuzitim GPU nebo AI akceleratoru jeste mene), jindy casem prestava mit, protoze vykon CPU mezitim razantne stoupnul.

V mem pripade jde o nejake online vypocty. V minulosti slo o to, aby byl vypocet zobrazovanych dat do cca ctvrt/pul vteriny, aby se s tim pohodlne pracovalo. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl, co se pocitalo pul vteriny je ted spocitano za zlomecek milisekundy. Tak rychle to neni z uzivatelskeho hlediska potrebne. Drobne zpomaleni uzivatel ani nepozna a kod se podstatne zjednodusi.

melkor | 3. 7. 2024 - 03:51

".. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl .."

Jenom ten Word už pět minut "něco" dělá.

ventYl | 2. 7. 2024 - 10:32

vacsinou sa neoplati srat s optimalizaciami prilis skoro vo vyvojovom cykle. proste sa to napise, zisti, kde to najviac drhne a tam sa to zoptimalizuje.

ak mam jednu cast kodu, ktora bola dana dohromady dajme tomu 5 mesiacov pred finalizaciou a ta mi konzumuje 25% casu, tak ak na tejto casti zrazim pri optimalizacii cas iba na polovicu, ziskam 12% zrychlenie.

ak ale po ceste najdem tri ine kusy kodu, ktore sa vo vysledku kazdy podielaju na vyslednom case 3% a zoptimalizujem ich o 90%, som na ~9% usetreneho casu.

kor ak tri optimalizacie vykonane pocas vyvoja zabrali rovnako vela casu ako jedna po spuseni a profilovani, tak som za rovnake naklady ziskal iba 2/3 zlepsenia.

no a preco na tom zalezi? ak tych X penazi investujem do zrychlenia o plnych 12%, tak mi to zaisti peniaze "navyse" (zalezi od biznis modelu) skor, nez keby som ziskal iba 2/3 zrychlenia. takze prva optimalizacia sa zaplati skor a moze zarobit aj na to, aby som urobil tie dalsie.

Ladis | 2. 7. 2024 - 11:10

No ono když je čekačka na novou kartu rok, tak i 12 % znamená, že měsíční výpočet budeš mít o půl týdne dřív.

melkor | 2. 7. 2024 - 11:19

+9% je hezkých.
+12% je lepších.
O tom není sporu.

Premium ovšem píše o průměrných 330% (+ 230%).
Pokud to skombinujete se systémem, který hodlá použít těch akcelerátorů jeden milion ... tak i těch +9% by pokrylo náklady na několik lidí pro optimalizace.
Nehledě na tu drobnost, že už samotné rozchození systému s 1 000 000 výpočetních karet bude potřebovat slušný team. To není rig o osmi GPU težících doge coin.

Ladis | 2. 7. 2024 - 11:22

Hyperscaleři běžně pracují na optimalizacích v jednotkách procent (např. Amazon a úprava PortgreSQL pro ARM). Ono se to pak nasčítá.

Pajka | 2. 7. 2024 - 11:24

nebo sony, kdyz ma o neco mene vykonejsi hw nez xbox
https://wccftech.com/heres-why-ps5-often-runs-games-better-than-the-alle...

Jumper | 2. 7. 2024 - 13:46

Akože AMD je stále softvérovo pozadu ale aspoň to ukazuje, že získalo dostatok trhu aby sa začal softvér poriadne optimalizovať na ich hardvér.

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Nscale: GEMM tuning přináší Instinct MI300X až sedminásobný nárůst výkonu

Komerční sdělení

CDR Hry

Epic rozdává zdarma dvě hry, které potěší hráče hororových her

AI zachránila vesmírný teleskop Jamese Webba za 10 miliard dolarů

„Říkejte mi pokrytec,“ vzkazuje Gates. Emise uhlíku nejsou problém, chudoba ano

Windows 11 dostane v roce 2026 obří aktualizaci, ale ne každý ji uvidí

Materiály budoucnosti: Jak vědci zkrotili volné elektrony pro rychlejší počítače

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT