Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Nscale: GEMM tuning přináší Instinct MI300X až sedminásobný nárůst výkonu

Zvažuje redakce, že by výsledky ověřila?
Stačí koupit kartu.
Tady mají dokonce 8 v jednom balení:
https://smicro.cz/amd-instinct-mi300x-192gb-hbm3-100-300000045h

+1
0
-1
Je komentář přínosný?

CUDA Technology

Users of professional applications can benefit from CUDA graphics stream processors thanks to CUDA architecture. Thanks to this, the raw power of the graphics card can be used for specific calculations, which can accelerate the work manifold compared to a classic processor, which is significantly limited by a lower amount of cores.

+1
-1
-1
Je komentář přínosný?

Lidovka, sedm stovek za jednu.

+1
+5
-1
Je komentář přínosný?

Bohužel to nepřipojím do svého Apple Macbook Pro s Apple Silicon a 8GB RAM :(

+1
+7
-1
Je komentář přínosný?

Mac neco nedokaze? To mi hlava nebere.

+1
+3
-1
Je komentář přínosný?

To nepřipojíš ani do PC :'-(

+1
0
-1
Je komentář přínosný?

Ale jde to zapojit do "Personal Super Computer" ... pokud jste odkoupil vyřazený superpočítač jako jistý týpek v Emerice.

+1
0
-1
Je komentář přínosný?

Doma mám vícero Super Computerů, lepších než tehdejší x86 PC...

+1
0
-1
Je komentář přínosný?

Jistě.
V (pre)historických dobách spadalo pod pojem "Superpočítač" (a pod embargo na vývoz do zemí se kterými US moc nekamarádí) kde-co.

+1
0
-1
Je komentář přínosný?

Dneska taky. I to embargo (pašování procesorů do Číny).

+1
0
-1
Je komentář přínosný?

o čem to vypovídá, kromě toho že GEMM tuning umí optimalizovat kód?
u nvidie mají podobné výsledky a nvidia je už zahrnula do svého balíku knihoven a apiček, takže je zase dál a dřív
https://developer.nvidia.com/blog/introducing-grouped-gemm-apis-in-cubla...

+1
-6
-1
Je komentář přínosný?

no dost to vypovida o cely kauze, o ktery se tu myslim nepsalo.. nscale zverejnila nejaky vysledky mi300x proti h100, kdy mi300x dopadla lip.. nVidie to rozporovala, ze prej nscale pouzila software neoptimalizovanej pro h100 a ze kdyby pouzila optimalizovanej pro h100 tak by byla podstatne rychlejsi nez mi300x.. nVidie ale v tichosti presla, ze nscale nepouzila optimalizovanej soft ani pro mi300x.. no a ted nscale temahle vysledkama ukazuje, ze mi300x s optimalizacema by byla rychlejsi nez vysledky h100 na optimalizovanym softu co predlozila nVidie..

+1
+14
-1
Je komentář přínosný?

to mi taky chyběly, abstolutní hodnoty jak si stojí, mi300 třeba i s optimalizacema byla horší než h100, ale asi je to teda obráceně, možná proto i do toho blackweelu tolik buší
ale chápu, že je tohle těžký nějak testovat a vyvozovat z toho nějaké zobecněné závěry

trochu mi to připomíná qnap vs synology, kdy jsem si koupil qnap kvůli lepšímu hw, ale pak zajistit synchronizaci fotek z telefonu není úplně easy oproti synology a tolik výkonu nepotřebuju jsem zjistil

+1
+1
-1
Je komentář přínosný?

"o čem to vypovídá, kromě toho že GEMM tuning umí optimalizovat kód?"

GEMM tuning pak laděním výkonu násobení matic prostřednictvím výběru vhodného (ideálně nejvhodnějšího) algoritmu (aby vyhovoval kombinaci kapacity paměti, cache a výpočetního výkonu) s kombinaci s vyladěním parametrů. Nejde tedy o optimalizace na úrovni kódu.
A ještě jednou... "Nejde tedy o optimalizace na úrovni kódu."

+1
+6
-1
Je komentář přínosný?

-

+1
-1
-1
Je komentář přínosný?

".. bylo nejčastěji dosahováno nárůstu výkonu blízkému trojnásobku .."

Prej jsou optimalizace zbytečná ztráta času.
Proč se s tím párat, když postačí pořídit trojnásobné množství HW, žeroucí trojnásobné množství energie.

+1
+4
-1
Je komentář přínosný?

1. lebo optimalizácia predražujú vývoj

2. Ak má nejaký produkt pod 30% trhu neoplatí sa na neho robiť optimalizácie.

To, že produkt, ktorý získa bez optimalizácií 30% trhu a začne sa na neho optimalizovať SW začne rásť masovo, to vieme

+1
0
-1
Je komentář přínosný?

Na optimalizacie casto staci i 1 clovek a dosiahnes kludne nasobky vykonu, niekedy i o jeden rad vyssi vykon ak to vyvojari predtym dodrbali.

+1
+4
-1
Je komentář přínosný?

nepopieram, ale ten jeden človek na optimalizácie má často 10-15x vyšší plat, ako tí, čo tvorili neoptimálny kód

+1
-1
-1
Je komentář přínosný?

Kdeze, ten neoptimalny kod casto pisu seniori s najvyssim platom. :)

+1
+3
-1
Je komentář přínosný?

Senior, čo sa učil kódovať na C64, Atari XL, PMD 85-II, ZX Spectrum rozhodne nebude písať neoptimálny kód....

+1
0
-1
Je komentář přínosný?

Tenhle senior je už v důchodu.

+1
+1
-1
Je komentář přínosný?

Nesuhlasim:
1. Dneska je senior kazdy kto ma 5r skusenosti a kodovat zacinal v 2012-2015.
2. I ked narazis na seniora ktory sa ucil na C64, Atari XL atd, tak to neznamena ze vie optimalizovat. Paragidmy sa vyrazne menili, vtedy sa optimalizovalo na instrukcie a latencie neboli problem. Dnes instrukcie nie su problem a optimalizuje sa na latencie a cache friendly algoritmy. Ten senior by sa musel naucit novym kuskom, nezalezi kedy zacinal.

+1
+4
-1
Je komentář přínosný?

Pro zajímavost, vyladěné S3 Virge měly frekvenci paměti nastavenu na stejnou jako "GPU" čip. Necachovala ani texely.

+1
0
-1
Je komentář přínosný?

Jj, to je ten problem, jednojadrovy vykon CPU/GPU sa za 30 rokov zvysil cca 100 nasobne, ale latencie pamati zostali zhruba rovnake. Zvysil sa len bandwidth.

+1
+4
-1
Je komentář přínosný?

Další příklad: Motorola 6800 používala prvních 256 bajtů RAM jako registry CPU.

+1
0
-1
Je komentář přínosný?

A na to jsi přišel jak?

+1
0
-1
Je komentář přínosný?

To nemusi byt pravda. Ja treba budu prepisovat optimalizovane kusy kodu z devadesatych let na neoptimalizovane. Duvodem je, aby se lepe a jednoduseji udrzovaly. Z uzivatelskeho hlediska je jedno, zda se to spocita za 0.001 s nebo 0.0012 s. Sice to je o 20% vic, ale uzivatel to v tomto pripade nepozna, kod vsak bude znatelne prehlednejsi, pripadne budouci upravy budou podstatne jednodussi, pravdepodobnost vzniku chyb podstatne nizsi a testovani mnohem jednodussi.

Dost jsem s tim mentalne bojoval, ale je rozumne v tomto pripade kod zjednodusit, zprehlednit i na ukor efektivity.

+1
0
-1
Je komentář přínosný?

To bude případ od případu...
BTW v cca 86. jsem jedno zpracování zkrátil z 4 šichet na jednu optimalizaci třídění dat, jinak vše ostatní zůstalo téměř nedotčené....

+1
0
-1
Je komentář přínosný?

Tak samozrejme, nekdy optimalizace cenu ma, treba v devadesatkach, kdyz natrenovani jednoduche neuronove site zabralo nekolik dnu (ted by totez na beznem pocitaci totez trvalo jen nekolik minut a s vyuzitim GPU nebo AI akceleratoru jeste mene), jindy casem prestava mit, protoze vykon CPU mezitim razantne stoupnul.

V mem pripade jde o nejake online vypocty. V minulosti slo o to, aby byl vypocet zobrazovanych dat do cca ctvrt/pul vteriny, aby se s tim pohodlne pracovalo. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl, co se pocitalo pul vteriny je ted spocitano za zlomecek milisekundy. Tak rychle to neni z uzivatelskeho hlediska potrebne. Drobne zpomaleni uzivatel ani nepozna a kod se podstatne zjednodusi.

+1
0
-1
Je komentář přínosný?

".. Za tech 30 let vykon pocitace stoupl cca 1000x, duvod pro optimalizace opadl .."

Jenom ten Word už pět minut "něco" dělá.

+1
+3
-1
Je komentář přínosný?

vacsinou sa neoplati srat s optimalizaciami prilis skoro vo vyvojovom cykle. proste sa to napise, zisti, kde to najviac drhne a tam sa to zoptimalizuje.

ak mam jednu cast kodu, ktora bola dana dohromady dajme tomu 5 mesiacov pred finalizaciou a ta mi konzumuje 25% casu, tak ak na tejto casti zrazim pri optimalizacii cas iba na polovicu, ziskam 12% zrychlenie.

ak ale po ceste najdem tri ine kusy kodu, ktore sa vo vysledku kazdy podielaju na vyslednom case 3% a zoptimalizujem ich o 90%, som na ~9% usetreneho casu.

kor ak tri optimalizacie vykonane pocas vyvoja zabrali rovnako vela casu ako jedna po spuseni a profilovani, tak som za rovnake naklady ziskal iba 2/3 zlepsenia.

no a preco na tom zalezi? ak tych X penazi investujem do zrychlenia o plnych 12%, tak mi to zaisti peniaze "navyse" (zalezi od biznis modelu) skor, nez keby som ziskal iba 2/3 zrychlenia. takze prva optimalizacia sa zaplati skor a moze zarobit aj na to, aby som urobil tie dalsie.

+1
+3
-1
Je komentář přínosný?

No ono když je čekačka na novou kartu rok, tak i 12 % znamená, že měsíční výpočet budeš mít o půl týdne dřív.

+1
+1
-1
Je komentář přínosný?

+9% je hezkých.
+12% je lepších.
O tom není sporu.

Premium ovšem píše o průměrných 330% (+ 230%).
Pokud to skombinujete se systémem, který hodlá použít těch akcelerátorů jeden milion ... tak i těch +9% by pokrylo náklady na několik lidí pro optimalizace.
Nehledě na tu drobnost, že už samotné rozchození systému s 1 000 000 výpočetních karet bude potřebovat slušný team. To není rig o osmi GPU težících doge coin.

+1
+3
-1
Je komentář přínosný?

Hyperscaleři běžně pracují na optimalizacích v jednotkách procent (např. Amazon a úprava PortgreSQL pro ARM). Ono se to pak nasčítá.

+1
0
-1
Je komentář přínosný?

nebo sony, kdyz ma o neco mene vykonejsi hw nez xbox
https://wccftech.com/heres-why-ps5-often-runs-games-better-than-the-alle...

+1
+3
-1
Je komentář přínosný?

Akože AMD je stále softvérovo pozadu ale aspoň to ukazuje, že získalo dostatok trhu aby sa začal softvér poriadne optimalizovať na ich hardvér.

+1
+3
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.