Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Jak je to se zdvojnásobením FP32 jednotek u Ampere

Hmm... hadam ze by slo z pozice planovace seradit ukoly tak, aby v jednom cykly bezeli jen FP32 operace (a tedy 128 na SMblock) a v druhem cykly zaradit zbyvajici INT tak aby bezeli 1:1 s FP. Prakticky by se tim dlouhodobe dokazal drzet pomer (FP)3:1(INT), coz je vcelku blizko tomu co tu bylo prezentovano jako prumer (jestli si pamatuju spravne) 5:2.

+1
0
-1
Je komentář přínosný?

Souhlasím. Já to pochopil tak, že omezení se týká jedné jednotky, ne celého čipu zaroven. Těch SIMD jednotek jsou na každém čipu desítky takže na jedné části může běžet jablko a na jiné hrušky - paralelně - tedy otázka software.

+1
0
-1
Je komentář přínosný?

je absolutnym hriechom mat na cipe fyzicke pritomne rozne druhy vypoctovch jednotiek a nemoct ich vyuzivat naraz lebo "datove cesty"

z cpu sveta vidme 32C64T TR2 2900WX, kde existovali scenare, kde bol vykon rovnaky alebo dokonca nizsi ako u 16C32T TR 2950X

+1
-2
-1
Je komentář přínosný?

tam to ale byl jiny problem ... dva cipy nemely primy pristup k pameti a tak to tahaly pres ty dva co mely a vznikalo zpozdeni

+1
+5
-1
Je komentář přínosný?

Int jednotky by měly být velmi nenáročné na počet tranzistorů. Je možné, že by řízení a datové cesty navíc stály na více křemíku než samotné jednotky, kdo ví. Nvidia příliš sdílná není, ale to neznamená, že by inženýři nevěděli, co dělají.

+1
+1
-1
Je komentář přínosný?

Pokud máte na mysli nižší výkon 2990WX ve Windows proti Linuxu u masivně multi-thread aplikací, tak tam snad nebyl bootleneckem přístup do paměti (při podobných úlohách trpěl stejným syndromem i octa-channel Epyc), ale architektuře CPU nesedící schedulling Windows.
https://bitsum.com/portfolio/coreprio/

+1
+2
-1
Je komentář přínosný?
+1
-1
-1
Je komentář přínosný?

hlavne v ovládačoch sa pridávajú prefromance veci
https://www.phoronix.com/scan.php?page=news_item&px=AMDGPU-Linux-5.10-First

a je to pomerne skoro
Linux 5.9-rc3 Is A "Pretty Calm" Release
30 August 2020
https://www.phoronix.com/scan.php?page=news_item&px=Linux-5.9-rc3-Released

to znamená 6.9.2020 5.9rc4
13.9.2020 5.9rc5
20.9.2020 5.9rc6 (do vtedy musia byť poslané všetky zmeny pre grafiky do 5.10)
27.9.2020 5.9rc7
a v ideálnom prípade
4.10.2020 5.10 a začiatok začleňoaceiho okna pre 5.10

Navi 2 potrebuje na out of box

"Navi 2" GPUs expected to launch soon. As it stands now Linux 5.9 + Mesa 20.2 (and LLVM 11.0)"

s Mesa problém nebude

Mesa 20.2 Aiming For Release Next Week As Big Advancement For Open-Source GPU Drivers
on 3 September 2020
So if all goes well, Mesa 20.2.0 will debut on 10 September.
https://www.phoronix.com/scan.php?page=news_item&px=Mesa-20.2-RC4-Released

dúfajme, že aj LLVM11

LLVM 11.0-RC2 Released For This Widely-Used, Open-Source Compiler Stack
on 21 August 2020
LLVM 11.0 has been running behind schedule for their release plans, but they hope to be able to ship in the coming weeks for LLVM 11.0 and the associated sub-projects like Clang 11.0.
https://www.phoronix.com/scan.php?page=news_item&px=LLVM-11.0-RC2-Released

+1
0
-1
Je komentář přínosný?

Poor Ampere :D

+1
-2
-1
Je komentář přínosný?

Když na Pascalu a spol. provádějí FP32 jednotky Int32 operace, jsou při tom nějak výrazně pomalejší než Ampérácké Int32 jednotky? Protože pokud ne, pak mi přijde celkem zbytečné tam ty Int32 jednotky - byť malé - vůbec mít.

Edit: I když teď mě napadá, že ty specializované Int32 asi budou méně žravé než FP32 v režimu Int32, pak by dávaly smysl.

+1
0
-1
Je komentář přínosný?

Si to zkuste na papíře. Poděl Int32 třeba 2 a to samé pak zkuste na FP32. Nehledě na to, že Int32 je celkem přesné číslo a pokud se nepletu o 2 řády větší než FP32.

+1
0
-1
Je komentář přínosný?

Co to? :-) Zaprve - by me zajimalo jak definujes "presnost cisla" u INT, tedy celociselnych hodnot?
Dale: signed INT32 sezere maximalne 2^31-1 tedy 2.147483647 × 10^9 a maximum pro FP32 3.4028235 × 10^38 takze jsi se tak nak spletl o 29 radu. To se jen tak nekomu nepodari ;-)
No a konecne- to tvoje srovnani s vypoctem na papire je mimo. Zcela.

+1
0
-1
Je komentář přínosný?

Mylis si presnost a rozsah. FP32 dokaze bez zaokruhlenia ulozit maximalne (2^24), tj. 16,777,216. To je trochu menej ako 2,147,483,647 pre INT32, o 2 rady.

+1
+1
-1
Je komentář přínosný?

INT jsou celočíselnou povahou přesná čísla. 1+2=3 (a ne něco málo nad ~3)

+1
0
-1
Je komentář přínosný?

Pokud sečtete 1.0 a 2.0 a vyjde vám něco málo nad 3, tak máte rozbitou FPU. Součet 1.0 a 2.0 bude zaručeně přesný.

+1
-2
-1
Je komentář přínosný?

Nesmím sčítat 1+2 desetiny (pod desetinou čárkou):
0.1 + 0.2 = 0.30000000000000004

+1
+3
-1
Je komentář přínosný?

Vy jste ale psal "1+2", ne "0.1+0.2". Logicky nemohu reagovat na věci, které si jen myslíte, ale nepíšete, nejsem totiž telepat. Příště raději pište napoprvé správně. To, co jsem psal já, stále platí beze změny.

(Kromě toho tady ten problém není v tom, že by ten součet byl nepřesný - problém v tomto případě je v tom, že 0.1 je číslo nereprezentovatelné v binárních FP formátech pevné délky, takže už od začátku sčítáte jiná čísla, než si myslíte.)

+1
+1
-1
Je komentář přínosný?

Nicméně relativně donedávna nVidia FP32 jednotky na celočíselné výpočty používala.
Takže problém zjevně není v tom, že by to nešlo.

+1
0
-1
Je komentář přínosný?

U prvního posunu všechny bity doprava o jednu pozici, případně zduplikuji nejvyšší bit. U druhého odečtu jedničku od exponentu. Tady to nevypadá na zásadní rozdíl ve složitosti; asi to chce lepší příklad.

+1
0
-1
Je komentář přínosný?

To ale prinasi dve dalsi otazky: 1) jak rychle se umi SM prepnout z jednoho rezimu do druheho? Pokud hodne rychle, tak nemusi byt vubec zadny problem. 2) Bude schopen driver rozlozit praci tak, aby vetsina SM jela na 2xFP a jen cast v kombinovanem rezimu?

+1
-3
-1
Je komentář přínosný?

Normální člověk by čekal, že pokud je typická zátěž něčeho 2,5:1, tak udělám hardware v tom poměru a nebudu si komplikovat život (čas). Ale ne, vymyslíme hranaté kolo, protože těžba a ML?

+1
0
-1
Je komentář přínosný?

Chybí mi tam dílek skládačky:
- Dřív se všechno (vč. Int32) počítalo jen přes FP32 jednotky.
- Pak se přidaly Int32, protože jsou jednodušší.
- Teď se k těm Int32 přidala další sada FP32, ale použít jde jen jedno z toho.

K čemu tam pak ty Int32 jednotky vůbec jsou?
Že spotřebují málo křemíku není důvod, když tam k nim stejně je sada FP32 jednotek.

Napadají mě jen dvě možnosti: Buď Int32 výpočty jsou na Int32 jednotkách mnohem rychlejší než na FP32, takže se z toho fakticky staly Int32 akcelerátory.
Nebo ty FP32 jednotky jsou nějakým způsobem zjednodušené a už na nich nejdou dělat Int32 výpočty (ale to mi nepřijde moc pravděpodobné).

+1
+6
-1
Je komentář přínosný?

Tiez ma zaujima, ci je v Ampere teraz mozne naraz Int32+Int32

+1
0
-1
Je komentář přínosný?

Podla Nvidie bolo v hrach na kazdych 100 FP32 instrukcii 36 INT32 instrukcii. Tak do Turingu pridali extra INT32 jednotku, ktora fungovala paralelne a tym mali zvysit vykon o 36%. Podla nakresu je INT32 jednotka 2x mensia ako FP32 jednotka. https://hexus.net/tech/reviews/graphics/122045-nvidia-turing-architectur...
FP32 jednotky boli pravdepodobne tiez zjednodusene a uz asi nedokazu vykonavat INT32. Ono by to nemalo zmysel. Vypocty su rovnako rychle u FP32 i INT32 a to 1 cyklus na instrukciu.

Napr. RDNA1 ma stale len 1 jednotku ktora dokaze vykonavat jednu FP32 alebo jednu INT32, rovnako ako Pascal. Ale podla computerbase ma RDNA1 o 1% vyssie IPC ako Turing a o 13% vyssie ako Pascal. Znamena to ze samostatna INT32 jednotka pridala Turingu len o 12% vyssie IPC nez mal Pascal? Zaujimave. https://www.computerbase.de/2019-07/radeon-rx-5700-xt-test/4/#abschnitt_...

+1
+4
-1
Je komentář přínosný?

„Tak do Turingu pridali extra INT32 jednotku, ktora fungovala paralelne a tym mali zvysit vykon o 36%. Podla nakresu je INT32 jednotka 2x mensia ako FP32 jednotka.“

Ano, to je i v článku; Int32 jednotka je jednodušší a tím menší, ale nevyplývá z toho, že by Int32 výpočty zvládla rychleji.
Výkon se navýší už prostě tím, že je těch jednotek víc (prostě např. 100 FP32 + 100 Int32 jednotek logicky dá vyšší výkon než jen 100 FP32 jednotek i pokud ty jednotky budou všechny stejně rychlé, dokonce i kdyby Int32 jednotky byly o něco pomalejší).

„FP32 jednotky boli pravdepodobne tiez zjednodusene a uz asi nedokazu vykonavat INT32.“

Na to jsem se právě ptal. Akorát mě právě zajímá něco konkrétnějšího než domněnky.

„Vypocty su rovnako rychle u FP32 i INT32 a to 1 cyklus na instrukciu.“

To se mi nezdá (že by to tak muselo být). Teoreticky by operace v pevné čárce měly být podstatně rychlejší než operace v plovoucí čárce.

+1
0
-1
Je komentář přínosný?

"To se mi nezdá (že by to tak muselo být). Teoreticky by operace v pevné čárce měly být podstatně rychlejší než operace v plovoucí čárce."
No az FP32 operacia trva 1 Hz z tych 1.7GHz, tak INT32 operacia nemoze byt rychlejsia, ked su rovnako taktovane.

+1
0
-1
Je komentář přínosný?

"trva 1 Hz"

To jako že se za sekundu provede jedna? ;)

(A na taktu opravdu nemusí záležet; rychlost těch operací je definovaná jejich latencemi.)

+1
0
-1
Je komentář přínosný?

Ano trva to 1s az to pan vytrhne z kontextu. :)

+1
0
-1
Je komentář přínosný?

Z jakého kontextu? 1 Hz je frekvence něčeho, co trvá jednu sekundu.

+1
0
-1
Je komentář přínosný?

"1 Hz z tych 1.7GHz" v tom kontexte neznamena 1 Hz ako fyzikalnu jednotku, ale ako 1 kus z velkeho celku. Podobne ako 1 svina z velkeho stada divych svin.

+1
0
-1
Je komentář přínosný?

Jenže s převrácenými hodnotami takhle manipulovat nemůžete, to prostě nedává smysl.

+1
+2
-1
Je komentář přínosný?

Pán chtěl zřejmě říct "1 takt", ale nemohl si vzpomenout na správný termín. ;)

+1
0
-1
Je komentář přínosný?

„No az FP32 operacia trva 1 Hz z tych 1.7GHz, tak INT32 operacia nemoze byt rychlejsia, ked su rovnako taktovane.“

A na to jste přišel jak?
Když odhlédneme od toho Hz (viz výše), podle mě není pravda, že se zpracuje jedna FP instrukce za takt.
Viděl jsem nějaký nVidia návod na optimalizaci programů, podle kterého to jednak je méně a jednak různé FP instrukce trvají různě dlouho.

+1
0
-1
Je komentář přínosný?

Rychlost se asi moc nezvýší, spíš efektivita. Jestli to vyváží nárůst spotřeby křemíku si musí zvážit výrobce.

+1
0
-1
Je komentář přínosný?

Mezitím... AMD začalo prodávat nový hardware na trénování... ne AI, ale fyzi(č)ky - https://www.tomshardware.com/news/from-big-navi-to-big-wheels-amd-sells-... ;)

+1
+3
-1
Je komentář přínosný?

proč jako?

+1
0
-1
Je komentář přínosný?

Povodne sme mali 1 FP32 + 1 INT32 a teraz mame 2 operacie.
Ak je idealny pomer 2,5:1, tak Maxwell mal limit u FP32 a vykonanie urcitej skupiny operacii trvalo 2,5 cyklov. U Ampere trva rovnaky kod 3,5/2=1,75 cyklov. Z toho mozeme urcit ze zrychlenie SM je 2,5/1,75 = 1,428 krat. Ak Nvidia oficialne udava 2x vacsi pocet SM, tak mozme povedat ze vykon na SM klesol na 1,428/2 = 0,714. Ak ma 3080 29,8 TFlops a 2080 len 10,07 Tflops, tak 3080 je teoreticky rychlejsia 29,8 * 0,714 / 10,07 = 2,11 krat. A ma v prepocte 21.27 Maxwelovskych TFlops.

+1
+2
-1
Je komentář přínosný?

tvl, tady je to rudy jak u voleb v osmactyricatym

Vazeni soudruzi, nVidia zatim predstavila jen papirove vysledky, realny prinos se uvidi po recenzich. AMD nepredstavila ani ty papirove vysledky, tam je to velke spatne nezname - ale to je u jejich GPU sekce normalni.

Ponauceni? Vyvarujte se zaveru, zatim o tom vsichni vime hovno.

+1
-8
-1
Je komentář přínosný?

hele, jedno zivotni ponauceni.. kdyz v patek vecer prides domu nametenej z hospody, neni dobry psat moudra na net.. v tu chvili se mozna cejtis jak king, ale budes za kokota.. to ti ale dojde az druhej den kdyz vystrizlivis a docvakne ti, ze diskuse s clankem jsou o necem upe jinym nez tvuj post.. ((:

+1
+10
-1
Je komentář přínosný?

Ten pán evidentně nečetl ani jeden post z této diskuze.

+1
+1
-1
Je komentář přínosný?

Tuto pravdu život vskutku přináší - ale nejdřív si to každý otestuje, než jí pochopí ;)

+1
+2
-1
Je komentář přínosný?

Blbě řečeno, leč pokud bylo myšleno "Počkejme na reálné testy/recenze a pak se uvidí...", tak bych souhlasil. Nadšení vidím všude, exaktní výsledky (zatím) ne. Ale napsal jsi to blbě a to ani nevím, koho jsi v tom roce 1948 volil ;)))))))

+1
+1
-1
Je komentář přínosný?

Přesně tak, šlo to napsat bez urážek, pak bych s tím neměl žádný problém.

+1
0
-1
Je komentář přínosný?

Off topic - ty nový grafiky se prostě využijou ať si "škarohlídi" plácají co chtějí. Je se na co těšit :)
https://www.czc.cz/geek/zaklinac-3-vyjde-ve-vylepsene-verzi-majitele-sta...

+1
+1
-1
Je komentář přínosný?

Awww <3

+1
0
-1
Je komentář přínosný?

nemají to všichni už dávno dohráno? :-) Tohle byl druhdy poměrně častý argument...

+1
-3
-1
Je komentář přínosný?

já třeba ještě nehrál :)

+1
+3
-1
Je komentář přínosný?

Já to třeba hrál v roce vydání, což už je drahně let (rok 2015 jak jsem teď zjistil). A když se mě teď zeptáš, o čem je tam příběh, tak ti to neřeknu. Když uvidím nějakou lokaci, tak si třeba vzpomenu, že tam později dojde k pořádnému souboji s nějakou příšerou, ale to je tak všechno.

Ta nová "vylepšená" verze má být zdarma pro všechny, co už tu hru vlastní, takže by nemuselo být špatné střihnout si jí znova.

+1
0
-1
Je komentář přínosný?

Hlavní děj je o ničem - dá se shrnout do jednoho slova (POZOR SPOILER)
...
Ciri... To zajímavé tam jsou ty "vedlejší" příběhy a jejich vliv na svět...

+1
0
-1
Je komentář přínosný?

Chápu tvoje "dloubnutí" ;) ba i ten argument. Leč tady se jedná o RPG a ty hraje specifický typ hráčů a ta dobrá, velká (jak rozsahem - otevřený svět, tak i kvalitou se dají hrát mnohokrát). Ani nevím, kolikrát jsem dohrál Fallouty, Baldurs Gaty, Gothicky, Elders Scrolly, Mass Effecty... A konkrétně Zaklínače 1 a 2 mám obehrané tak, že už je znovu (zatím) hrát netoužím, ale trojku jsem dohrál jen jednou a ani zdaleka jsem neviděl ani půlku toho, co hra nabízí. Proč bych si to tedy časem nedal znovu, navíc ve vylepšené edici zdarma? ;)

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.