Diskuse k Jak je to se zdvojnásobením FP32 jednotek u Ampere

Mali | 4. 9. 2020 - 13:29

Hmm... hadam ze by slo z pozice planovace seradit ukoly tak, aby v jednom cykly bezeli jen FP32 operace (a tedy 128 na SMblock) a v druhem cykly zaradit zbyvajici INT tak aby bezeli 1:1 s FP. Prakticky by se tim dlouhodobe dokazal drzet pomer (FP)3:1(INT), coz je vcelku blizko tomu co tu bylo prezentovano jako prumer (jestli si pamatuju spravne) 5:2.

Peca | 5. 9. 2020 - 04:45

Souhlasím. Já to pochopil tak, že omezení se týká jedné jednotky, ne celého čipu zaroven. Těch SIMD jednotek jsou na každém čipu desítky takže na jedné části může běžet jablko a na jiné hrušky - paralelně - tedy otázka software.

Pjetro de | 4. 9. 2020 - 13:57

je absolutnym hriechom mat na cipe fyzicke pritomne rozne druhy vypoctovch jednotiek a nemoct ich vyuzivat naraz lebo "datove cesty"

z cpu sveta vidme 32C64T TR2 2900WX, kde existovali scenare, kde bol vykon rovnaky alebo dokonca nizsi ako u 16C32T TR 2950X

mittar | 4. 9. 2020 - 15:39

tam to ale byl jiny problem ... dva cipy nemely primy pristup k pameti a tak to tahaly pres ty dva co mely a vznikalo zpozdeni

no-X | 4. 9. 2020 - 16:31

Int jednotky by měly být velmi nenáročné na počet tranzistorů. Je možné, že by řízení a datové cesty navíc stály na více křemíku než samotné jednotky, kdo ví. Nvidia příliš sdílná není, ale to neznamená, že by inženýři nevěděli, co dělají.

Lazar | 4. 9. 2020 - 21:21

Pokud máte na mysli nižší výkon 2990WX ve Windows proti Linuxu u masivně multi-thread aplikací, tak tam snad nebyl bootleneckem přístup do paměti (při podobných úlohách trpěl stejným syndromem i octa-channel Epyc), ale architektuře CPU nesedící schedulling Windows.
https://bitsum.com/portfolio/coreprio/

skaven | 4. 9. 2020 - 14:18

OT
zacina sa teasovat nove NAVI :)
https://videocardz.com/newz/amd-radeon-rx-6000-big-navi-teased-in-fornit...

Peter Fodrek | 4. 9. 2020 - 16:31

hlavne v ovládačoch sa pridávajú prefromance veci
https://www.phoronix.com/scan.php?page=news_item&px=AMDGPU-Linux-5.10-First

a je to pomerne skoro
Linux 5.9-rc3 Is A "Pretty Calm" Release
30 August 2020
https://www.phoronix.com/scan.php?page=news_item&px=Linux-5.9-rc3-Released

to znamená 6.9.2020 5.9rc4
13.9.2020 5.9rc5
20.9.2020 5.9rc6 (do vtedy musia byť poslané všetky zmeny pre grafiky do 5.10)
27.9.2020 5.9rc7
a v ideálnom prípade
4.10.2020 5.10 a začiatok začleňoaceiho okna pre 5.10

Navi 2 potrebuje na out of box

"Navi 2" GPUs expected to launch soon. As it stands now Linux 5.9 + Mesa 20.2 (and LLVM 11.0)"

s Mesa problém nebude

Mesa 20.2 Aiming For Release Next Week As Big Advancement For Open-Source GPU Drivers
on 3 September 2020
So if all goes well, Mesa 20.2.0 will debut on 10 September.
https://www.phoronix.com/scan.php?page=news_item&px=Mesa-20.2-RC4-Released

dúfajme, že aj LLVM11

LLVM 11.0-RC2 Released For This Widely-Used, Open-Source Compiler Stack
on 21 August 2020
LLVM 11.0 has been running behind schedule for their release plans, but they hope to be able to ship in the coming weeks for LLVM 11.0 and the associated sub-projects like Clang 11.0.
https://www.phoronix.com/scan.php?page=news_item&px=LLVM-11.0-RC2-Released

Dan8 | 4. 9. 2020 - 18:30

Poor Ampere :D

mp07 | 4. 9. 2020 - 14:24

Když na Pascalu a spol. provádějí FP32 jednotky Int32 operace, jsou při tom nějak výrazně pomalejší než Ampérácké Int32 jednotky? Protože pokud ne, pak mi přijde celkem zbytečné tam ty Int32 jednotky - byť malé - vůbec mít.

Edit: I když teď mě napadá, že ty specializované Int32 asi budou méně žravé než FP32 v režimu Int32, pak by dávaly smysl.

Kert | 4. 9. 2020 - 14:58

Si to zkuste na papíře. Poděl Int32 třeba 2 a to samé pak zkuste na FP32. Nehledě na to, že Int32 je celkem přesné číslo a pokud se nepletu o 2 řády větší než FP32.

tomo | 4. 9. 2020 - 16:29

Co to? :-) Zaprve - by me zajimalo jak definujes "presnost cisla" u INT, tedy celociselnych hodnot?
Dale: signed INT32 sezere maximalne 2^31-1 tedy 2.147483647 × 10^9 a maximum pro FP32 3.4028235 × 10^38 takze jsi se tak nak spletl o 29 radu. To se jen tak nekomu nepodari ;-)
No a konecne- to tvoje srovnani s vypoctem na papire je mimo. Zcela.

l0rdh4d3s (neověřeno) | 4. 9. 2020 - 17:15

Mylis si presnost a rozsah. FP32 dokaze bez zaokruhlenia ulozit maximalne (2^24), tj. 16,777,216. To je trochu menej ako 2,147,483,647 pre INT32, o 2 rady.

shipo | 5. 9. 2020 - 00:13

INT jsou celočíselnou povahou přesná čísla. 1+2=3 (a ne něco málo nad ~3)

Gath G | 5. 9. 2020 - 03:38

Pokud sečtete 1.0 a 2.0 a vyjde vám něco málo nad 3, tak máte rozbitou FPU. Součet 1.0 a 2.0 bude zaručeně přesný.

shipo | 5. 9. 2020 - 09:41

Nesmím sčítat 1+2 desetiny (pod desetinou čárkou):
0.1 + 0.2 = 0.30000000000000004

Gath G | 5. 9. 2020 - 13:42

Vy jste ale psal "1+2", ne "0.1+0.2". Logicky nemohu reagovat na věci, které si jen myslíte, ale nepíšete, nejsem totiž telepat. Příště raději pište napoprvé správně. To, co jsem psal já, stále platí beze změny.

(Kromě toho tady ten problém není v tom, že by ten součet byl nepřesný - problém v tomto případě je v tom, že 0.1 je číslo nereprezentovatelné v binárních FP formátech pevné délky, takže už od začátku sčítáte jiná čísla, než si myslíte.)

IT Joker | 5. 9. 2020 - 11:30

Nicméně relativně donedávna nVidia FP32 jednotky na celočíselné výpočty používala.
Takže problém zjevně není v tom, že by to nešlo.

Gath G | 4. 9. 2020 - 23:29

U prvního posunu všechny bity doprava o jednu pozici, případně zduplikuji nejvyšší bit. U druhého odečtu jedničku od exponentu. Tady to nevypadá na zásadní rozdíl ve složitosti; asi to chce lepší příklad.

tomo | 4. 9. 2020 - 14:38

To ale prinasi dve dalsi otazky: 1) jak rychle se umi SM prepnout z jednoho rezimu do druheho? Pokud hodne rychle, tak nemusi byt vubec zadny problem. 2) Bude schopen driver rozlozit praci tak, aby vetsina SM jela na 2xFP a jen cast v kombinovanem rezimu?

Hrdina | 4. 9. 2020 - 15:26

Normální člověk by čekal, že pokud je typická zátěž něčeho 2,5:1, tak udělám hardware v tom poměru a nebudu si komplikovat život (čas). Ale ne, vymyslíme hranaté kolo, protože těžba a ML?

IT Joker | 4. 9. 2020 - 19:20

Chybí mi tam dílek skládačky:
- Dřív se všechno (vč. Int32) počítalo jen přes FP32 jednotky.
- Pak se přidaly Int32, protože jsou jednodušší.
- Teď se k těm Int32 přidala další sada FP32, ale použít jde jen jedno z toho.

K čemu tam pak ty Int32 jednotky vůbec jsou?
Že spotřebují málo křemíku není důvod, když tam k nim stejně je sada FP32 jednotek.

Napadají mě jen dvě možnosti: Buď Int32 výpočty jsou na Int32 jednotkách mnohem rychlejší než na FP32, takže se z toho fakticky staly Int32 akcelerátory.
Nebo ty FP32 jednotky jsou nějakým způsobem zjednodušené a už na nich nejdou dělat Int32 výpočty (ale to mi nepřijde moc pravděpodobné).

spidsta | 4. 9. 2020 - 23:22

Tiez ma zaujima, ci je v Ampere teraz mozne naraz Int32+Int32

l0rdh4d3s (neověřeno) | 5. 9. 2020 - 01:24

Podla Nvidie bolo v hrach na kazdych 100 FP32 instrukcii 36 INT32 instrukcii. Tak do Turingu pridali extra INT32 jednotku, ktora fungovala paralelne a tym mali zvysit vykon o 36%. Podla nakresu je INT32 jednotka 2x mensia ako FP32 jednotka. https://hexus.net/tech/reviews/graphics/122045-nvidia-turing-architectur...
FP32 jednotky boli pravdepodobne tiez zjednodusene a uz asi nedokazu vykonavat INT32. Ono by to nemalo zmysel. Vypocty su rovnako rychle u FP32 i INT32 a to 1 cyklus na instrukciu.

Napr. RDNA1 ma stale len 1 jednotku ktora dokaze vykonavat jednu FP32 alebo jednu INT32, rovnako ako Pascal. Ale podla computerbase ma RDNA1 o 1% vyssie IPC ako Turing a o 13% vyssie ako Pascal. Znamena to ze samostatna INT32 jednotka pridala Turingu len o 12% vyssie IPC nez mal Pascal? Zaujimave. https://www.computerbase.de/2019-07/radeon-rx-5700-xt-test/4/#abschnitt_...

IT Joker | 5. 9. 2020 - 12:05

„Tak do Turingu pridali extra INT32 jednotku, ktora fungovala paralelne a tym mali zvysit vykon o 36%. Podla nakresu je INT32 jednotka 2x mensia ako FP32 jednotka.“

Ano, to je i v článku; Int32 jednotka je jednodušší a tím menší, ale nevyplývá z toho, že by Int32 výpočty zvládla rychleji.
Výkon se navýší už prostě tím, že je těch jednotek víc (prostě např. 100 FP32 + 100 Int32 jednotek logicky dá vyšší výkon než jen 100 FP32 jednotek i pokud ty jednotky budou všechny stejně rychlé, dokonce i kdyby Int32 jednotky byly o něco pomalejší).

„FP32 jednotky boli pravdepodobne tiez zjednodusene a uz asi nedokazu vykonavat INT32.“

Na to jsem se právě ptal. Akorát mě právě zajímá něco konkrétnějšího než domněnky.

„Vypocty su rovnako rychle u FP32 i INT32 a to 1 cyklus na instrukciu.“

To se mi nezdá (že by to tak muselo být). Teoreticky by operace v pevné čárce měly být podstatně rychlejší než operace v plovoucí čárce.

l0rdh4d3s (neověřeno) | 5. 9. 2020 - 15:12

"To se mi nezdá (že by to tak muselo být). Teoreticky by operace v pevné čárce měly být podstatně rychlejší než operace v plovoucí čárce."
No az FP32 operacia trva 1 Hz z tych 1.7GHz, tak INT32 operacia nemoze byt rychlejsia, ked su rovnako taktovane.

Gath G | 5. 9. 2020 - 17:01

"trva 1 Hz"

To jako že se za sekundu provede jedna? ;)

(A na taktu opravdu nemusí záležet; rychlost těch operací je definovaná jejich latencemi.)

l0rdh4d3s (neověřeno) | 5. 9. 2020 - 17:02

Ano trva to 1s az to pan vytrhne z kontextu. :)

Gath G | 5. 9. 2020 - 17:51

Z jakého kontextu? 1 Hz je frekvence něčeho, co trvá jednu sekundu.

l0rdh4d3s (neověřeno) | 5. 9. 2020 - 17:58

"1 Hz z tych 1.7GHz" v tom kontexte neznamena 1 Hz ako fyzikalnu jednotku, ale ako 1 kus z velkeho celku. Podobne ako 1 svina z velkeho stada divych svin.

Gath G | 5. 9. 2020 - 18:22

Jenže s převrácenými hodnotami takhle manipulovat nemůžete, to prostě nedává smysl.

pg | 8. 9. 2020 - 02:18

Pán chtěl zřejmě říct "1 takt", ale nemohl si vzpomenout na správný termín. ;)

IT Joker | 7. 9. 2020 - 09:57

„No az FP32 operacia trva 1 Hz z tych 1.7GHz, tak INT32 operacia nemoze byt rychlejsia, ked su rovnako taktovane.“

A na to jste přišel jak?
Když odhlédneme od toho Hz (viz výše), podle mě není pravda, že se zpracuje jedna FP instrukce za takt.
Viděl jsem nějaký nVidia návod na optimalizaci programů, podle kterého to jednak je méně a jednak různé FP instrukce trvají různě dlouho.

Txy | 6. 9. 2020 - 21:04

Rychlost se asi moc nezvýší, spíš efektivita. Jestli to vyváží nárůst spotřeby křemíku si musí zvážit výrobce.

mike | 4. 9. 2020 - 21:06

Mezitím... AMD začalo prodávat nový hardware na trénování... ne AI, ale fyzi(č)ky - https://www.tomshardware.com/news/from-big-navi-to-big-wheels-amd-sells-... ;)

Pajka | 5. 9. 2020 - 20:31

proč jako?

l0rdh4d3s (neověřeno) | 4. 9. 2020 - 22:15

Povodne sme mali 1 FP32 + 1 INT32 a teraz mame 2 operacie.
Ak je idealny pomer 2,5:1, tak Maxwell mal limit u FP32 a vykonanie urcitej skupiny operacii trvalo 2,5 cyklov. U Ampere trva rovnaky kod 3,5/2=1,75 cyklov. Z toho mozeme urcit ze zrychlenie SM je 2,5/1,75 = 1,428 krat. Ak Nvidia oficialne udava 2x vacsi pocet SM, tak mozme povedat ze vykon na SM klesol na 1,428/2 = 0,714. Ak ma 3080 29,8 TFlops a 2080 len 10,07 Tflops, tak 3080 je teoreticky rychlejsia 29,8 * 0,714 / 10,07 = 2,11 krat. A ma v prepocte 21.27 Maxwelovskych TFlops.

solomon-short | 4. 9. 2020 - 22:22

tvl, tady je to rudy jak u voleb v osmactyricatym

Vazeni soudruzi, nVidia zatim predstavila jen papirove vysledky, realny prinos se uvidi po recenzich. AMD nepredstavila ani ty papirove vysledky, tam je to velke spatne nezname - ale to je u jejich GPU sekce normalni.

Ponauceni? Vyvarujte se zaveru, zatim o tom vsichni vime hovno.

Tom Buri | 4. 9. 2020 - 23:13

hele, jedno zivotni ponauceni.. kdyz v patek vecer prides domu nametenej z hospody, neni dobry psat moudra na net.. v tu chvili se mozna cejtis jak king, ale budes za kokota.. to ti ale dojde az druhej den kdyz vystrizlivis a docvakne ti, ze diskuse s clankem jsou o necem upe jinym nez tvuj post.. ((:

rathanuviel | 5. 9. 2020 - 10:02

Ten pán evidentně nečetl ani jeden post z této diskuze.

Jabba | 5. 9. 2020 - 10:15

Tuto pravdu život vskutku přináší - ale nejdřív si to každý otestuje, než jí pochopí ;)

Jabba | 5. 9. 2020 - 10:14

Blbě řečeno, leč pokud bylo myšleno "Počkejme na reálné testy/recenze a pak se uvidí...", tak bych souhlasil. Nadšení vidím všude, exaktní výsledky (zatím) ne. Ale napsal jsi to blbě a to ani nevím, koho jsi v tom roce 1948 volil ;)))))))

TyNyT | 6. 9. 2020 - 08:16

Přesně tak, šlo to napsat bez urážek, pak bych s tím neměl žádný problém.

Jabba | 5. 9. 2020 - 10:08

Off topic - ty nový grafiky se prostě využijou ať si "škarohlídi" plácají co chtějí. Je se na co těšit :)
https://www.czc.cz/geek/zaklinac-3-vyjde-ve-vylepsene-verzi-majitele-sta...

Peca | 5. 9. 2020 - 10:34

Awww <3

TyNyT | 6. 9. 2020 - 08:17

nemají to všichni už dávno dohráno? :-) Tohle byl druhdy poměrně častý argument...

Pajka | 6. 9. 2020 - 20:32

já třeba ještě nehrál :)

Swordfish | 7. 9. 2020 - 09:14

Já to třeba hrál v roce vydání, což už je drahně let (rok 2015 jak jsem teď zjistil). A když se mě teď zeptáš, o čem je tam příběh, tak ti to neřeknu. Když uvidím nějakou lokaci, tak si třeba vzpomenu, že tam později dojde k pořádnému souboji s nějakou příšerou, ale to je tak všechno.

Ta nová "vylepšená" verze má být zdarma pro všechny, co už tu hru vlastní, takže by nemuselo být špatné střihnout si jí znova.

Jabba | 7. 9. 2020 - 15:36

Hlavní děj je o ničem - dá se shrnout do jednoho slova (POZOR SPOILER)
...
Ciri... To zajímavé tam jsou ty "vedlejší" příběhy a jejich vliv na svět...

Jabba | 7. 9. 2020 - 15:26

Chápu tvoje "dloubnutí" ;) ba i ten argument. Leč tady se jedná o RPG a ty hraje specifický typ hráčů a ta dobrá, velká (jak rozsahem - otevřený svět, tak i kvalitou se dají hrát mnohokrát). Ani nevím, kolikrát jsem dohrál Fallouty, Baldurs Gaty, Gothicky, Elders Scrolly, Mass Effecty... A konkrétně Zaklínače 1 a 2 mám obehrané tak, že už je znovu (zatím) hrát netoužím, ale trojku jsem dohrál jen jednou a ani zdaleka jsem neviděl ani půlku toho, co hra nabízí. Proč bych si to tedy časem nedal znovu, navíc ve vylepšené edici zdarma? ;)

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.

Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Jak je to se zdvojnásobením FP32 jednotek u Ampere

Komerční sdělení

CDR Hry

Epic rozdává zdarma dvě hry, které potěší hráče simulátorů a akčních her

Návrat z Měsíce na hraně přežití. Artemis 2 čeká nejnebezpečnější fáze mise

Přelom z laboratoře: Tento důležitý prvek mohl spustit vznik života na Zemi

Google AI odpovídá rychle, ale každá desátá odpověď může být špatně

Neviditelný útok přes WiFi: Ruští hackeři kradli hesla přímo z routerů

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT