Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Pascal vypadá na Maxwell s podporou HBM a mixed precision

Jestli nezlepsi paralelismus u zpracovani shaderu, tak to pristi rok s nastupem Vulkanu a DX12 v XBoxu neokecaji. Pristi rok to asi bude docela mela, protoze nove GCN ma byt spis GCN 2.0 a obsahovat vetsi zmeny nez mezi dosavadnimi verzemi. Pokud bude Pascal vazne jen Maxwell + HBM + nove jednotky, tak muze mit nVidia docela problem.

+1
+14
-1
Je komentář přínosný?

neboj sa, marketing to obkeca

+1
+12
-1
Je komentář přínosný?

Problém mají už teď a jak kecají :))) DX12 benchmark je špatný, když neukazuje nVidia karty jako nejrychlejší! Hotovo! Teď jak dlouho to budou lidé žrát... :))))

+1
+5
-1
Je komentář přínosný?

Áno. Je fakt, že keď niečomu nerozumieš tak sa ti zdá, že iní kecajú. NV má s AS rovnaký problém ako AMD s teseláciou. Že konkurencia prepaľuje HW limity kariet len preto, lebo na strane pôvodcu to bude mať menšie dopady. A to ste tu všetci na NV kvôli tomu pri teselácii svorne nadávali. Myslím si, že to na redit fore bolo logicky vysvetlené. Asi sa ale nedá očakávať od ľudí čo v živote neprogramovali a o počítačovej grafike nič nevedia, že by to pochopili.

+1
-15
-1
Je komentář přínosný?

Hmm, tak teda porovnavat nefunkcny AS s vykonom v teselacii, to svedci o tom ze panko nie je prilis chytry. Teselacia funguje i u AMD, to ze NV predimenzovalo ich vykon aby mohli machrovat v benchmarkoch je vec ina.
Obvinovat navstevnikov diit ze neprogramovali a ze tomu nerozumeju? Tento web navstevuju daleko chytrejsi a skusenejsi programatori nez ty. Expert by si takuto poznamku nikdy nedovolil. Jedine maly fagan.

+1
+2
-1
Je komentář přínosný?

Nie som malý fagan. Mám 10 rokov skúseností s vývojom SW. Počítačovú grafiku som vyštudoval ako zameranie na mat-fyze. Síce v tom obore nepracujem ale ako hobby si programujem niečo v tomto smere pre seba. Učím sa tým moderné postupy aké sa dnes používajú. Aktuálne mám napríklad v pláne
dopracovať základné metódy pre dynamické tiene a ambient occlusion.
Ďalej nikde netvrdím, že všetci užívatelia tohto fóra tomu nerozumejú. Sú tu ale určité typy, ktoré o tom nemajú ani šajnu a je to cítiť. A to nie kvôli tomu, že so mnou nesúhlasia, ale tým čo píšu.
A teraz k problematike. Na reddit fóre NVIDie sa tomuto celkom venovali a aj logicky vysvetlili chovanie NV GPU pod benchmarkom z Beyond3D. A to je nasledovné. AMD aj Maxwell podporujú AS. Nie že je na Maxwell kartách nefunkčné. Problém pre NV karty je v tom, že sú v tomto smere slabšie pripravené. Architektúra Maxwellu je dimenzovaná tak, že podporuje optimálne 31 spracovávaných asynchrónnych operácií v jednom čase. Zatiaľčo GCN má optimálnu hranicu 64. Čím viac tieto hranice prekročíš, tým menší benefit vo výkone získaš. Až natrafíš na hranicu po ktorej je výkon menší ako keby sa tieto operácie spracovávali synchrónne. Neviem ako to bolo s benchmarkom Oxide a koľko asynchrónnych operácií do GPU posiela, ale v druhom benchmarku to tvorcovia prezradili. Bolo ich 128. Teda štvornásobne viac než aká je optimálna hranica Maxwellu. U AMD je to iba dvojnásobok a očividne ešte v množstve z ktorého vedia získať benefit v lepšom výkone oproti synchrónnemu spracovaniu. Dovolím si tvrdiť, že ak by poslali štvornásobok asynchrónnych operácií do AMD GPU (teda 256), mala by táto grafika tak isto ako Maxwell menší výkon ako pri synchrónnom spracovaní. Toto je samozrejme iba môj odhad a preto by som rád videl benchmark, v ktorom by bol počet asynchrónnych operácií konfigurovateľný. Vtedy by sme vedeli získať presnejší obraz o reálnom stave. Takto máme zatiaľ k dispozícii iba benchmarky, ktoré umelo prepaľujú počet odosielaných asynchrónnych operácií čo proste viac škodí grafikám NV, pretože v tomto smere sú očividne slabšie (ale nie nefunkčné). To je ako keby si mal k dispozícii iba benchmarky, ktoré podporujú iba extrémnu teseláciu, ktorá zabíja výkon AMD grafík a na ich základe by si tvrdil, že AMD nepodporuje teseláciu alebo že ju má nefunkčnú. Odtiaľ tá analógia s teseláciou.
Treba si uvedomiť, že tu hovoríme o HW možnostiach grafík, ktoré nijak neovplyvníš. Ale môžeš zneužiť tie, ktoré tvoje grafiky zvládajú lepšie. Viď čachre NVIDIe s teseláciou a teraz tieto jednostranné benchmarky prepaľujúce vysoko maximálne hranice grafík vo využívaní AS. Takýchto obmedzení má grafika viac. Napríklad ak si niekedy programoval grafiku a využíval si geometry shader, vedel by si, že má hranice v počte novovytvorených vertexov, ktoré sú jeho výstupom. Ak túto hranicu mierne prekročís, strácaš 50 percent jeho výkonu. Ak ju prekročíš viac, stratíš 100 a viac % a tým zabiješ celkový výkon karty.

"Teselacia funguje i u AMD, to ze NV predimenzovalo ich vykon aby mohli machrovat v benchmarkoch je vec ina."

No a teraz je to naopak. AMD má "predimenzovanú" podporu pre AS a teda môže tiež v benchmarkoch machrovať. Je to tá istá hra akú robí NVIDIA. Ja hovorím, že na konečné závery si je treba počkať až tu bude pár DX12 hier a podľa toho sa riadiť. To čo som vyššie napísal totižto tiež nie je písmo sväté, ale vychádzam aspoň z logiky veci a z mojich vlastných skúseností. Kdežto ľudia na ktorých som reagoval sú podľa toho ako píšu iba internetoví teoretici, ktorí majú potrebu si všetko vysvetliť tak, aby v tom NVIDIA vyšla zle. Zober si len takého Waffera47 nižšie. Vadí mu taká hlúposť ako značenie generácie grafík. Že bude niečo ako Pascal 1.0 a potom 2.0 a prvú generáciu Pascala vidí ako nedorobok alebo polovičnú prácu. Ale, že sme tu mali doteraz GCN 1.0, 1.1, 1.2 a 1.3 mu nejakým zázrakom nevadilo. A to hovoríme len o snáď najnepodstatnejšej veci ako je číslovanie. No čo si máš potom myslieť?

+1
+6
-1
Je komentář přínosný?

Ja sa tiez 10 rokov venujem vyvoju SW, medzi inym i grafike a vypoctom cez compute shadery, tak tu pridam i svoj nazor. Tiez som videl nejake benchmarky, kde do grafiky pustali 128-256 front/queues/paralelnych taskov a merali latencie. Ale takyto benchmark je podla mna uplne nepochopenie problematiky a ani s realnou hrou to nema nic spolocne. Realne ti staci 1 fronta na rendering a jedna na compute (kde sa moze pocitat osvetlenie, post efekty, fyzika). Viacero front uz prilis nema zmysel, lebo tolko nezavislych uloh ani nemas, a i keby si mal, tak tam uz prilis rastie zlozitost implementacie a vela vykonu i tak neziskas. Takze tu ani nezalezi kolko front grafika podporuje, ci 2, 32 alebo 64. Tu ide o to ci pri 2 frontach dokazes ziskat ten vykon navyse (v deme od AMD je to 46%). A tie 2 fronty sa uz s teselaciou porovnavat nedaju, to je uz uplne iny princip.

+1
+3
-1
Je komentář přínosný?

Porovnanie som robil iba na základe dopadov na výkon. Je mi jasné, že ide o 2 odlišné postupy, ktoré riešia každá úplne niečo odlišné. Čerpal som z tohto webu:

https://www.reddit.com/r/nvidia/comments/3j5e9b/analysis_async_compute_i...

Podľa mňa sa oplatí si to prečítať. V podstate si potvrdil hlavne to, že tie benchmarky sú odtrhnuté od reality. Zostáva nám naďalej čakať na reálne hry, kde by sa už mali AS používať optimálne. Ja sa ako hobyista dostanem k programovaniu AS až podstatne neskôr, ale určite si to vyskúšam.

+1
-2
-1
Je komentář přínosný?

Ten článek na redditu psal někdo, kdo naprosto vůbec neví, která bije a stal se už dávno terčem posměchu!!! Tady s ním operuje už snad jen Nest :)

1. MDolenc benchmark není ukazatelem žádného výkonu
2. Prokazuje pouze ten fakt, že grafiky Nvidia neumí paralelní práci compute/graphics. Nic víc a také nic míň.

Optimálně využívá AS právě AotS. V té alfa verzi benchmarku obsahovaly AS cca 20 % všech volání (batch). Ve finální verzi AotS jich prý bude až 50 % všech volání.

Jinak Maxwell obsahuje pouze 1 engine pro AS, který může zpracovávat až 32 front úloh (nebo 31 compute+ 1 graphics). AMD má 8 enginů (ACE) a každý může pracovat s 8 frontami úloh.

Context switch u GCN může být prováděn v každém cyklu GPU (v každém cyklu může CU pracovat na jiné úloze), kdežto context switch u Maxwellu je na úrovni "Draw call boundary", což znamená, že žádný switch nemůže být proveden do dokončení grafických operací.

Prostě a jednoduše řečeno, Maxwell není prakticky vůbec připraven na takovýto druh paralelizmu, kterým disponuje GCN.

+1
+11
-1
Je komentář přínosný?

Takže nešlo o to, že by bol Maxwell preťažený, ale že stále nevie paralelne spracovávať rendering a compute úlohy? Ani ak sa spracovávajú v 2 frontách (1 pre rendering a 1 pre compute) pretože ich obsluhuje iba 1 engine, ktorý je ešte k tomu obmedzený tým, že nemôže vykonať context switch ak práve rieši rendering? Tak to by nebolo moc dobré riešenie pre Maxwell.
Čo mňa v tomto prípade mätie je toto vyhlásenie:

What it does act as, though, is a fill rate test of multiple simultaneous kernels being processed by the graphics pipeline. And the 980 TI has double the effective fill rate with graphics+compute than the Fury X at 1-31 kernel operations.

Nevidel som ale tie výsledky, takže neviem posúdiť hodnovernosť tohto vyhlásenia. Takže má Maxwell rovnaký alebo menší výkon v async spracovávaní ako v sync aj vtedy keď nie je zaťažený nereálným počtom úloh a teda keď sa počet úloh drží vo vyššie spomínaných hraniciach? To, že je Maxwell horšie pripravený na tento typ spracovania úloh mi je jasné od začiatku. Len chcem prísť na to aké zlé to vlastne je. To čo spomínaš ty by bol asi najhorší možný prípad.

+1
-4
-1
Je komentář přínosný?

Současný stav věcí je takový, že Maxwell umí provádět asynchronně pouze compute shadery (32), pokud však přidáš ještě grafickou frontu (dojde na mix compute/grahics úloh), Maxwell se s tím už nevypořádá a provádí graphics a compute sériově. Toto je chyba ovladače, respektive jeho softwareového shedulingu (HyperQ). Nvidia tedy musí opravit (prakticky přepsat celý) softwareový sheduling ve svém driveru, aby tyto operace mohly být prováděny paralelně. Pokud se jí to podaří (a jde-li to vůbec), pak ještě nemá vyhráno, protože další problém je onen pomalý context switch a s tím už se nedá dělat vůbec nic. Je třeba se s tím smířit a i když bude driver opraven, při masivním použití AS na tom bude Maxwell vždy hůře než GCN (context switch per cycle).

MDolenc test není testem výkonu! Člověk, který ho psal nebral ohled na rozdílnou uarch GPU, ale to mu nelze zazlívat. GCN v tomto testu běží pouze ve 1/4 svého vytížení, protože tento test neplní celou šířku wavefront (64 threads). Pro GCN je optimálních plnění 256 threads (ony 4 CU napojené na L1$).

Nereálný počet AS je vždy rychlejším řešením, než ten samý nereálný počet shaderů, které jsou zpracovávány synchronně (sériově).

+1
+6
-1
Je komentář přínosný?

OK. Vďaka za objasnenie.

+1
+6
-1
Je komentář přínosný?

Není zač, rád pomohu (vím li), pokud samozřejmě vidím, že o to člověk jeví zájem a jenom netrollí :)

Takový souhrnný přehled najdeš zde:
http://www.overclock.net/t/1572716/directx-12-asynchronous-compute-an-ex...

+1
+9
-1
Je komentář přínosný?

To je pekny suhrn z PR prezentacii.

Takze mame potvrdene od NV ze Maxwell nema HW scheduler. NV pracuje na fixnuti SW scheduleru, ktory je navyse brzdeny context switchom. Pascal bude mat zrychleny context switch.

SW scheduler u Maxwella pracuje na urovni SMX blokov (snad to u Pascala fixnu, ale musia spravit i HW scheduler). U GCN dokaze jeden CU blok vykonavat viacero shaderov naraz, tj. jeden shader moze vyuzivat ALU kym druhy caka na data z globalnej pamate.

Takze ak su vsetky bloky vytazene (typicky shadery ktore trvaju dlho a spracuvaju velke mnozstvo dat), tak Maxwell nedosiahne ziaden narast vykonu ani po fixnuti driverov. GCN tam ziska vacsinu svojho narastu vykonu.

Ak nie su vytazene vsetky SMX bloky (typicky shadery ktore trvaju kratko a spracuvaju malo dat), tak SW scheduler ich po fixnuti dokaze vyuzit ale bude tam i penalizacia kvoli context switchu. U GCN sa to zase vyuzije efektivne.

Teraz budeme cakat na NV kym to fixne, ale je jasne ze asynchronne shadery u Maxwella nebudu zdaleka tak efektivne ako u GCN.

+1
+12
-1
Je komentář přínosný?

1+

+1
-4
-1
Je komentář přínosný?

Som rád za takto produktívnu diskusiu pri ktorej sa môžme dozvedieť nové informácie a niečo sa naučiť. Takáto by mohla byť väčšina.

+1
+10
-1
Je komentář přínosný?

1+

+1
-3
-1
Je komentář přínosný?

Konecne poradna odborna debata.
Otazka je, jeslti NVidia upravi architekturu Pascalu tak, aby to melo HW sheduler a dalsi vychytavky GNC, aby to asychnorrni fronty dokazalo zpracovavat skutecne efektivne (a bylo vyuzito co nejvic compute jednotek). Bojim se totiz, ze tak velkou zmenu nestihnou udelat, a bude to az nekde v naslednikovi Pascala.

No uvidime .... ja stejne furt nejsem rozhodnuty, na cem postavim nove PC. Posledni 3 grafiky jsem mel Nvidie (preditm samo ATI), a zvyknul jsem si na jejich ovladace a treba ShadowPlay. Ale zase me zklamal jejich pristup k Hairworks u posledniho Witchera (jak to natvrdo nastavili tak, ze kod dobre bezel az na Maxwell grafikach a vlastnici predchozi generace ostrouhali).

+1
+4
-1
Je komentář přínosný?

Ovladače u AMD nejsou na tom rozhodně tak špatně, jak někteří stále tvrdí. Okolo tohoto tématu existuje spousta povídaček hlavně od lidí, kteří poslední grafiku od ATI/AMD měli před mnoha lety. V současné době vlastním grafiky od obou výrobců a nepocítil jsem zásadní kvalitativní rozdíl. Problémy s ovladači se vyskytují u obou firem.
Jak se nyní ukazuje je AMD velmi dobře připraveno na DX12 a Vulkan. Obě API podporují Async shaders, které Radeonům přinášejí velmi slušný nárůst výkonu.

ShadowPlay taky problém není, když Radeony mají obdobnou funkci nazývanou GVR.
http://www.anandtech.com/show/8224/hands-on-with-amds-gaming-evolved-cli...

+1
-2
-1
Je komentář přínosný?

Treba u HP mobilnich pracovnich stanic existuje nekolik zpusobu, jak AMD ovladac schodit za vsech okolnosti - staci pripojit dva DisplayPort monitory (jine porty dokina nema). A vyndat a zandat notas do dokiny - a prask, modra smrt zpusobena AMD ovladacem grafiky vzdy a za vsech okolnosti.

Nerseitelne, nevi si s tim rady nikdo, zadne aktualizace nepomahaji. Ta chyba je tam uz rok a pul.

+1
-4
-1
Je komentář přínosný?

Od HP bych si docking station po osobních zkušenostech s několika výrobky této firmy určitě nekoupil. Tahle firma má vlastní úpravy HW a nezabývá se moc testováním.

Např. nedávno jsem měl v rukách starší čerstvě repasovaný sousedův notebook a podle data sheetu tam měla být grafika od Ati/AMD. Použil jsem oficiální utilitu pro update ovladačů a ta grafiku nedetekovala. Ručně jsem našel podle generace GPU nejaktuálnější ovladače, ale nešly nainstalovat, protože taky hlásily nepodporovanou grafiku. Až potom jsem našel na webu HP staré vyloženě "fosilní" ovladače, které snad dali na web v době vydání notebooku (víc se o aktualizace SW nestarali). Jedině tyto šly nainstalovat a nastavit nativní rozlišení apod. Prostě HP si dělá vlastní upravené verze HW a s testováním a i následovanou SW aktualizací si hlavu nelámou.

Jaké výrobky je HP schopno pustit na trh vypovídá třeba tato kauza...
https://www.youtube.com/watch?v=t4DT3tQqgRM
http://gizmodo.com/5431190/hp-face-tracking-webcams-dont-recognize-black...

+1
+2
-1
Je komentář přínosný?

S implicitnou konverziou u Witchera si uškodili akurát samy. Od začiatku mal byť Hairworls konfigurovateľný aspoň tak ako teraz a nikto by sa nemohol sťažovať. A viem si predstaviť aj väčší rozsah konfigurácie teselácie u Hairworks ako Low a High. Tiež to nemuseli obmedziť na minimum možností.

+1
+2
-1
Je komentář přínosný?

Nvidia se kupuje proto, že je to Nvidia. To by museli zdupat několik generací po sobě (a AMD by se musely naopak podařit), aby na to "široká veřejnost" zareagovala tak, aby měla Nvidia nějaký větší problém.

A když na to příjde, i ta Nvidia tak nějak ví, že majitel GTX 760 se do přechodu na GTX 960 nepohrne (viz vlask níže, že), s marketingem obvykle cílí na majitele karet o dvě generace starších. Předpokládám, že s Pascalem bude NV vysvětlovat majitelům sedmistovek, proč by měli upgradovat (a pro ně to už bude znatelný posun k lepšímu). A že by je AMD tlačilo do nějakého významného vylepšování, se taky bohužel říct nedá.

+1
+10
-1
Je komentář přínosný?

Já třeba kupuju Nvidii protože nemá takové problémy s drivery v Linuxu a má při stejném výkonu nižší spotřebu než AMD. A v práci do workstationů to samé. Tam jedeme kompletně na Linuxu.

Nicméně jako majitel GTX 650 Ti, kterou jsem tehdy koupil za asi 3500 Kč jsem teď přesně cílem marketingu od Nvidie abych upgradnul na GTX 950 za 5000 Kč. Kurz dolaru sice udělal hodně ale stejně.. Navíc si říkám, že když už upgrade tak bych šel rovnou do hi-endu. V tom případě mi nezbývá nic jiného než počkat na Pascal a pak se rozhodnout.

+1
-6
-1
Je komentář přínosný?

jj, souhlas, taky mam na praci linux a teda krome toho, ze potrebuju vykon do her, vzal bych urcite AMD kvuli lepsim cenam, potrebuju i kartu dobre fungujici v linuxu, navic taky koukam na spotrebu a nechci za grafiku moc utracet. NVidia ale nema vubec co nabidnout, protoze GF950 a GF960 jsou dost tragicke karty. Takze zbyva jedine koupit GF970, coz je skvela karta se super vykonem, nizkou spotrebou ale uz docela draha, aspon pro me dat desitku za grafiku je docela moc. Takze jako o eventualite uvazuju o R9 380 pripadne jestli vyjde, tak o R9 380X, ale hodne se bojim tech ovladacu v linuxu. :-/

+1
-1
-1
Je komentář přínosný?

Pascal proste prinese nativni podporu DirectX 12, tolik kecu u toho v NVIDII vydaji.

Se boji jako prase zabijecky kdyz zacnou nabehavat nativni DirectX12 hry, AS je pali u prdele.

Co sem si vsim zacali delit generace na pul-generace, alias prvni generace Maxwellu, druha generace Maxwellu a ted prvni generace Pascal, druha generace Pascal, to jako zakaznik si ma platit za pokusy NVIDIE dvakrat? a nebo dalsi nastupni "moderni" architekturu promyslene u NVIDIE rozdeli umele na 2 samostatne rady/produkty a zakazniku plat jako vul? no dost to smrdi. Nedivim se u teto spolecnosti vubec.

+1
+14
-1
Je komentář přínosný?

Hned mě napadla odpověď... prodá se tím víc karet, protože bude potřeba častější upgrade.

+1
+4
-1
Je komentář přínosný?

Což by mohla být i odpověď na otázku, proč nVidia prodáva víc než AMD.

+1
+16
-1
Je komentář přínosný?

Tak porad lepsi nez inovovat akorat powertune, vis co mam na mysli.... ;)

+1
-5
-1
Je komentář přínosný?

Zákazník neplatí za generace ale za výkon. Teda alespoň ten co má rozum. Jestli kupuješ každou novou generaci, tak jses buď blbec co neví co s penězma, nebo profík s 3 monitorama co potřebuje nejnadupanější stroj pod sluncem.
Mám stále ještě GTX 660 a v dohledné době to nevypadá na upgrade. Na jeden monitor to zatím v poho stačí, DX12 je mi u zadnice a ještě dlouho bude (i vzhledem k tomu bombastickému počtu dostupných her a omezení na win10) a nové generace mainstream čipů přinášející max 5/10 procent výkonu opravdu neoslní.
Takže nechápu co někoho může nutit platit za půlgenerace nvidie, amd nebo intelu......

+1
+12
-1
Je komentář přínosný?

660 jsem kupoval v roce 2012 za 4800,-. Mám dva monitory, ale když hraju, tak jen na jednoum FullHD a pořád stačí. Od té doby je to v podstatě stagnace. Upgrade bude až na novém výrobním procesu a s plnou podporou DX12. Do té doby to skutečně nemá smysl.

+1
-6
-1
Je komentář přínosný?

U grafik se dá výkon nahnat hlavně navýšením počtu tranzistorů. Kdysi se běžně stávalo, že se u jedné generace karet protočily dva, někdy i tři výrobní procesy během 2–3 let.

Momentálně jsme ve fázi, kdy na jednom výrobním procesu trčíme čtvrtým rokem.

Kde by tak asi mohl být hlavní problém.

+1
+13
-1
Je komentář přínosný?

Hlavni problem je v tom, ze se sice tocime na tom samem vyrobnim procesu, ale ten proces na kterem se toci Nvidia a AMD poslednich X let neni ten samy, Nvidia ma ten proces vyrazne vyspelejsi.

Vysledkem toho je, ze Radeony 2xx se reklamuji jak na bezicim pasu, protoze se proste upecou a uvidime jak se tech 30-40% tepla navic proti Nvidii projevi u rady 3xx.

+1
+2
-1
Je komentář přínosný?

K tomu AS som ti už písal pod iným článkom ale ty proste potrebuješ zrejme kvôli osobnému kľudu vidieť NV iba v tom najhoršom svetle. Čo sa týka generácií Pascalov, čo je potom GCN 1.0, GCN 1.1, 1.2 a 1.3? Nebude to to isté? Nevšimol som si, že by si sa niekedy sťažoval.

+1
+5
-1
Je komentář přínosný?

V celych cislech se ty generace pocitaly snad naposled u Riva TNT a TNT2 :-)

+1
+3
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.