Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k AMD si registrovala Infinity Cache

> která by umožnila jádru vybavenému kombinace 256bit sběrnice a GDDR6 pamětí (což je už u současné generace mainstreamová konfigurace) dosáhnout high-endového výkonu.

Problem je, ze cache neni zadnej magickej vselek. Smysl ma jenom kdyz se vam "working dataset" vejde do cache. Coz se mi zrovna u GPU nezda - ze by se v dnesnich hrach data pro jeden frame vesly do 128M/256M cache ? nebo je tam nejaky subset ktery se pouziva tak casto a vejde se do takove pameti ? s OpenGL jsem delal, ale ne s grafikou na tak nizke urovni, vi nekdo jak to opravdu je ? Nicmene predpokladam ze inzenyri v AMD si umi zmerit efekt te cache, kdyby nemela smysl tak ji tam nedaji.

+1
+2
-1
Je komentář přínosný?

Ono to nelze moc dobře hodnotit, dokud není jasné, jak a k čemu bude ta cache využívaná. Může to být jeden z pracovních/operačních bufferů pro celý snímek, může to být více bufferů a snímek být rozdělen na dlaždice odpovídající velikosti cache, může to fungovat úplně jinak…

+1
+4
-1
Je komentář přínosný?

No třeba pro ray tracing by ten dataset nemusel být tak velký ;).

+1
0
-1
Je komentář přínosný?

kdo nekdy neco renderoval na hardwarove urovni (treba embedded), tak vzdy resil frame buffer. Idealni je mit 2 nebo 3 aby se neprepisovala stejne oblast pameti. UHD = 3840 x 2160 x 32 bit / 8bity = 33MB na snimek. Triple buffer je pak 100 MB. Muze to znamenat citelne zrychleni (az desitky procent) kvuli odstraneni latenci.
Jsem zvedavy na vysledek.

+1
+4
-1
Je komentář přínosný?

Cache nemá moc smysl pro frame-buffer front, ty už jsou (z hlediska datových přenosů) malé a mohou být ukládány do VRAM, ale spíš operační buffery při vykreslování, kde dochází k intenzivních datovým přenosům, přepisům.

+1
+3
-1
Je komentář přínosný?

A čo tak celý 8k frame v Red Green Blue Transparency formáte

7680*4320*4/1024/1024 =126.5625 MiB na v 8k 32bit farby s presvtnosťou bez kompresie

Velká Navi prý ponese 128MiB Inifinity Cache
14. 9. 2020
https://diit.cz/clanek/velka-navi-pry-ponese-128mb-inifinity-cache

A teda ako cache na výstup operácií by to stačilo.

+1
0
-1
Je komentář přínosný?

Muze byt. Jde o terminologii a technickou presnost. "Predrenderovana" data jsou pomoci ROPs "zmixovana" do vysledneho snimku. Tyto "predrenderovana" data ma smysl drzet v cache, protoze jsou ty operace rychle a tech dat je skutecne hodne. To muze byt a davam vam za pravdu.

Je dulezite uvedomit si, ze pokud se pripravuji ("predrendruji") casti obrazu nekde (shader units, atp.) a pak se presouvaji do finalniho bufferu, tak to opet znamena zatez datove sbernice a to i v pripade DMA prenosu. 33MB x 60 Hz = 2GB/s, ktere vytezuji sbernici jen touto operaci. Neni to majorita, ale staci si predstavit, ze v ramci pripravy obrazu prijdou na radu dalsi nasledne operace, kdy kazda znamena take presun dat o velikosti framebufferu. Tahat vse do pameti, jadra a zpet do cache je zatizeno latencemi a rizenim operaci.
Stare reseni jako treba 3Dfx Vodoo2 melo pamet rozdelenou na 2 bloky. Framebuffer (4MB) a textury (4 nebo 8MB). To umoznovalo rychle pracovat s adresnim prostorem a to i na ASIC reseni jako je graficky chip. Tehdy ale byly latence pameti nizke a efekt byl podobny jako u cache. To bylo dano limitaci hardwaru/mnozstvim tranzistoru v chipu.

Jak o tom vic a vic premyslim, tak bych hadal, ze to bude asi neco mezi. Budou to buffer bloky (treba 1/4 obrazovky aby se to tam veslo i se vsema operacema) + standardni operacni, ale velka cache.

Kazdopadne jsem zvedavy, jak a jestli to bude popsane.

+1
+1
-1
Je komentář přínosný?

2 GB za sekundu jsou docela nic, když karta má 512 GB/s paměťovou propustnost. Ta cache bude spíše rozházená po čipu, nebo minimálně se tak bude tvářit, bude velmi blízko skutečným výpočtům, jinými slovy blízko L1 keší. Tzn. nevěřím, že to bude jen připlácnutá L3 cache, ale spíše abnormálně velká L2. Využívat se bude - navíc oproti tradičnímu všemu, co souvisí s rasterizací a výpočty -, resp. její přítomnost je i důsledkem implementace RT. Proto se bude jmenovat Infinity, protože rychlost světla je svým způsobem nekonečná. Pokud tam bude... ;)

A jak čtu níže, ano, čiplety. Ale né, že by si to nějak zkoušeli zbytečně, ale výpočetní karty mohou skládat z těchto velikostně přepapaných čipletů a vypálit nVidii rybník v kategorii A6000+. Pokud tam bude... ;)

+1
0
-1
Je komentář přínosný?

2 GB/s je skutecne malo, ale bavime se tady, ze se dava do kupy nekolik zdroju a kazdy potrebuje tuto rychlost. ROP vysledny obraz sklada z ruznych zdroju a kazdy potrebuje 2GB/s. Kdyz se daji dohromady jednotlive mapy, textury, odrazy a korekce, tak se muzeme bavit klidne o 20 ruznych zdrojich, ktere vysledny obraz konstruuji. Tim padem se to uz poscita.
Dalsi veci je, ze sbernice se pouziva i pro nacitani textur a dat + dalsi operace, ktere zpusobi vytizeni. ROP jednotka si pak musi pockat na volnou sbernici a dojde ke spozdenim --> poklesu vykonu.

Rozhodne souhlasim s L2 pristupem. L1 ne, protoze ta se takrka vzdy pouziva na instrukce a vypocetni data. L1 zustane zrejme klasicka.

Dobra diskuze i presto, ze se jen snazime odhadnout realne reseni. Treba se vsichni pleteme a rad se podivam, jak bude ta implementace a vyuziti nakonec provedeno. Treba je to jen velka L2 cache bez hlubsiho zameru. Kdo vi.

+1
0
-1
Je komentář přínosný?

No možná i ta fotka je CDNA věc, pak by ta cache vůbec nesouvisela s Navi 2x a šlo by jen o čiplety a Fabric. Nevíme. A zpátky na začátek a k článku, pokud 256bit sběrnice, i tak by nějakou "tupou" L3 potřebovali... už bych opakoval řečené. Nevíme vůbec nic, jj.

+1
0
-1
Je komentář přínosný?

spekuluje se že těch 128MB bude možná součet různých cache z více míst/úrovní. Pak by to vlastně nic zas tak extra nebylo, protože když sečteme třeba to,co má Nvidia tak se dostaneme tuším na 80-90MB. Na druhou stranu pokud to má skutečně boostovat ty "pomalé" 256-bit GDDR6, tak to bude možná aj cosi dedikovaného a nepůjde o součet - nevíme

+1
+1
-1
Je komentář přínosný?

tady to bude hodně závislé na implementaci/driverech, algoritmech atd. Tzn. může to dopadnout jakkoliv od "malý přínos" až po "naprosto skvělé + budoucí trend pro všechna GPU". Podívejte se jak žerou GDDR6X

+1
0
-1
Je komentář přínosný?

No prave. Pokud bych treba mel shader ktery potrebuje nahodny pristup k celemu snimku, aby spocital nejakou hodnotu pro kazdy pixel, tak jedina moznost je pustit ho na cely snimek, a az kdyz skonci pustit dalsi fazi (shader) - v kteremzto pripade se mi nezda ze by nejaka cache moc pomahala. Pokud tomu dobre rozumim, tak ten prinos hodne zavisi hlavne na "uzivatelich" tj hrach a programech ktere pouzivaji GPU.

+1
0
-1
Je komentář přínosný?

RDNA2 by mělo být čistě herní GPU, na výpočty je ARCTURUS a CDNA. Pokud bude RDNA2 herně skvělá a výpočetně naprosto mizerná, tak to bude vadit asi tolika lidem jako je těch, co kupují 3090 do SLI na productivity aplikace

+1
+1
-1
Je komentář přínosný?

Třeba je správně 3. možnost s tím, že název Infinity Cache nebude vůbec využit pro RDNA2, ale třeba pro CDNA nebo v souvislosti s Infinity Fabric.
To by tedy byla spíš kombinace možností 2 a 3 ;)

+1
0
-1
Je komentář přínosný?

anebo se to dá chápat tak, že vzhledem k tomu, že RDNA3 již bude chipletové, tak velkou cache budou potřebovat a jak lépe si ji předtím "vyzkoušet" než ještě na monolitu?

+1
+1
-1
Je komentář přínosný?

Mě to po Infinity Fabric celkem dávalo smysl. Navíc pokud výrobci grafik myslí vážně že začnou být grafiky chipletové, dává smysl si začít "ošahávat" možnosti bufferů mezi chiplety.

+1
+4
-1
Je komentář přínosný?

Pokud ma AMD "pouze" 256bit a GDDR6, tak tezko muze konkurovat vykonu RTX3080-3090. Pokud si teda na NVidii veri, museli vymyslet nejakou "obchcavku" a teda by Infinity cache davala smysl.

+1
-6
-1
Je komentář přínosný?

No, pokud ta velká Navi pojede na avizovaných 2,2 GHz, tak to taky bude něco znamenat.

+1
0
-1
Je komentář přínosný?

Tak 256bit maji uz na RX 5700, a predpokladam ze nejsou uplni idioti a je jim jasne ze GPU s 2x tolik CU (a pry vyssi frekvenci) potrebuje i mnohem vetsi pametovou propustnost. Nejak to vyresene byt musi - bud tou cache, nebo proste bude sirsi sbernice a ty dosavadni "leaky" o 256bit sbernici byly zvasty.

+1
0
-1
Je komentář přínosný?

To jsou neuvěřitelná moudra ::facepalm::

+1
+1
-1
Je komentář přínosný?

asi tak. Tam na tom inženýři dělají roky a určitě mají nějaká měření, jinak by to nepustili na masovou výrobu a tady už místní jouda ví předem, že to nefunguje :-D, stejně tak by věděl že to bude zaručeně fungovat kdyby s tím přišla Nvidia

+1
0
-1
Je komentář přínosný?

Ja myslim, ze jenom uplnej debil komentuje neco co necetl. Ovsem pokud jsi to cetl a jenom nechapes, pak sorry, ale nemohu za tve dlouhe vedeni.
P.S. Pisu pravy opak nez co tu komentujes. :-D

+1
0
-1
Je komentář přínosný?

Ale může a velmi snadno - protože NVidia šla universální cestou jako AMD VEGA, zatímco AMD bude mít NAVI a ARCTURUS. Takže max 80 CU bloků NAVI a 120 CU blouků CRCTURUS. A na to NVidia nemá žádnou odpověď.

+1
0
-1
Je komentář přínosný?

Systém cache není blbuvzdorný - musí se ladit. Snad to AMD vymyslí přelomově - blbuvzdorně. Scénář, kdy by to bylo u velkého jádra levnější než 384 bit sběrnice je nereálný.

+1
0
-1
Je komentář přínosný?

ta možnost že to nebude fungovat dostatečně dobře tu je. Na druhou stranu nemají jinou možnost než do toho jít když RDNA3 již plánují čipletově.
Nové výrobní procesy nabíhají stále pomaleji a monolit nelze zvětšovat donekonečna a hnát ho ad absurdum takty - myslím že RTX3080/3090 již dostatečně předvedla, jak narážíme na tyto limity. Přístí rok ještě mohou předvést něco většího s TSMC, pak možná ještě něco dalšího na 5nm, pak už ale budou na další die-shrink čekat roky, nehledě na to, že tou dobou taková karta bude v podání NV stát asi 100 tisíc a žrát tak kW.

NV již musí na svém čipletovém designu pracovat, protože jestli ne, tak skončí jak Intel

+1
0
-1
Je komentář přínosný?

Větší chip bude ARCTURUS 120 CU bloků - 7 680 shaderů

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.