Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k Aldebaran / Instinct MI200: historicky první GPU s >100 miliardami tranzistorů

Rozmyslam nad tym, ze preco sa viac nepouzivaju FPGA ale stale robia taketo GPGPU chipy s pevnym pomerom medzi roznymi vypoctovymi jednotkami ako FP32, FP64, BF16, matrix/tensor a pod. V roznych grafoch vidno FPGA vykonostne aj spotrebou blizko GPGPU. Vyhoda FPGA je v moznosti vytvorit si image chipu na mieru pre konkretny job a ten spravit efektivne. Napr. ked chcem trenovat neuronku tak by sa hodilo chip napakovat BF16. Ked chcem robit fyzikalne vypocty tak napakujem chip FP64. V superpocitaci kde je x1000 nodov by sa dalo vyhradit par nodov pre konkretny job, loadnut akceleratorom patricny image chipu a efektivne spracovat job.
Cena FPGA je sice vyssia, ale keby sa zacali masovejsie pouzivat v superpocitacoch, serveroch, pracovnych staniciach, tak si myslym, ze by sa cena mohla dostat napr. na cenu vykonneho GPGPU. A co sa tyka vyvoja imagov pre chipy, tento svet by sa s rozsirenim FPGA tiez adekvatne rozvinul. Firmy, univerzity aj open-source komunita by pripravili nejake portfolio imagov specializovane na rozne ucely (AI, fyzika, audio/video, ...).
Osobne do tejto sfery az tak nevidim. Mohol by to tu niekto priblizit ?

+1
0
-1
Je komentář přínosný?

FPGA je univerzální a programovatelné, ale kvůli tomu v porovnání s jednoúčelovým čipem potřebuje na jednotku výkonu citelně větší plochu křemíku (a minimálně kvůli tomu se cena z principu nemůže srovnat s jednoúčelovými čipy). Možná dokáže konkurovat střední třídě, ale jednoúčelovým high-end řešením které jedou na limitu výrobní technologie FPGA nedokáže konkurovat ani náhodou. FPGA jsou tu už dlouho a za tu dobu se už celkem spolehlivě zjistilo kde je má smysl používat a kde ne.

+1
+2
-1
Je komentář přínosný?

Skor som myslel porovnanie s GPGPU lebo tie niesu jednoucelove specialky ako ASIC cipy. Tym, ze je v GPGPU pevne rozdeleny pomer medzi roznymi typmi vypoctovych jednotiek, tak pri konkretnom jobe velka cast chipu idluje, co je fakticky tiez zbytocny kremik navyse. Prakticky asi malo uloh vie vyuzit vsetky typy jednotiek naplno.

+1
+1
-1
Je komentář přínosný?

> konkretnom jobe velka cast chipu idluje,

To je 100% pravda. Zapominas ale na fakt, ze velka cast chipu idlovat MUSI. Realita je uz davno takova, ze sice lze vyrobit chip s miliardou tranzistoru, ale v kazdem taktu jich muze prepnout jen jista cast z celkoveho poctu. Kdybys je zkusil prepnout vsechny, tak ti to vygeneruje kilowatty tepla a cele se to roztavi. Pro dalsi info: https://en.wikipedia.org/wiki/Dark_silicon

> Skor som myslel porovnanie s GPGPU

Porovnani ti vyjde nastejno, FPGA proste na ASIC v 99.9% pripadu nemaji sanci, i kdyz je ten ASIC GPGPU. Jedina moznost kde FPGA ma smysl, teda krome prototypingu, jsou ulohy tak specialni ze GPGPU je na nich extremne neefektivni.

Dam priklad: predstav si ze mas klasicke GPGPU s 16/32/64bit FP jednotkami, ale ty potrebujes akcelerovat neuronove site, a rekneme ze ti na tu sit staci 4bit integer. Nebo i 2bit. Ano, takove site existuji... No a v tom pripadu muze byt FPGA efektivnejsi, protoze si na FPGA muzes udelat treba 4096bit vektor z 2bit cisel, a poustet na tom SIMD kod. Kdezto GPGPU by muselo pocitat 2/4bit cisla s 16+bit jednotkami. Kdybys ale potreboval poustet beznej 16/32/64bit FP "vypocetni" kod, tak na 99.9% bude FPGA pomalejsi (a mit horsi pomer vykon/teplo) nez GPGPU.

+1
0
-1
Je komentář přínosný?

>muze byt FPGA efektivnejsi, protoze si na FPGA muzes udelat treba 4096bit vektor z 2bit cisel, a
>poustet na tom SIMD kod

prečo SIMD? FPGA má výkodu najviav pri MIMD implementácii. V SIMD je GPGPU pomerne silné, tak ako je CPU silné v MISD a hlavne SISD.

+1
+2
-1
Je komentář přínosný?

> FPGA má výkodu najviav pri MIMD implementácii

To je detail, do ktereho jsem se nepoustel. Jasne mohl bys udelat SIMD, MIMD, nebo se rovnou vykaslat na koncept instrukci a celej algoritmus napsat primo ve VHDL / Verilogu. Xilinx ma na tohle tooly (Vivado HLx se to jmenovalo pred par lety, nevim co maji ted).

Kazdopadne to nic nemeni na vysledku - FPGA na FP16/32/64 kodu nejsou rychlejsi ani efektivnejsi nez GPGPU.

+1
-1
-1
Je komentář přínosný?

FPGA je s velikosti cipu cca na urovni GPU, pripadne pri stacked reseni o hodne vetsi - a taky to trpi na omezeni spotreby kvuli uchladitelnosti. Nekde jsem videl priklad pro obvod s ~10mld transistorama, ktery lze provozovat kolem 200-250 W, ale pokud by se to nataktovalo a zaplnilo spravne cely, tak to topi cca 500-600W a to se nesmi. S vodnim chlazenim se da dostat cca do 250-300W urovne. Holt crypto je svine :)

Jako druhy (vykonovy) problem bych videl frekvence, na FPGA mame porad jen < 1 GHz, kdezto na GPU jsme dnes kolem 2 GHz.

+1
+2
-1
Je komentář přínosný?

100% souhlas.

Jednak jsou dnes chipy limitovany hlavne teplem, jednak to GPGPU se stejnym teplem provede mnohem vic prace, pak frekvence... a nakonec, tech logickych prvku mate i ve velkem FPGA hodne malo (v porovnani s tim co lze mit v plosne podobnem GPGPU).

Kdyby bylo FPGA ve "beznych" 16/32/64bit floating-point vypoctech rychlejsi / efektivnejsi / lepsi nez GPGPU, tak uz se davno ty FPGA misto GPGPU pouzivaji v HPC segmentu. AMD / Nvidia / Xilinx / Altera nejsou totalni idioti. Realita je ale takova ze FPGA v tomhle proste neni lepsi.

+1
0
-1
Je komentář přínosný?

Potom by ale mohlo stacit FPGA mensich rozmerov, ktore ma menej transistorov a ktore by malo adekvatnu spotrebu, ktora by sa dala uchladit. Mohlo by to byt efektivnejsie na spotrebu kreminku, ako pocitat s tym, ze polka chipu bude idlovat.

+1
+1
-1
Je komentář přínosný?

Pretože, aby bolo FPGA maximálne výhodné je treba urobiť image z každej linkovanej binárky (v CP\M DOS/Windows kóde COM/EXE súbory) jeden image online pri spustení resp. minimálne pri každej inštalácii SW a dynamicky linkovaných knižníc. A na to neboli dosť výkonné CPU.

+1
0
-1
Je komentář přínosný?

Preco by si robil image z kazdej linkovanej binarky ?
Na akceleratore sa nespusta vseobecny kod ako na cpu. Vacsinou je to speci kod pre CUDA/OpenCL/nejake TPU a pod., ktory nepouziva vseobecne libky zo systemu. Robi len nejaku specialnu narocnu cast vypoctu, ktora je nakodena aj pre akcelerator.

+1
0
-1
Je komentář přínosný?

Viete si predstaviť volania OS FPGA s dĺžkou 1 takt (ak to nie je operácia s diskom) pri frekvencii 1GHz. Krásna predstava. V prípade aplikácií detto.

+1
0
-1
Je komentář přínosný?

wtf? ani GPU se takto nepouziva

+1
-1
-1
Je komentář přínosný?

I kdyz mnoho aplikaci ma predkompilovany shader, tak se dnes spis pouziva mezi-jazyk a pak kompilace na finalni architekturu GPU. Tohle zabere milisekundy.

Oproti tomu je kompilace pro FPGA (PnR - Place and Route) omnoho narocnejsi proces a trva hodiny az dny, pokud by se mel zaplnit kazdej roh - a jeste optimalne :)

Takze smysl dava jenom distribuce pred-kompilovanych akceleratoru - viz Apple se svym fpga boardem v Mac Pro - Afterburner.

+1
+1
-1
Je komentář přínosný?

Ano, take nieco som mal na mysli. Predpripravit rozne varianty imagov pre konkretny FPGA chip s roznym zameranim napr. pre AI s vacsinou BF16 jednotiek, pre fyziku s vacsinou FP64 jednotiek a pod.

+1
-1
-1
Je komentář přínosný?

Tohle delalo Microsoft - vygoogli si Project BrainWave.

Mam tu kartu, je tam "custom" fpga s jinym nez beznym oznacenim - ale zda se ze pouzili to nejvetsi co bylo k mani a nechteli kazit klasicky fpga biznis s neskutecnymi marzemi. Cena tech cipu je mezi $4K az $40K tj. podobne sileny rozsah jako u GPU akceleratoru co umi rychle FP64.

+1
0
-1
Je komentář přínosný?

>Oproti tomu je kompilace pro FPGA (PnR - Place and Route) omnoho narocnejsi proces a trva hodiny
>az dny

a nepíšem náhodou to isté?

> resp. minimálne pri každej inštalácii SW a dynamicky linkovaných knižníc. A na to neboli dosť
>výkonné CPU.

+1
+2
-1
Je komentář přínosný?

Uz je tomu 2 roky co v 2019 apple uvedl novej mac pro s FPGA kartou - Afterburner. Lze to pouzivat na akceleraci videa (ProRes, RedCode).

Jinak trh s FPGA akceleratory taky existuje - at uz samotne FPGA, nebo ve spojeni se sitarinou, pripadne tensorovyma srajdama. Problem bude ze do toho nevidis.. ale reknu ti - ze to existuje a je to bezny - ve sfere, kde jsou schopni to zaplatit, protoze jim to neco usetri. Coz nikdy domaci uzivatel nebude, protoze ten se spokoji s cimkoliv podradnym (at uz je to QLC, TN nebo sizene potraviny) - hlavne at to je levny.

+1
0
-1
Je komentář přínosný?

Ano, tu ich FPGA kartu som si vsimol a aj prave kvoli nej sa zamyslam nad FPGA. Vyzera, ze sa im oplatilo nasadit FPGA a vyrobit pre nho image pre ich konkretny ucel. Podla uvah v ostatnych komentaroch by teoreticky do MacPro mohli osadit dalsie GPGPU, ktore by cez CUDA/OpenCL akcelerovalo ProRes.

+1
-1
-1
Je komentář přínosný?

A co bys potreboval akcelerovat?

Momentalni stav je takovej.. ze je uzke hrdlo spise v PCIe, takze se pres tu kartu nedaj prilis tocit velka data (z druhe strany neni problem mit napr. 4x100GbE).

Akcelerace videa je specificka, protoze zdroj/cil (pro encode/decode) je vetsinou gpu buffer pro nasledne zpracovani v softu pro editaci videa.. takze mit kodek na GPU prinasi usporu ve smeru potrebne konektivity.

+1
0
-1
Je komentář přínosný?

Neviem presne co to ich FPGA dokaze. Pri editacii videa sa akceleruje dekodovanie, enkodovanie ale hlavne aplikacia roznych filtrov a efektov a ich realtime preview vo vysokom rozliseni (napr. Adobe Premiere to vie cez CUDA na GPGPU).

+1
-1
-1
Je komentář přínosný?

Dnes skoro všetko treba akcelerovať mimo CPU, lebo ani server CPU nie sú dostupné a AMD presmeruje waffere z GPU na Epyc-i

Report: Server Chip Shortage Worsens, Intel and AMD in Tight Supply

4 days ago

According to a report from DigTimes today, when it comes to ICs for servers and datacenters, the problem is worsening, with delivery lead times for some critical server chips extending to 52 – 70 weeks.

DigiTimes pointed to Mitac being unable to satisfy 20-30% of orders due to shortage of chips.

Industry sources polled by DigiTimes indicated that shortages of server components are unlikely to ease until Q4 2021 or Q1 2022, but pessimists say they could extend through 2022,
https://www.tomshardware.com/news/report-server-chip-shortage-worsens-as...

Velkokapacitní výroba Xeonů Sapphire Rapids oficiálně odložena na Q2 2022
1. 7. 2021
https://diit.cz/clanek/velkokapacitni-vyroba-xeonu-sapphire-rapids-ofici...

AMD Is Doing WHAT?! AMD GPU Production REDUCED
28. 6. 2021
https://www.youtube.com/watch?v=YrJAbi4215M

Bude to znít paradoxně, ale AMD tlumí výrobu grafických karet. Priority jsou jinde
5. července 2021
Podle zákulisních informací AMD změnilo alokaci výroby u TSMC a namísto GPU a APU se za pár měsíců výroba částečně (přesné číslo není známo) přesune směrem k serverovým procesorům EPYC
https://www.zive.cz/clanky/bude-to-znit-paradoxne-ale-amd-tlumi-vyrobu-g...

Analysts Expect AMD’s Server Market Share to Grow to 25% in 2022: More than Doubling in 12-18 Months
July 5, 2021
https://www.hardwaretimes.com/analysts-expect-amds-server-market-share-t...

Intel's Ongoing Delays Mean AMD Is Set To Dominate x86 Server Technology Through 2023
Jul. 01, 2021
https://seekingalpha.com/article/4437356-intels-ongoing-delays-mean-amd-...

+1
0
-1
Je komentář přínosný?

Ne, opravdu to tak nefunguje - v analogii kdyz bude mit skodovka problemy vyrabet auta, tak se najedou rekne ze aha? Potrebujem akcelerovat MHD a zacnem stavet tramvajove koleje a nakupovat plynobusy :P Jako fakt ne.

Proc jedes porad to totalne irelevantni tapetovani ? Se podivej co jsem se ptal - zajimalo me co konkretne chce tento uzivatel akcelerovat, kdyz mu nevyhovuje stavajici doba vykonavani jeho ukolu/prace.

+1
-1
-1
Je komentář přínosný?

Som zvedavy na cenu. Asi nebude dlho trvat a zacnu cenu uvadzat ako pomer k HDP niektorych mensich statov.

+1
+1
-1
Je komentář přínosný?

ok, teraz to v krátkosti preložte do reči nášho kmeňa

+1
-1
-1
Je komentář přínosný?

Opravdu hodně nařvaná grafika (? ;-) )

+1
+2
-1
Je komentář přínosný?

Tak z těch parametrů (hlavně FP64) mi spadla brada teda. Masakr.

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.