Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k AMD plánuje 32jádrové HPC APU: Exascale Heterogeneous Processor

Uz uz jsem si rikal ze se nekdo konecne do neceho takovyho pustil, ale jak jsem uvidel "APU" tak je to budouci mrtvola. 32 jader bude v pritomnosti obrovskyho GPU neco hrozne orezanyho na bazi prvniho atomu, takze nic moc pouzitelnost. Pokud by vyhodily GPU a bylo tam 32 plnohodnotnych jader...

+1
-19
-1
Je komentář přínosný?

že to bude propadák? Ne zcela nutně. Ono totiž to může dopadnout tak, že z CPU jader zůstane jen potřebné minimum bez různých mediálních rozšíření typu AVX apod., kterážto budou implementována na úrovni GPU. Navíc velká část plochy dnešních CPU připadá na cache (L2, L3), což v případě HSA a HBM(2) nebude potřeba, nebo nebude třeba tak velká - samotná RAM bude dostatečně rychlá a zároveň bude možné případné zpracování rozfázovat mezi jednotlivé paměťové moduly.

Kdyby to byl "normální" CPU, taky bych byl na pochybách, ale toto IMHO bude velmi životaschopné.

+1
+5
-1
Je komentář přínosný?

Z 32 plnohodnotných jader ale nevymáčknete potřebný výkon. Výkon CPU na úrovni atomu je dostatečný, většinu výpočtů bude provádět GPU.

Tenhle chip v domácích počítačích nenajdete, jeho určení je podobné jako u Xeonu Phi, do superpočítačů. A že by Xeon Phi byl budoucí mrtvola, no zatím to tak nevypadá.

+1
-2
-1
Je komentář přínosný?

Nekteri si asi nevsimli drobnou zkratku "HPC" v nadpisu... nebo ji mentalne vymenili za HBM...

Takze jeste jednou pro vsechny mene vnimave... TOHLE NENI URCENO DO DOMACEHO PC ;-)

+1
+6
-1
Je komentář přínosný?

tak Cine nikto opterony nezakazal, iba xeony.. :)

+1
-1
-1
Je komentář přínosný?

Ty jadra vubec nemusi byt orezana. Jadra uz davno nejsou to velke v SoC/APU. Staci se podivat na die shot libovolneho mobilniho Broadwellu. Pametovy radic a PCIe radic zabiraji vic mista nez 2 jadra vcetne L2.

+1
-4
-1
Je komentář přínosný?

Ale vůbec ne - velké nasazení se očekává v datacentrech pro VDI (virtuální desktopy) či PCoIP (PC on IP) nebo DaaS (Desktop as a Service), tedy místo plnohodnotných nabušených PC budou mít klienti jen nějaký VDI terminál nebo nevýkonné úsporné PC a všechno pojede na serverech. A tam je velká poptávka po serverovém GPU, ať již na GPGPU výpočty nebo prostě jako GPU podpora pro klienty.

Už teď pro tohle vyrábí Nvidia i AMD speciální karty, jiní výrobci (třeba Teradici) vyrábí speciální komprimační karty a VDI terminály. S Vmware Horizon View (VDI) můžete už dnes na virtuálních desktopech sdíleně používat GPU karty v serverech a výsledek dostávat na lehký klient. Jak pro samotné zobrazení - třeba pro CAD/CAM nebo pro výpočty.

Jak píše někdo výše, při plné HSA architektuře nejsou tak velké požadavky na cache přímo v procesoru, hlavně pokud přímo v procesoru budou i operační paměti.

Vypadá to dobře, ... ale známe AMD ... zní to jako sliby, že už příští generace se dožije komunismu.
Spíše bych sázel na žluťáka - když do toho šlápne, tak za 10 let může být v oblasti procesorů a serverů všechno úplně jinak.

+1
-6
-1
Je komentář přínosný?

A co keby to bolo yavadyanie a ten blok C je len dekoder instrukcnej sady a GPU malo asynchronne shader-e

Alebo ci to nie su opatvznorene sa SPM?

Tu bolo 8 SPM na 16 CU

http://www.pcper.com/news/Editorial/AMD-erupt-Volcanic-Islands-GPUs-earl...

ak by bolo 32 SPM, tak to mohlo byt 64 CU

A to tak nejak sedi s Fiji, co je obre GPU...

AMD Radeon Fury (Fiji) OpenCL benchmarks leaked, 64 CUs confirmed
Published: June 9th, 2015
https://videocardz.com/56191/amd-radeon-fury-fiji-opencl-benchmarks-leak...

+1
+1
-1
Je komentář přínosný?

Ono by sa to dalo postavit i na jadrach Jaguar, ktore su len o 10% vacsie nez taky CortexA15.
Cortex-A7: 0.45mm²
Cortex-A15: 2.7mm²
Jaguar: 3.1mm²
Bobcat: 4.6mm²
Cyclone: ~ 5mm²
Denver: ~ 5.4mm²
CloverTrail: 5.6mm²
Haswell: 14.5mm²
Excavator: 14.5mm²
Bulldozer: 18mm²
Sandy Bridge: 18.4mm²
Steamroller: 19.4mm²

+1
-1
-1
Je komentář přínosný?

Super seznam. Trochu si zavestim, prosim berte vsechna cisla jako muj vymysl a extra hruby odhad.

Budu spekulovat, ze Zen nebude uplny mamut jako Haswell a jeho rozmer na 28nm bude nekde mezi 15 a 20mm2. Kdyz prepocteme 20mm2 z 28nm na 14nm, tak nam vyjde 5mm2. 32*5 = 160. Kdyz budeme vestit jeste trochu, tak modernim chipum od Intelu i AMD zabiraji sbernice vetsinou skoro plochu jako CPU jadra s L2. Monstrum na obrazku ma mit hodne HBM, takze rekneme dalsich 140mm2 na radice sbernic a pameti. Pri praktickem limitu 600mm2 na chip nam zustane 300mm2 ciste na GPU. Do 300mm2 na 14nm muze AMD teoreticky napechovat ekvivalent dnesniho GPU o velikosti okolo 1200mm2. V normalnim GPU je navic radic pameti a PCIe, ktere uz tady mame zapocitane, ale skalovani vyrobnich procesu neni ve skutecnosti linearni, takze se to snad nejak navzajem odecte.

Me vychazi, ze by v APU na obrazku mohly klidne byt Zen jadra a GPU o vykonu vyssim nez Titan X. Pokud takove obluda pujde vyrobit, tak bych cekal velmi nizke takty CPU jader a opravdu vysokou cenu, srovnatelnou s velkymi Xeony a Tesk kartami. Z mensiho bratricka by mohlo byt naprosto uzasne SoC pro novou generaci XB/PS. Jen 8 CPU jader s 2x HT, 16GB HBM a GPU o vykonu pristi generace PC high-endu.

+1
+1
-1
Je komentář přínosný?

Drobné doplnění: 16/14nm procesy nemají ani přibližně lineární škálování oproti předešlým, jde o 20nm proces s FinFET tranzistory. Přechod 28nm -> 14nm tedy nebude po stránce plochy 100 % -> 25 %, ale odhadem tak 100 % -> 45 % (ve specifických případech možná 35-40 %, ale to mi přijde příliš optimistické). Takže namísto 5 mm² na jádro bude vhodnější počítat spíš s 9 mm².

+1
-4
-1
Je komentář přínosný?

Ok, tech 45% nejspis bude hodnota blizka realite a s takovym prepoctem mi moje vesteni nefunguje. Pulka chipu jen pro CPU jadra bez L3 je moc. Muselo by jich byt 16, maximalne 24.

+1
-2
-1
Je komentář přínosný?

Vyrobit to na 14nm nemusí bejt problém. Jednak nevíme jak jsou Zen jádra velká (budou v tom vlastně Zeny?) pokud jsou to malá úsporná jádra a ne high performance jádra v co všichni doufaj, tak to problém nebude. Dále to může bejt slepenec, už 12c Magnycours a 16c FX opterony jsou slepence, tzn 2 die vedle sebe. Tohle taky může bejt slepenec.

Slepenci navíc nahrává to že to bude rozsekané, ala každá čtveřice CPU jader vlastní L3 cache, tzn L3 neni unifikovaná, a při 32 jádrech se to bude tvářit jako 8 numa bloků. To jest dost blbý pro chod současnejch server/WS a i HPC aplikací, bude se prot to muset nasat i novej SW. To raději nemluvim o praktickém využití GPU v serverech. Dále co kapacita paměti, bude ta stacked HBM/HBC/něco jediná paměť? A jak velká? Pokud nepůjde rožšířit sloty, no, při tolika jádrech to bude chtít tunu paměti aby se na tom dalo rozject pohodlně třeba tunu virtuálů.

Je zde skrátka spousta "ale" a nezodpovězených otázek, jde to naoprosto opačnou cestou jak Xeony, které jsou cetou gigantickejch monolitickejch čipů s velkou jednotnout L3. Výhody jsou jasné, a to že i neoptimalizované apliakce z ní dovedou benefitovat a žádné nejsou penalizované. Naopak zkuste si spustit něco co je cache intensive a multithread přes 8 numa bloků.... Tohle může dopadnou jak G34 opterony, ala za svou cenu dobré v 1 či 2 bencharkách z 10, zbytek propadák a prodeje nula.

Nebo může nastat to neočekávanané, ala bude to dobré. Intel u Xeonů nad 20MB L3 jí řeší 2 bloky, tzn neni fyzicky monolitická, ale mezi těmito bloky je ringbus sběrnice která je spojuje a zaručuje aby se tak chovala. Pokud AMD vymyslí ňákou sběrnici která by nežrala tunu proudu a tranzistorů, jak ty cache bloky spojit bez velkejch latencí, bude to dobrej čip.

+1
-6
-1
Je komentář přínosný?

Nezmysel. Toto sa ani v HPC nema sancu uchytit z principu.

Skor marketingova sprava pre ddementnych cervenych honicov garazoveho typu:)

+1
-11
-1
Je komentář přínosný?

Troll detected :-)

+1
-2
-1
Je komentář přínosný?

Jsem o dost skromnější. Osmijádrový Excavator na 14nm za 8 měsíců.

Jestli chcete abych spáchal sebevraždu, tak zde nechte odkazy na úchylně-dementní web jsmekočky.cz.
Jak sbalit zajíčka? Tenhle návod se nauč a začni si užívat!
Už jsem sahal po žiletce....

+1
+7
-1
Je komentář přínosný?

Nezapomeňte, že AMD s Fury zvládla způsob propojení GPU s HBM paměťmi pomocí křemíkové podložky (interposer). Hádám, že to jim umožní klidně slepit CPU blok (nebo více bloků) se samostatným GPU blokem (nebo více...) a k tomu i s HBM paměťmi. Pro opravdu HPC segment by 32 GB nemuselo být málo, jistě existují úlohy, kterým to stačí a jde jim hlavně o výpočetní výkon.

Na druhou stranu v běžném serverovém světě je 32 GB už dnes prakticky minimum. Zde očekávám, že by se z HBM stala obrovská L4 cache pro paměť s pomalejším přístupem osazenou klasicky na desce. Případně by procesor měl osazený HW prediktor a často přistupované bloky by držel v rámci HBM, zatímco ty méně používané ve zbytku RAM. Asi by to šlo řešit i softwarově na úrovni operačního systému nebo hypervizoru.

Jsem na to dost zvědavý...

+1
+3
-1
Je komentář přínosný?

Úvaha dobrá, ale bude mít HBM dost nízkou latenci na to aby mohla sloužit jako cache? S tolika CPU jádry a potencionálními paměťovými řadiči + od toho počítaná kapacita bude prostupnost obrovská (pokud to implementujou lépe a ne jak u Fiji GPU kde i přes všechny sliby a hrdá prohlášení + papírové parametry se ukázalo ,že to GPU je z ňákého důvodu limitováno pamětí a při jejím OC výkon roste), ale ty latence to můžou zabít, a ty jsou mnohem důležitější.

+1
-2
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.