Diit.cz - Novinky a informace o hardware, software a internetu

Diskuse k SoC Nvidia N1X trápí softwarové potíže, vydání tento kvartál je optimistické

Článek vyšel před 2 hodinama a žádný komentář, NVidia už nikoho nezajímá. :-D

+1
+8
-1
Je komentář přínosný?

Každej nemá takové nutkání komentovat každý jeden článek, co se tu objeví jako ty.

+1
+6
-1
Je komentář přínosný?

to bude narazka na comment od ddr0 u minulyho clanku..

+1
+9
-1
Je komentář přínosný?

Touché! Potopeno! 😂

+1
0
-1
Je komentář přínosný?

By mě docela zajímalo, v čem je problém. Že windoze jsou sračka ví každej, ale na x86 se s tím výrobci (včetně nVidie) už nejak poprali, ale evidentně ARM verze ještě tak doladěná není a jak nVidia tak Qualcomm s tím bojujou a zatím prohrávaj...

+1
+4
-1
Je komentář přínosný?

Tak mohli to vydat s Linuxem. Tam by jim do toho neházel MS klacky pod nohy...

+1
+5
-1
Je komentář přínosný?

To už udělali.

+1
+1
-1
Je komentář přínosný?

Problém bude v nvidii. Na rozdíl od jejích fandů si dovoluji připomenout, že jejich CPU stály vždy za hovno. Na ARM bych to úplně nesváděl, to jsou CPU primárně do mobilů a jablek a v desktopu je to dlouhodobě bída, úplně stejná, jako když to kdysi Intel zkoušel v mobilech.

+1
+8
-1
Je komentář přínosný?

Desktop jede na ARMu dobře, příkladem je RPi, kde desktop jede ok. Akorat HW je slabší. Tipnul bych si, že kernel Windowsů čekají nějaké x86 specifické chování a ARM se na to musí nějak složitě ohýbat aby se tak tvářil a je možné, že při tom ohýbání dost podstatně ztrácí výkon. Linux je multiplatformí už od začátku.

+1
+1
-1
Je komentář přínosný?

Mně RPi nepřipadne jako dobrý příklad. Jednak to není desktop, protože je to absolutně portově ořezané a rozumně nerozšiřitelné (haty jsou skvělý nápad, ale pro bastlíře, ne na normální použití) a každé rozumnější využití naráží na tyhle problémy. A jednak samotný výkon Pi a cena jsou IMHO úplně o ničem. 16GB Pi5 stojí přes 5k Kč (plus zdroj a chlazení), a přitom je to stále mašinka spíše na promítání videa nebo sběr dat, kterou musíš, na rozdíl od nezničitelné Pi2/3 chladit a udržovat v kondici.

+1
0
-1
Je komentář přínosný?

Jedine co drží x86 pri živote je spätná kompatibilita. Ak by sa neriešili drivery a softvér, tak x86/x64 nemá šancu, a to aj napriek obrovskému toku prostriedkov smerujúcemu do x86/x64. Či už v desktope, mobile, cloude alebo embedded.

Koniec x86 je otázka kritického množstvo sw pre arm. Kritické množstvo sw je zase nutné aby firmy investovali do desktop arm cpu. Začarovaný kruh z ktorého sa dostáva svet pomaly (alebo rýchlo pod diktátom apple vo svete macos)

Pri tom istom výrobnom procese, elektrickom prikone a architektonickom úsilí bude arm cpu vždy výkonnejší.

+1
-6
-1
Je komentář přínosný?

A vidíš, já si myslím, že ARM nemá na Zeny od AMD vůbec šanci 😁

+1
0
-1
Je komentář přínosný?

Ok. Mozno tak v metrike, "dnes si chcem kupit najlepsi PC na hry"

+1
-3
-1
Je komentář přínosný?

ARM má na ZEN jedině a to ještě možná ve výkonu ALU na stejném taktu, ve výkonu FPU / SIMD už ne a v taktech taky ne. Proto se do destopu ještě ARM nedostal. Ani multicore Ampere Altra nejsou vhodné pro HTP zátěž, kdežto AMD EPYC a ThreadRipper v ní excelují. A je je jedno zda pod Windows, Linux, nebo BSD. A k tomu AMD jde i Cloud, což je taky jediné nasazení procesorů Ampere Altra, kde mají smysl. ARM obecně mají výhodu jen tam, kde je možno je přímo uzpůsobit. AMD ZEN procesory to nepotřebují. Žádný konec x86-64 nevidím.

+1
+2
-1
Je komentář přínosný?

Kdyby ryby.....

+1
+1
-1
Je komentář přínosný?

"Ak by sa neriešili drivery a softvér.."
.. odpovedel jsi si sam, proc x86/64 tam kde je a ARM taky..

+1
+1
-1
Je komentář přínosný?

Nvidia Tegra byly notoricky známý bugama v PCI Expressu, to byla stálice. Nebyl nedávno odhalenej nějakej i v jednom z těch nových? Teď to nemůžu najít, ale někde jsem to viděl :)

GB10 má štěstí, že na tom většinu SoC dělá MediaTek.

+1
0
-1
Je komentář přínosný?

>> Nvidia Tegra byly notoricky známý bugama v PCI Expressu, to byla stálice. Nebyl nedávno odhalenej nějakej i v jednom z těch nových? Teď to nemůžu najít, ale někde jsem to viděl :)

Vera (ARM based CPU ze sady Vera + Rubin) má problémy spolupracovat s GPU jiných výrobců než nVidia.
Údajně to ale není specifikum nVidia, ale samotného ARM. Je to něco podobného jako použítí Strong Mem, jen pro PCIe. A je na to workaround.

+1
0
-1
Je komentář přínosný?

Problem moze byt v implementacii TSO (Total Store Ordering), zapina rezim pristupu do pamate ktory umoznuje lahsie emulovanie x86/x64. (ARM ma "weakly ordered" memory model, x86 ma strictly ordered).

Je to nieco ako HW akceleracia emulacie x86. Kvoli tomu, ze Apple a neskor aj Qualcomm si takto rozsirili (po svojom) ARM specifikaciu, moze byt emulacia taka rychla (15-30% pomalsi beh emulovaneho kodu namiesto 70%). Ak by ARM nemal TSO v hardvéri, emulator by musel po kazdom zapise do pamate vlozit instrukciu "DMB" (Data Memory Barrier). To nuti procesor cakat, kym sa potvrdia vsetky predchádzajuce operacie, čo drasticky znizuje vykon.

Takze Windows on ARM by bezal krasne na cistom ARMe s nativnymi appkami, ale x86 appky by sli vyrazne pomalsie.

TSO myslim, ze nie je standardizovane, asi je to aj dovod, preco na MACu pojdu vo virtualke s Windows (on ARM samozrejme) pomalsie x86 programy. Kazdy asi prinasa vlastny sposob ako na to a OS (konkretne cast ktora emuluje x86 ale aj kernel) s tym musi pocitat.

+1
0
-1
Je komentář přínosný?

Si objevil Ameriku? Že je nativ rychlejší než emulace, to je ale překvapení.

+1
-1
-1
Je komentář přínosný?

Zial tu uz asi nastupuje jazykova bariera.

+1
0
-1
Je komentář přínosný?

ARM žádné instrukce pro emulaci nemají. Rozdíl je v tom, zda umí little endian model jako x86-64. Ani procesory Apple žádnou jinou HW pomoc v emulaci nemají.

+1
-2
-1
Je komentář přínosný?

Ale maju - Apple Mx aj Snapdragon od X Elite vyssie maju HW podporu pre emulaciu (nielen) x86.

Vola sa to TSO (Total Store Ordering)

V pripade apple sa to vola `TSO Extension`, apple to spristupnil aj pre Linux vo VM/Dockeri, treba akurat upravu linux kernelu. Rosetta2 pre linux na beh x86 binariek to pouziva. Zapina sa to per process, jeden bit v registri ACTLR_EL1 (Auxiliary Control Register)

V pripade X Elite je to podobne, tiez asi per process, neviem aky register.

+1
0
-1
Je komentář přínosný?

To je jen přepínač režimu přístupu do paměti, nic víc. Žádná speciální funkce, jen přepíná Weak Memory Ordering a Strong Memory Ordering. Přístup do RAM není ani tak věcí CPU jako spíš řadiče RAM.

+1
0
-1
Je komentář přínosný?

Nie je to o radici RAM. Neviem ako poznate instrukcnu sadu x64 a ARM, ale v skratke je to to tom, ze x86 instrukcna sada pouziva prekonany Strong memory ordering - v kazdom case musi byt vsetko zapisane pre kazdu instrukciu precitatelne z RAM (aj z ineho threadu). Pri ARMe to nie je zarucene a CPU moze do RAM zapisat v akom chce poradi a nie je to zarucene kym sa nezavola instrukcia ktora urobi force vsetkeho do RAM. Je to podobne ako nutnost zarovnat pointre na ARM na adresy delitene 4, v sucasnosti to uz nie je vzdy nutne (v minulosti crash), len pomalsie.

x86 program spolieha na Strong memory ordering, bez toho by program spadol, ARM nespolieha, program musi povedat CPU kedy ho to zaujima. Aj preto mozu byt ARM efektivnejsie/vykonnejsie na W.

+1
-1
-1
Je komentář přínosný?

OK není to věc řadiče, ale Load/Store, není to početní / logická operace nebo bitová manipulace. Nemá přímý vliv na výpočetní výkon. Jen uzpůsobuje způsob čtení / zápisu dat z / do registrů.
A stejně tak to není nic co by přímo emulovalo jakoukoliv instrukci x86-64 na ARM. Co se týká odlišného přístupu, je to věc dlouhého vývoje obou platforem. ARM stejně jako další RISC je Load/Store platforma. x86-64 to řešil jinak pomocí komlexnějších instrukcí. Takže přímé srovnání není tak snadné.

+1
+1
-1
Je komentář přínosný?

Neemuluje ale pomáha emulacii x86.
Tu napr apple popisuje ako zapnúť TSO pre akceleráciu rosetty v Linuxe:
https://developer.apple.com/documentation/virtualization/accelerating-th...

Popísané aj tu: https://dougallj.wordpress.com/2022/11/09/why-is-rosetta-2-fast/

ARMv8+ nie je už čistý Risc, tie uz v podstate vymreli. Rýchlosť load/store ma vplyv na výpočtový výkon. X86 ma inštrukcie ako ADD v ram, tie musia byť predpísané na ARMV8 a pritom musí byť buď strong memory model (TSO) alebo musí byť vložená ďalšia ARM inštrukcia ktorá zabezpečí ze pred vykonaním ADD bude všetko zapísané. Ešte väčší průser je prístup do ram z viac emulovanych threadov be TSO.

+1
0
-1
Je komentář přínosný?

Ale zrovna tak není ani čistý CISC, vše je μkódované. Ale takže z funkce procesoru jsou vlastně skoro stejné. Ty rozdíly jsou v instrukční sadě.

+1
+1
-1
Je komentář přínosný?

Áno, ale sú zásadne rozdiely v instrukcnej sade ktoré armu pomáhajú dosiahnuť vyšší výkon jednoduchšie.

- pevná dĺžka inštrukcie (4B) vs variabilná (1-15B) - arm dokaze paralelne dekodovat inštrukcie na mikrokod(dopredu je jasne kde začína inštrukcia), dôležité pri branch cold start. Inštrukcií Je cca 3-4x menej, aj kvôli tomu, že x86/64 má kopec balastu ktorý dnes nie je tak potrebný. Armv8 je z r. 2012, kedy už boli znalosti kompilátorov a pokročilého navrhnú cpu na inej úrovni. X64 síce vyhodil niektoré malo používané inštrukcie ale nie moc a celková koncepcia sa nezmenila
- weak vs strong synchronizácia prístupu do pamäte - Arm nemusí každý zápis do pamäte synchrónne zapisovať, pre čítanie z iných inštrukcií alebo corov. Kedy je to nutné - určuje kompilátor, zjednodušuje sa návrh cpu.
- arm ma viac general purpose registrov - ak sa algoritmus "nezmesti" do daného počtu registrov, začína drahý presun z/do pamäte, komplikuje to out of order execution

+1
-2
-1
Je komentář přínosný?

Ten mýtus s dekodérem se nikdy nevyplnil. Jak AMD tak Intelu se i přesto daří zvedat IPC, i díky tomu, že instrukce x86 je v dekodéru dělena na víc μinstrukcí. a synchronní přenos dat je u x86 tak dlouho, že s ním prostě umí pracovat... Ale ARM zůstává u 128 bit NEON SIMD, kdežto AMD má dvě (odlišné) 512 bit AVX jednotky. Takže jedinou instrukcí zpracuje 4x tolik dat. CISC a RISC koexistují natolik dlouho, že se vzájemně ovlivňují. Jediný AMD s výkonnými 2x SVE 512 bit je stavěný na velký datový tok 48 jader, ale s nízkým taktem a malými cache, jako hybrid CPU a akcelerátoru.

+1
0
-1
Je komentář přínosný?

Intel a AMD zdvihaju výkon vďaka veľkej mikrokodovej cache, ale vyzerá, že narážajú na limity, ST výkon v niektorých aplikáciách stále nedohnal 2 ročný apple m4. Ryzen 9xxx oproti 7xxx priniesol len veľmi málo výkonu, väčšinou v hrách vďaka inému umiestneniu 3d cache ktore umožňuje lepšie chladenie a väčšie takty cpu. Arrow lake oproti dvom minulým generáciám tiez moc nepriniesol (pre content creation je BTW super, pri arme mám aj arrow lake)

Pozor, ARMv9, čo je už väčšina dnešných cpu podporuje SVE / SME ktoré môžu ísť až do 2048b podľa implementácie. Nevyznám sa, ale zachytil som niečo, že je to vymyslene sikovne, jeden kod sa vykonáva dlhšie pomocou 128b registrov alebo rýchlo pomocou viac bitov. Netreba rekompilovat ako z avx na avx512. Je to „Spracuj toľko dát, koľko sa ti zmestí do jedného vektora.“, niektoré cpu majú 128b, niektoré 512b registre. Pri x86 je pre podporu 512b registrov nutné rekompilovat kod, Mar dve vetvy pre avx2 avx512.

BTW moja skúsenosť keď som robil niečo s bufframi, zrovna sieťové veci, tam ma nenapadlo také veci používať, Ai mi navrhlo robit to pomocou stream inštrukcií, mega zrýchlenie oproti bežnému kódu, na arm aj x86. Akonáhle sa dá robiť pomocou avx, sse, neon, sve, sme je to veľké zrýchlenie

+1
-1
-1
Je komentář přínosný?

Pořád nejsi schopný rozlišit výkon ALU a FPU/SIMD části. V ALU má Apple nějaký náskok, zbytek ARM ale ne. A výkon v plovoucí řád. čárce a vektorech? SVE sice umožňujse jediné instrukci pracovat s 2kbit vektorem, ale fyzicky na jaké jednotce? Udělat tak širokou vektorovu jednotku je téměř nemožné. Sama by zabrala víc tranzistorů než 3 celá dnešní jádra - bez L2 a vyšší cache.

+1
0
-1
Je komentář přínosný?

Na FPU/SIMD máš v Apple GPU a API Metal, které konkuruje schopnostmi a softwarovou podporou CUDA. Ale jestli to máš rád na CPU části *toho stejného procesoru*, tak si kup klidně Threadripper.

+1
-1
-1
Je komentář přínosný?

Zas mimoň se ozval. Tady snad píšu o tom, co umí HW. SW vrstva ti jen usnadňuje programování, ale přímo s CPU fyzicky nemá nic.

+1
+1
-1
Je komentář přínosný?

Však mluvím o HW. Např. DeepSeek má půlku kódu pro NVidia GPU v assembleru (HW) a jen půlku v CUDA (SW). Stejně tak dnes většina programátorů nepíše v assembleru/C/C++, ale ve vyšších jazycích (SW).

+1
-1
-1
Je komentář přínosný?

Assembler je přece taky programovací jazyk, níž už je jen kód v symbliicých adresách, či jak. Je to tedy poskládané ze dvou prog. jazyků. Kde je fyzický HW? Pokud si pamapuji pořadí tak: assembler, nad tím C a ještě výš byly Fortran, Pascal atd. A u nich právě ty dvě úrovně programování uplatňovaly. Hlavní kód v tom vyšším a rychlé rutiny assembler, takže se naprosto nic nemění.

+1
+1
-1
Je komentář přínosný?

Ve strojovém kódu neprogramuje už nikdo.

+1
-1
-1
Je komentář přínosný?

Ale ten poměr nizko / vysoko úrovňový programocvací jazyk. S tím že C je někde mezi.

+1
+1
-1
Je komentář přínosný?

O kolik je ten rozdíl? O 10, 20 %?

+1
-1
-1
Je komentář přínosný?

Netuším, asi je to i věc varianty C

+1
0
-1
Je komentář přínosný?

V C se programuje GPU už dekády.

+1
-1
-1
Je komentář přínosný?

To přece nevyvracím, už zas odpovídáš na něco úplně jiné. Já píšu o počtu variant C. A hlavně na začátku platilo, že C je větší bordel než Pascal, ale má víc možností.

+1
0
-1
Je komentář přínosný?

Tak Pascal víceméně umřel. Proč by mu měl růst počet variant? Protipříkladem je třeba Python a všemožné optimalizované varianty.

+1
-1
-1
Je komentář přínosný?

Poslední o čem jsem psal bylo C. Drž se tématu.

+1
0
-1
Je komentář přínosný?

Každý si může odskrolovat, co jsi psal.

+1
-1
-1
Je komentář přínosný?

A ptal jsem se ma počet variant C, který jsi stále neuvedl.

+1
0
-1
Je komentář přínosný?

Se zeptej Googlu nebo AI. Mě zajímají jen některé varianty C.

+1
-1
-1
Je komentář přínosný?

Je to hodně těžké pro tvé EGO napsat nevím. Ale mohl ses sám podívat a dělat chytrého. Raději se budeš dohadovat.

+1
0
-1
Je komentář přínosný?

Narozdíl od tvého EGA vím aspoň některé varianty ;-)

+1
-1
-1
Je komentář přínosný?

Smích.

+1
0
-1
Je komentář přínosný?

Pláč.

+1
-1
-1
Je komentář přínosný?

Jo, jenže IPC už zvedají jen pro některé situace. Kdežto široký dekodér instrukcí zvedá IPC všude (viz např. tzv. trhanost Windows 11). Navíc vychytávky AMD nejsou v consumer Intelu (HT, AVX-512). A ARM ISA samozřejmě umí víc jak 128bit NEON. Je jen na výrobcích a zákaznících, kdy to budou chtít v procesorech.

+1
-1
-1
Je komentář přínosný?

Když srovnáš ZEN 4 a ZEN 5, ostatně všechny generace, pokaždé došlo k nárůstu IPC. Ale fakt je, že zvyšovat prostý počet instrukcí za takt, je daleko složitějším, než přidávat výkonnější instrukce. A historie ukázala, že každá déletrvající platforma musela pracovat na obojím. A vektorové instrukce jsou starší než jednočopové procesory. Už tehdy věděli, že zpracovat víc dat jedinou instrukcí je správná cesta.

+1
0
-1
Je komentář přínosný?

Kdyby nevyrostlo IPC, tak není důvod vydávat novou generaci CPU (když nepočítám v historii die shrinky). Je hezké, jak AMD zvládá zvyšovat IPC, nicméně i tak se vzdalují od Apple Silicon a Qualcomm Snapdragon X2.

+1
0
-1
Je komentář přínosný?

Tady je pořád představa, že jde o konkurenty, ale ne. Jsou to jiné segmenty trhu.

+1
0
-1
Je komentář přínosný?

80 % počítačů jsou laptopy. Takže se překrývají "jen" v 80 % trhu.

+1
-1
-1
Je komentář přínosný?

Ale pořád je rozdíl Windows a Apple. Ostatně nepamatuju si, že bych v této diskusi zmínil desktop.

+1
0
-1
Je komentář přínosný?

Proto jsem zmínil i Qualcomm , který je PC/Windows.

+1
-1
-1
Je komentář přínosný?

Pořád je ARM + Windows proti x86 + Windows velice malý.

+1
0
-1
Je komentář přínosný?

To je stejné jako podíl elektroaut, přestože spousta jich je o dost lepších než spalováky. Nějakou dobu trvá, než naroste podíl. Počítače se Snapdragon X2 teprve vyjdou.

+1
-1
-1
Je komentář přínosný?

Reálný vývoj ale spěje spíš k hybridům.

+1
0
-1
Je komentář přínosný?

Ty jsou jen mezikrok. Dvojnásobná složitost.

+1
-1
-1
Je komentář přínosný?

Vývoj akumulátorů nestačí a stále se spalovákem ujedeš na jeden zátah víc. U AKU ti brutálně roste hmotnost a stejně pokud nechceš rychlonabíjení, tak jsou fakt dlouhé zastávky. Extender ti umožní menší kapacitu a hmotnost AKU tak akorát do velkého města i dlouhý dojezd a rychlé tankování.

+1
-1
-1
Je komentář přínosný?

Tohle bylo už vysvětleno na automobilových webech a skupinách. Jak od odborníků, tak reálných uživatelů, vlastníků. Nemám potřebu "zasírat" Diit.

+1
0
-1
Je komentář přínosný?

Každý tábor má své odborníky. Takže to není argument.

+1
0
-1
Je komentář přínosný?

Ok, ale řešili jsme to několikrát i na Diitu.

+1
-1
-1
Je komentář přínosný?

"Jo, jenže IPC už zvedají jen pro některé situace."
To přece není pravda, a hledat nějakou spojitost s "trhaností Windows 11" mi přijde úplně mimo.

Co se týká SVE-2, tak bohužel nikdo zdá se nemá zájem na víc jak 128 bitů jít, takže veškerá komplexita způsobená tou snahou o flexibilitu šířky SIMD je zatím jenom na obtíž. IMHO tenhle koncept SVE/RVV může být slepá ulička, která bude zase víceméně opuštěná pro univerzální CPU (v nějakých DSP by to možná fungovalo líp).

Jinak ten memory model se opravdu považuje za vlastnost architektury/instrukční sady, v tom má Mixal pravdu. Vedle toho mají ARM procesory Qualcommu a Applu i jiné funkce na zlepšení výkonu emulace, například (IIRC) v zacházení s flagy při FPU operacích, kdy normální emulace by byla kvůli odlišnostem v instrukční sadě ARM velmi náročná, ale pokud má procesor podporu pro emulaci chování x86 flagů, tak se to dá na ARMu emulovat mnohem efektivněji (s menší ztrátou výkonu).

+1
0
-1
Je komentář přínosný?

Je to tím, že s šířkou vektoru nestoupá počet tranzistorů lineárně. Pokud vím ARM zkoušel 2x 256 i 4x 128 bit. A je asi jasné, co vyhrálo.

+1
0
-1
Je komentář přínosný?

Hlavní je, kdy to budou lidi potřebovat. U x86 to význam má, protože dekódováním široké instrukce za jeden cykl protáhnete více práce skrz úzký dekodér.

Puf a Muf> Svižnost bloatware jménem Windows 11 si přece každý může snadno ověřit. Flagy pro emulaci byly i na Diitu dobře rozebrány. Ano, nejsou to instrukce, ale přepínače chování. Vtipné je, že nestojí tranzistory, protože strong memory model se emuluje *vypnutím* jedné optimalizace práce s RAM. A speciální výsledky FPU jednotky umí pro skalární operace, takže se na ně zvládne přepnout v NEON SIMD instrukcích. Jenže spousta výrobců procesorů neumí dělat jádra. Umí poslepovat licencovaná a tím to končí. Pro hardwarově akcelerovanou emulaci x86 by museli šáhnout do vnitřní logiky jader.

+1
0
-1
Je komentář přínosný?

Celkem mne zajímaly Ampere One. Ty už mají vlastní jádra... Kdyby zůstali u licenčních, mozná by to bylo lepší. Mesh propojovací logika, člověk si řekne hezké. Ale v každém uzlu je čtveřice jader, takže některé SW zátěže škálují jen do poloviny jader a víc to nedá. Zjdenodušili si v SIMD / FPU. Umí sice FMAC, jenže celá pointa té instrukce je, že provedeš dva výpočty a až na závěr zaokrouhlení a normalizaci. Tady ne dva výpočty a po každém zaokrouhlení a normalizace, protože to jádro fyzicky FMAC neumí, je to lepené.

+1
0
-1
Je komentář přínosný?

"Puf a Muf> Svižnost bloatware jménem Windows 11 si přece každý může snadno ověřit."

Sorry, ale co je tohle za výrok. Windows 11 fungují ok, jsou podobně náročné jako jiné state-of-the-art OS dneška s podobným DE. Dojmologii fanoušků a haterů nechme bokem.

Prostě nechápu, jak můžete vzít takový extrémně vágní a nejspíš imaginární koncept a považovat to za "jasný znak" něčeho týkajícího se procesoru...

+1
0
-1
Je komentář přínosný?

Jestli tobě stačí ok level, tak ok. A Windows 11 používá většina lidí, takže dojmy lze hodnotit i statisticky - máš velký vzorek.

+1
-1
-1
Je komentář přínosný?

Navíc, kdo chce může se potrápit s linuxem...

+1
-1
-1
Je komentář přínosný?

No to je právě ono - když prý x86 způsobuje že se W11 prý chová kartastrofálně, tak jaktože se to neprojeví v Linuxu na serverech, aha?

+1
0
-1
Je komentář přínosný?

Vono se to neprojeví ani ve Windows 10, vašnosti.

+1
0
-1
Je komentář přínosný?

W11 na ARMe sa mi pocitovo zdraju zviznejsie ako na porovnatelnom x86 HW. A nielen mne, viacero ludi na reddite to pise, podobne okolo VS2026.

+1
0
-1
Je komentář přínosný?

Samy o sobě možná. S nějakou větší SW zátěží už to tak nebude.

+1
0
-1
Je komentář přínosný?

Nebo naopak. Něco jako tehdy výkon tesselace na NVidii a AMD GPU.

+1
-1
-1
Je komentář přínosný?

Mi se tu bavíme o CPU nebo GPU? Tato diskuse ode mne spěje ke konci, už zase si píšeš, co chceš.

+1
0
-1
Je komentář přínosný?

Já ti snad bráním psát, co chceš? Co třeba ten Pascal?

+1
-1
-1
Je komentář přínosný?

Dobre video,ktore ukazuje aj moju skúsenost s armom.

https://youtu.be/uX2txbQp1Fc?si=9MG5fx4EpoINwv4c

Odporúčam hlavne od cca 8 minúty. Ako pusti VS. Rozdiel vo sviznosti arm pc a x86 pc je väčší ako ukazujú benchmarky. Je to podobné aj na snapdragone.

+1
0
-1
Je komentář přínosný?

"Mac running windows as a VM beat the Windows laptop💀💀"

+1
-1
-1
Je komentář přínosný?

Ja bych doporucoval se zamerit na uvod, kde borec rika, ze ten Razer ma "24C" procesor :D o par vet dale jeste dodal, ze je to 14th generace..
pak jsem to video rovnou vypnul, protoze borec, ktery uvadi RaptorL notebook jako "24C"...sorry :)

+1
0
-1
Je komentář přínosný?

Intel Core i9-14900HX je 24C CPU

+1
-1
-1
Je komentář přínosný?

sorry, ale pak jsi na stejnem levelu a v principu nema smysl se ani snazit komentovat co pises..
14900HX ma sice celkove 24 jader, ale POUZE 8 z nich za neco stoji, protoze to jsou P jadra architektury Raptor Lake. tech zbylych 16 Emrdek, ktere tam jsou jsou dobre tak pro ulohy typu Cinebench, mozna konverzi videa. Pokud delam technicke video, kde jeste srovnavam platformy, tak musim jit trochu do technickych detailu, v opacnem pripade muzes klidne srovnavat i skodat 120L s Kodiakem, protoze obe jsou preci auta..

+1
-1
-1
Je komentář přínosný?

Porovnanie vobec nie je od veci.

Je to rok +- stare video o tom, aky highend sa dal kupit z Windows a Mac sveta a ako zvladaju beznu robotu sw development.

Kolko ma kto jadier je v podstate jedno, dolezite su vysledky. Keby o to slo Apple M4 MAX ma tiez len 10 alebo 12 tucnych jadier a ostatne su E jadra.

Tragedia je, ze pre cloveka ako ja ktory ma rad a potrebuje Windows su dostupne PC sracky oproti Macbookom. Ak niekto hovori opak tak je to akurat denial faza. Rozdiel medzi tymito dvoma strojmi je ako keby 8r.

Najlacnejsi Apple M4 - rychlost kompilacie medzi Ryzen 9700x/9800x3d az 9950x. Cely najlacnejsi mac mini s tym CPU stoji skoro tolko co ten Ryzen.

V kompilacii - M4 MAX @55W v notebooku zadupe vodou chladeny pretaktovany Ryzen 9950x @200W do zeme. Pokial v tomto niekto nevidi tragediu tak uz potom neviem.

+1
0
-1
Je komentář přínosný?

"Kolko ma kto jadier je v podstate jedno, dolezite su vysledky. Keby o to slo Apple M4 MAX ma tiez len 10 alebo 12 tucnych jadier a ostatne su E jadra."
.. tak pokud budes prispivat do casopisu "Zena a Zivot" tak ano. Pokud hazej "youtubera", ktery nevi, co delaji napajeci profily, nezna jak funguje architektura, nezna jak funguje benchmark..tak sorry, ale to tady nema co delat.
"Kolko ma kto jadier je v podstate jedno, dolezite su vysledky. Keby o to slo Apple M4 MAX ma tiez len 10 alebo 12 tucnych jadier a ostatne su E jadra."
.. to samzorejme jedno neni, protoze kdyz rikas, ze srovnavas 24 jader ve videu, z cehoz 2/3 jader tam jsou do poctu, s necim, tak to neni pravda. Ale nejpsis to bude tvuj level, takze tobe to staci, ale na technickem magazinu by to stacit nemelo.
"Tragedia je, ze pre cloveka ako ja ktory ma rad a potrebuje Windows su dostupne PC sracky oproti Macbookom. Ak niekto hovori opak tak je to akurat denial faza. Rozdiel medzi tymito dvoma strojmi je ako keby 8r."
.. ja bych rekl, ze "denial" faza se vyskytuje hlavne u tebe, ktery ma neustale nutkavou potrebu neustale spamovat jak to nebo ono je lepsi, ajk jednou je nejlepsi ST, a jak ARM vsechno zadupe do zeme.
Si tam troubeline spust treba 10 aktualnich her mezi tim Razerem a tim srackoidnim Macbookem.. a uvidis, kde ten Macbook zustane.
S tim zbytkem radeji spamuj na nejakem jablickovem webu, tam to urcite dava smysl a budes mit na to pozitivni ohlasy. Budes tam mezi svyma.

+1
-1
-1
Je komentář přínosný?

Ale on nemůže za to, že nabídka Intelu je "podvod". A integrovaná grafika v macbookách zamává půlkou PC laptopů.

+1
-1
-1
Je komentář přínosný?

tak za to samzorejme nemuze. Ale kdyz linkujes video tady, tak bud by jsi mel to video trochu "uvest", aby jsi "zmirnil" neprofesionlaitu daneho YT a nebo jej radeji neuvadet :)

+1
0
-1
Je komentář přínosný?

Neprofesionalitu? Alex Ziskind robi jedny z najlepsich testov HW pre SW developerov.

+1
+1
-1
Je komentář přínosný?

Fakt? Ja treba vyuzivam vyvojovy SW, ktery urcite Ziskond netestuje a ty ho ani neznas.
Nicmene tocime se v kruhu. Za men je to video technicky silne neprofesionalni. Pokud tobe staci level nebo informace, ktere sdeluje, ok. Ale tady s tim neuspejes.

+1
0
-1
Je komentář přínosný?

Ten vývojový SW je určitě tajný. A pravděpodobně starý, takže by ho utáhla rychle i softwarová emulace. Nevím, podle čeho je tebe video silne neprofesionalni, ale testuje konkrétní workflows.

+1
0
-1
Je komentář přínosný?

pro tebe Ladiku, je vsechno tajne :D

+1
0
-1
Je komentář přínosný?

"Si tam troubeline spust treba 10 aktualnich her mezi tim Razerem a tim srackoidnim Macbookem.. a uvidis, kde ten Macbook zustane."

A to je to. Intelu ostavaju Windows hry.

+1
0
-1
Je komentář přínosný?

Dokud nezačne throttlovat. Zatímco MacBook zvládne AAA Windows-only x86 hry i pasivně (zkoušel jsem Borderlands 3 na MB Air M1). A to emuluje CPU, GPU a OS.

+1
0
-1
Je komentář přínosný?

Ve tvem chapani a rozsahu reality asi ano. Ale opravdu jen ve tvem.

+1
0
-1
Je komentář přínosný?

Tvoje chápání tu snad někdo sdílí?

+1
0
-1
Je komentář přínosný?

TY rozhodne ne Ladiku :D

+1
0
-1
Je komentář přínosný?

Možná ani ty ne, Tombíku :D

+1
0
-1
Je komentář přínosný?

To se smí říkat, že u Intelu máme počítat jen velká jádra? Já za to na Diitu dycky dostal čočku 🤡

+1
+1
-1
Je komentář přínosný?

Nnnnoooooo.... to je odvážný výrok.
Větší šířka vektoru by měla být méně komplexní architektura, než když uděláte větší množství užších SIMD jednotek se stejnou celkovou šířkou. A to proto, že musíte mít instrstrukturu pro současné řízení, schedulování krmení a obsluhování vyššího množství jednotek. Jestli něco přináší nelineární nárůst komplexity, tak je to tohle. Zatímco když 2x rozšíříte SIMD jednotku/registry, tak počet tranzistorů a potřeba datových cest půjdou nahoru spíš lineárně. Ale zkuste říct, že bude v FPU osm 128bitových SIMD jednotek místo čtyři 256bitových. Najednou musíte mít dvakrát víc portů do register file (a tyhle porty jsou problém!), musíte mít fronty udělané na zpracování 2x operací za cyklus

Jako možná to zvládnete udělat tak, že nenaroste nelineárně počet tranzistorů, ale poroste vám nelineárně spotřeba, takže tohle ukočírovat je hodně těžké. Výhoda tohohle přístupu s užším SIMD a více jednotkami je někde jinde než v hardwaru - je v tom, že tohle má potenciál urychlit i starší software postavený na NEON/SSEx, kdežto přechod na 256bitové jednotky vyžaduje napsat kód v AVX2.

+1
0
-1
Je komentář přínosný?

Nebavím se o okolí, jasně scheduller je složitější, ale neplatí, že 2x širší jednotka má 2x víc tranzistorů, ale spíš 3x až 4x. To je důvod, proč prvním Core s AVX512 tak padal takt.

+1
0
-1
Je komentář přínosný?

Tranzistorů můžeš mít, kolik chceš, viz Apple Silicon s velkou plochou čipu.

+1
-1
-1
Je komentář přínosný?

Aha tady se ozval těžce zamilován do Apple ARM teoretik.

+1
0
-1
Je komentář přínosný?

Praktik. Narozdíl od tebe jsem ho měl v ruce. A vyvrátil jsem tím tvoje:

"víc tranzistorů, ale spíš 3x až 4x. To je důvod, proč prvním Core s AVX512 tak padal takt."

+1
-1
-1
Je komentář přínosný?

To že něco bez dalšího zdroje napíšeš, nevyvrací vůbec nic.

+1
0
-1
Je komentář přínosný?

To platí i o tobě. Dal jsem konkrétní protipříklad.

+1
-1
-1
Je komentář přínosný?

A kde je důkaz? Tvé písmo není svatá pravda.

+1
0
-1
Je komentář přínosný?

Tak si přečti údaje o procesoru třeba na Wikipedii, když mi nevěříš.

+1
-1
-1
Je komentář přínosný?

Já to tady mám zdůvodněno v textu. Ty jsi neuvedl nic kecale.

+1
0
-1
Je komentář přínosný?

"Tvé písmo není svatá pravda." in your face.

+1
-1
-1
Je komentář přínosný?

Důvody proč s šířkou roste složitost SIMD není těžké najít. Ty jsi neuvedl žádný argument. Ale můžu to napsat. Samotné výpočetní jednotky - sčítačky, násobičky - tam to jde lineárně. U registrů už ne kvůli složitosti propojení portů. Shuffle Unit - závislost je už kvadratická. Bypass Logic - zde je to podobné jako u registrů. Roztrhej to.

+1
0
-1
Je komentář přínosný?

Uvedl jsem protiargument na tvou uvedenou *konkrétní implementaci*:
"To je důvod, proč prvním Core s AVX512 tak padal takt."

Mimochodem pozdější Intely ten problém postupně vyřešily.

+1
-1
-1
Je komentář přínosný?

Takt u nich taky padal, ale méně a řešili to správou napájení. Každopádně plocha na čipu při stejné výrobě s šířkou SIMD roste víc než lineárně. A to je fakt. Je možné i to, že Intel samotnou implementaci trochu zjednodušil.

+1
0
-1
Je komentář přínosný?

Právěže u těch registrů propojení s jednotkami (porty) jsou ten aspekt, který favorizuje rozšiřování vektoru a mluví proti multiplikování jednotek o nižší šířce. Pokud máš jako základ procesor s 4x128bit jednotkami (který měl jenom 128bitové registry, tj. současné SVE, NEON, SSEx), tak při přidání dalších SIMD jednotek třeba na 6x nebo 8x této šířky musíš zvýšit počet portů do registrů i "rozšířit" schedulery a forwarding network aby zvládaly víc operací za cyklus. Přidávání portů do register file je problém, protože pak ti to víc žere, je mnohem větší problém stihnout časování a tak, není to zdaleka jenom o tom, že to stojí tranzistory.
Nebo to můžeš udělat bez toho a nějak to ošidit, ale 6x nebo 8x SIMD jednotek nebude škálovat a budou tam zčásti zbytečně, protože se málokdy využijou.

Pokud zůstaneš u 4x jednotek, ale rozšíříš registry a jednotky na 256bitů, tak naopak budeš mít lineární nárůst tranzistorů v registrech (pokud zachováme počet - teoreticky se dá udělat kompromis a místo 256 registrů mít jenom 192, například, takže nárůst tranzistorů bude pod 2x). Musíš rozšířit datové cesty sa mozřejmě přidat per-lane ALU v SIMD jednotkách - jenže ty jsou paralelní a nezávislé, takže to není architektonicky těžké.
Ale hloubka front a scheduleru se nemusí zvyšovat, nemusí se zvyšovat počet instrukcí zpracovávaných za tak, nemusí se přidávat porty.

Jediná výjimka, jak je zmíněno, jsou shuffle jednotky. Nicméně ne všechny instrukce permutují úplně napříč celým vektorem, často je to omezené na určté jho sekce pro usnadnění. A kromě toho, právě tyhle shuffle operace přes široký vektor taky bývají v programování hodně užitečné, proto taky třeba Zen 4 do tohohle investoval a má fakt 512bitové shuffle operace, přestože většina instrukcí se dělí na 256bitové operace.

BTW to, proč u 14nm Intelů hodně padal výkon/nebyl dobrý výkon při použití AVX-512 (ale to nebyl hlavní problém, horší bylo, že aktivace 512bitových operací uváděla procesor do přechodového stavu, který trval hrozně dlouho a o hodně snižoval výkon), nebyl počet tranzistorů, ale nároky na proud, který je pro provedení 512bitové operace třeba vyšší. A Intel neměl vybudovanou infrastrukturu, aby to dobře zvládl a proceosr používal strašné hacky na to, aby se vyhnul nestabilitě kvůli voltage dropu.
Výsledek byl, že mixování 256bitových a 512bitových isntrukcí (což většinou kód dělá) neustále spouštělo ty hacky řešící přechody mezi 256bit a 512bitovým vykonáváním.

To snížení taktů třeba ještě nemuselo být tak fatální, protože to často 2x výpočetní výkon mohl dohnat, ale tohle byl prostě velký problém. Zlepšilo se to u 10nm procesorů.

+1
+2
-1
Je komentář přínosný?

Konečně odpověď od někoho, kdo o tom něco ví. Ale pak mne zajímá, proč tolik ARM zůstává u 128 bit?

+1
0
-1
Je komentář přínosný?

Protože ARM i po rozšíření infrastruktury je furt menší a levnější na výrobu než x86 a většina aplikací nevyužije širší vektory a/nebo matice*. ARM jde cestou zvyšování obecného výkonu, který se projeví všude. Cesta AMD je taky dobrá, protože reálně aplikace, která ten výkon skutečně využije, nemá problém přidat codepath pro speciální instrukce* či akcelerátor**. Problém je pouze Intel.

*) Matice má i Apple Silicon. Papírově je to koprocesor, aby nemuseli porušit licenci na ARM ISA, ale reálně jde o "skryté" instrukce CPU jader (přístupné přes knihovnu v OS).

**) Apple Silicon a Qualcomm Snapdragon jsou dodávány s výkonnou GPU, NPU a videokodeky.

+1
0
-1
Je komentář přínosný?

SW nástroje tradičně k CPU dodával i Intel a ovladače atd, jsou snad samozřejmost všude. Ale je taky vidět, že ARM dobře ví, kde mají silné a slabé stránky a do WS a HPC se neženou.

+1
0
-1
Je komentář přínosný?

Tak třeba dnes letí workstationy pro AI, a tam je Apple dvojka po NVidii (a pro stejnou kapacitu VRAM stojí zlomek - za cenu o trochu pomalejší).

+1
0
-1
Je komentář přínosný?

Zrovna AI jsem nemyslel. Třeba stroje pro konstrukční práce.

+1
0
-1
Je komentář přínosný?

Těm dnes stačí historický HW ve srovnání s tím, co lidí kupují za WS dnes.

+1
0
-1
Je komentář přínosný?

Dost jednoduchý pohled. Možnost číslo 2 je, že na WS je možné zpracovat složitější a obsáhlejší projekt než dřív.

+1
0
-1
Je komentář přínosný?

To jistě. Děláme software pro statiky (stabilita budov, mostů, ...), a na to už dýl stačí vyšší model notebooku.

+1
0
-1
Je komentář přínosný?

Neřekl bych, že statika budov je to nejnáročnější. Možná u hodně velkých a složitých.

+1
0
-1
Je komentář přínosný?

Není to to nejnáročnější. Ale tak polovina věcí, co člověk dělá. Prostě co bylo workstation PC za 200 tisíc před 6 lety je dnes notebook za 50 tisíc.

+1
+1
-1
Je komentář přínosný?

O tom se nepřu, viděl jsem konfigurátor WS s dual EPYC a možností osadit 4 GPU. Jestli dobře počítám, maximum bylo 6 TB RAM. To je Hi End WS.

+1
0
-1
Je komentář přínosný?

Pro psaní komentářů se, prosím, přihlaste nebo registrujte.