AMD uvažuje o samostatných NPU pro PC

7. 8. 2025 | no-X | Hardware, AI

Zdroj: AMD

Integrované AI akcelerátory, které známe jako NPU, by se mohly dočkat širšího uplatnění v podobě samostatných řešení v PC segmentu. První vlaštovky se již objevují a AMD zvažuje, zda se nepřidat…

Přestože se o samostatných NPU v PC segmentu mluví hlavně v přítomném a budoucím čase, reálně již za sebou mají několikaletou historii. První takové řešení se objevilo v Surface Laptop 2023 od Microsoftu a byť se ještě nejmenovalo NPU, ale VPU, šlo o totéž.

První samostatné NPU - NCE Myriad X (2017)

Jeho historie je samostatnou kapitolou, která ale stojí za krátké připomenutí. Začala založením irské společnosti Movidius v roce 2005, která roku 2016 vydala čip Myriad 2, označovaný jako Visual Processing Unit (VPU). Šlo o energeticky efektivní řešení pro zpracování obrazových dat, které ale ještě nemělo s AI příliš společného. To se ale změnilo již u další generace, Myriad X, která do VPU doplnila obvod tehdy označovaný jako NCE (Neural Compute Engine), což nebylo nic jiného než AI akcelerátor inference, jinými slovy NPU. Vydání Myriad X ale proběhlo v roce 2017, tedy poté, co Intel (v roce 2016) společnost Movidius koupil. Samotný Intel využil NCE společnosti Movidius, který upravil a rozšířil pro vyšší výkon a integroval jako NPU do procesorů Meteor Lake (10 TOPS). Samostatný Myriad X pak Intel nabídl například Microsoftu, který jej integroval jako samostatný akcelerátor zmíněného Surface Laptop 2023. Toto původní řešení však dosahovalo výkonu 1 TOPS, takže míru využitelnosti tohoto obvodu v Surface nelimitovala pouze softwarová podpora, ale také výkon (byl to právě Microsoft, který stanovil jako minimum pro Copilot+ výkon 40 TOPS).

Aktuální stav - stovky TOPS

Samostatná NPU v PC segmentu nicméně existují i nyní. Nedosahují však jednotek, ale stovek TOPS. Například notebook Dell Pro Max Plus disponuje akcelerátorem Qualcomm AI 100 jenž obsahuje dvojici čipů Cloud AI 100 osazenou 64 GB LPDDR4x. Dosahuje výkonu 450 TOPS, ovšem při 75W TDP. Z energetického hlediska se jeví jako zajímavější třeba řešení od start-upu Encharge AI, které existuje v jednočipové verzi (M.2) o výkonu přes 200 TOPS při velmi pěkných 8,25 wattech a ve čtyřčipové PCIe verzi o zhruba 1000 TOPS při 40 wattech. Této efektivity je překvapivě dosahováno (navzdory výrobě) na 16nm procesu. Řešení s tímto produktem zatím na trhu nejsou, takže jak to funguje v praxi, zůstává otázkou.

Lze tedy říct, že trh tohoto segmentu se již formuje, respektive v nějakém zárodku existuje.

Smysl NPU

NPU jsou ve své podstatě akcelerátory inference (aplikace neurální sítě, nikoli jejího tréningu). Inferenci lze celkem obstojně provozovat i na procesorových jádrech (CPU) a poměrně až velmi dobře i na grafických jádrech (GPU). Jaký smysl tedy má třetí obvod, který umí totéž? Primárně energetický.

CPU jádra běží na vysokém taktu a je jich relativně malý počet. Protože spotřeba s takty stoupá exponenciálně, není energetická efektivita jejich silnou stránkou, byť v některých zátěžích vyžadující nižší počet vláken může být zajímavá.

GPU běží na nižších taktech a je silně paralelní, takže je pro řadu zátěží výhodnější. Nevýhodou je ale vysoká celková spotřeba a fakt, že plného výkonu lze využít jen v zátěžích, které jsou široce paralelizovatelné a generují tisíce či desítky tisíc vláken.

NPU je obvod primárně optimalizovaný pro spotřebu a vysokou energetickou efektivitu. Toho dosahují kombinací několika faktorů. Jednak návrhem samostné architektury, která je primárně určena jako AI akcelerátor (což CPU ani GPU není), dále integrací paměti přímo v NPU (snížení objemů datových přenosů, snížení latencí) a nakonec i relativně nízkými takty.

NPU Meteor Lake: 1160 MHz
NPU Arrow Lake: 1600 MHz
NPU Phoenix: 1000 MHz
NPU Hawk Point: 1600 MHz
NPU Strix Point: 1563 MHz

Zatímco CPU jádra běží na cca 5-6 GHz a GPU na 2,5-3 GHz, NPU se většinou pohybují mezi 1-2 GHz, viz příklady výše. Výhoda energetické efektivity NPU se promítne primárně v mobilním segmentu, kde spotřeba rozhoduje o době, po kterou je zařízení schopno běžet na baterii.

NPU však mají ještě jednu výhodu. GPU sice mohou dosahovat podstatně vyššího výkonu, ale úspěšnost dosažení jejich plného potenciálu je závislá na paralelizaci zátěže. Pokud by zátěž tvořil nižší počet vláken, zůstává většina potenciálu nevyužitá a výsledný výkon bude podstatně nižší. I proto dává nasazení GPU jakožto AI akcelerátoru smysl hlavně v grafice, pro kterou je GPU postavené, protože právě v grafické zátěže lze snadno paralelizovat. Vezměme si jako příklad GeForce RTX 5090 a NPU z APU Strix Point.

GeForce RTX 5090: 3352 TOPS na 21 760 jednotek, tj. 0,154 TOPS na jednotku
NPU z APU Strix Point: 50 TOPS na 32 jednotek, tj. 1,563 TOPS na jednotku

Výkon na jednotku je u NPU řádově vyšší, takže ve chvíli, kdy nepříliš paralelizovatelná zátěž využije desítky jednotek, bude NPU nejen energeticky efektivnější, ale může být i výkonnější.

Na integrovaná se NPU tedy v současnosti hledí primárně jako na energeticky efektivní řešení. Má ale vyšší potenciál, jak ukazují čísla v předchozím odstavci. Výkonnější NPU (v řádu stovek TOPS) by mohla výkonem směle konkurovat GPU, díky vyšší flexibilitě být efektivnější v různých typech zátěže a to vše stále i při vyšší energetické efektivitě (tisíce TOPS v řádu desítek, nikoli stovek wattů).

Není proto divu, že nejedna značka upírá k tomuto trhu pozornost. Patří mezi ně i AMD, která podle rozhovoru s Rahulem Tikoo analyzuje situaci a zvažuje, zda nabídnout výkonnější NPU jako samostatné řešení pro PC. Podle AMD totiž výrobci jako Dell, Lenovo a HP začali tématu samostatných NPU věnovat a zjišťují, jaké výhody by takové řešení nabídlo oproti samostatným GPU. Nutno podotknout, že z hlediska výrobců jsou podstatnou výhodou i prvky jako výrobní náklady, spotřeba (tzn. nižší nároky na zdroj), rozměry a hmotnost výsledné sestavy (cena dopravy).

Podobně jako integrovaná GPU mají smysl pouze do určité výkonnostní úrovně (od jistého bodu vychází výhodněji samostatné řešení), tak i integrovaná NPU mají své meze a od určitého výkonnostního stupně dává samostatné řešení lepší smysl. Už z toho hlediska, že aktuálně nemá smysl integrovat NPU o výkonu vyšších stovek TOPs, když pro něj většina zákazníků nebude mít využití. Nabídnout řešení s o řád vyšším výkonem, než nabízí integrovaný obvod, ale může mít smysl.

Poměrně blízko segmentu samostatných NPU pro PC je i segment tzv. Agentic AI, tedy akcelerátorů v Edge segmentu, tedy v sítích na úrovni co nejbližší spotřebiteli. V obou případech jde převážně o inferenci, v obou případech je požadavek na výkon mezi integrovaným řešením a výkonnými AI akcelerátory za desítky tisíc. Jen v Edge segmentu budou požadavky na výkon zhruba o řád vyšší než u samostatného řešení pro PC, protože musí sloužit vyššímu počtu uživatelů.

integrované NPU: řád desítek TOPS
samostatné NPU: řád stovek TOPS
Edge NPU: řád tisíců TOPS (POPS)
výkonný AI akcelerátor: řád desítek tiscí TOPS (desítek POPS)

Tagy: