Jak je to ve skutečnosti s HT/SMT a energetickou efektivitou?
Už dlouho se mluví o tom, že velké jádro procesorů Arrow Lake a Lunar Lake, tedy Lion Cove (verze z Lunar Lake s menší cache bývá někdy označována jako Lunar Cove) mělo být jakýmsi přerodem od klasické x86 architektury Intelu k nové generaci, jejíž vývoj inicioval za svého působení Intelu architekt Jim Keller (a se kterou to podle aktuálních zvěstí vypadá všelijak, k tomu se ale vrátíme jindy). Nová architektura měla přinést funkci rentable units, kdy dvě jádra (menší a efektivnější) měla být schopna spojit své hardwarové prostředky pro navýšení jednovláknového IPC až o 40 %. Později se začalo proslýchat, že právě experimentování při vývoji jader Lion Cove způsobilo, že u těchto jader nefunguje HT (Hyper-Threading).
Během představení architektury Lion Cove se Intel pokusil tuto nevýhodu prezentovat jako záměr a výhodu. Tvrdil totiž, že bez HT dosahuje procesor o 15 % vyšší energetické efektivity, tedy o 15 % lepšího poměru výkon na watt. Toto tvrzení však poněkud narušil slajd, který prezentoval, že s novou architekturou je největšího nárůstu IPC dosahováno při aktivním HT, přičemž výkon narůstá více než spotřeba (tzn. poměr spotřeba / výkon je s HT výhodnější):
Hyper-Threading na Lion Cove = 30 % výkonu navíc? (Intel)
Tento slajd vyvolal diskuze téměř pod každým článkem, ve kterém se objevil a s ohledem na skutečnost, že z některých článků po vydání zmizel, lze spekulovat o tom, že se do prezentace neměl dostat a Intel požádal o jeho stažení.
Rovněž se objevovala informace, že HT bude aktivní na serverové variantě architektury. Dávalo by to smysl, ztráta HT by Xeonům na konkurenceschopnosti nepřidala, a tak je lepší využít času do vydání a HT na serverové variantě jádra zprovoznit.
Jak je to ale ve skutečnosti s HT / SMT? Zlepšuje nebo zhoršuje energetickou efektivitu? Na tuto otázku dal odpověď srpnový článek Phoronixu, který testoval APU Strix Point se zapnutým i vypnutým SMT a to jak co do výkonu, tak do spotřeby. Otestoval řadu zátěží bez ohledu na to, jak a zda jsou na HT / SMT optimalizované či nikoli (ojediněle dochází k poklesu výkonu).
OSPRay 3.2 - příklad vysokého nárůstu výkonu se SMT (Phoronix)
Zjistil, že SMT může přinést výkonnostní posun až ke zhruba 50%.
OSPRay 3.2 - příklad dopadu SMT na spotřebu při vysokém nárůstu výkonu (Phoronix)
Ve většině zátěží byla obvyklá spotřeba (červený úsek) s aktivním SMT nepatrně nižší než s vypnutým SMT. Dává to smysl - pokud jsou zatížena všechna jádra, je se SMT zátěž na jádro vyšší, což u konfigurace limitované spotřebou znamená snížení taktů a tedy běh na frekvenci bližší energetickému optimu. Naopak bez SMT jádra běží na mírně vyšším taktu, což znamená nárůst spotřeby (vyšší než nárůst výkonu). Spotřeba byla mírně vyšší jen v menšině případů, zpravidla těch, kde SMT nepřináší nebo snižuje výkon.
LuxCoreRenderer / DLSC - příklad nižšího nárůstu výkonu a dopadu na spotřebu se SMT (Phoronix)
U mobilního procesoru limitovaného spotřebou je přínos SMT (v průměru 57 optimalizovaných i neoptimalizovaných zátěží) +18 % výkonu při ~2% snížením průměrné spotřeby a ~4% snížení maximální spotřeby.
Průměrný dopad SMT (v 57 zátěžích) na výkon i spotřebu (Phoronix)
Z tohoto měření vyplývá, že vynechání HT či SMT z energetického hlediska v podstatě nedává smysl, neboť HT / SMT přináší i u energeticky silně limitovaných čipů stále dost citelný nárůst výkonu bez nárůstu spotřeby (téměř 20% zvýšení energetické efektivity v průměru a téměř 50% zvýšení energetické efektivity v extrémech).
Intel rovněž argumentoval úsporou 10 % křemíku na jádrech, které má znamenat odstranění podpora HT oproti jeho vypnutí.
Odstranění HT z Lion Cove = 10% úspora křemíku na jádru (Intel)
I když budeme hodnotě 10 % věřit, matematicky to smysl nedává. HT podporují pouze velká jádra, která jsou v procesoru Lion Cove pouze 4. Z plochy funkčního křemíku (výplňovou dlaždici ani podložku nepočítám) Lunar Lake zabírají velká jádra pouhých 9,3 %. 10 % z 9,3 % plochy křemíku je tedy celková úspora 0,93 % křemíku. Ve chvíli, kdy Intel věnoval grafice a souvisejícím prvkům desítky procent plochy procesoru a rovněž NPU (AI akcelerátoru) věnoval více křemíku než čtyřem procesorovým jádrům, působí argumentace úsporou 0,93 % plochy za cenu ztráty 15 % výkonu (dle Intelu) naprosto nelogicky.