FP64 nevymizí, Ozaki není alternativou, má problémy s přesností i kompatibilitou

8. 4. 2026 | no-X | Hardware, Novinky, Grafiky, Servery a sítě, AI, Software

Zdroj: HPC Wire

FP64 ze světa výpočetních akcelerátorů nezmizí. Navzdory tzv. Ozaki Scheme, které přinášelo příslib emulace na hardwaru s nižší přesností, nejsou výsledky použitelné pro ~90 % zátěží a situací…

FP64 a HPC

Nvidia v minulosti získala nemálo zakázek v segmentu HPC / superpočítačů díky svým akcelerátorům na bázi GPGPU. Jakmile však ucítila nastupující vlnu AI, přestala svá výpočetní GPU optimalizovat pro potřeby superpočítačů a zaměřila se na tenzorové výpočty. Zatímco původně navyšovala výkon v FP64 vektorech, s nástupem matic šla tato metrika na vedlejší kolej. Kupříkladu s generací Ampere stoupl výkon v AI (podle formátu) na 2,5-5násobek, v dříve nepodporované přesnosti i řádově, ale výkon v FP64 vektorech se posunul pouze 1,24×.

Nvidia Ampere uveden: Vše na oltář Tensor Cores ²⁰²⁰
Instinct MI250X: 5× vyšší výkon v FP64 než Ampere ²⁰²¹

AMD naproti tomu výkon v FP64 navyšovala podstatně déle. V důsledku toho, a v kombinaci s faktem, že Nvidia v podstatě v segmentu superpočítačů vyklidila pole, získala AMD s Instinct MI250X množství zakázek na superpočítače (Frontier, Setonix, Lumi, Adastra aj.). To pomohlo vzmáhající se AMD nejen finančně, ale především to vedlo k bleskovému rozšíření akcelerátorů od firmy, která v daném segmentu do té doby neměla téměř žádné zakázky. To mělo příznivý dopad na podporu a také na tržní zastoupení procesorů Epyc, které v téměř všech systémech akcelerátory Instinct provázely.

Mimo segment klasických superpočítačů, v AI systémech, však získala řadu zakázek Nvidia - i díky softwarové podpoře v tomto segmentu. Akcelerátory Nvidie jsou tudíž velmi rozšířené, na druhou stranu podpora formátu FP64 je poměrně potlačená. Jenže se ukazuje, že poptávka po FP64 výpočtech nevymizela, ona naopak roste, jen ne tak rychle jako AI segment. Co s tím?

Řešení? Ozaki Scheme

Jako řešení se jevilo použití tzv. Ozaki Scheme, emulace Ozakiho schématu, což je metoda (publikovaná převážně v letech 2022-2025), jak na hardwaru s nižší přesností (Int8, FP8, FP16) emulovat výpočty vyžadující vyšší přesnost (FP64). Jde o metodu pro přesnější sčítání a násobení v plovoucí desetinné čárce s tím, že rozkládá čísla na více částí a tím omezuje zaokrouhlovací chyby. Novodobě bylo publikováno vylepšené schéma, označované neformálně jako Ozaki II, které alespoň některé subjekty považovaly za cestu, jak řešit FP64 na akcelerátorech s pomalou podporou tohoto formátu.

Omezení

Redakce HPCwire spáchala rozhovor s AMD Fellow Nickem Malayou. Ten pracuje u AMD poslední dekádu v oddělení HPC a významně se podílel na úspěchu superpočítačů Frontier a El Capitan (první byl několik let na špičce žebříčku nejvýkonnějších superpočítačů Top500 a druhý jej nahradil a na nejvyšší příčce stojí dosud). Podle Malayi bylo rozhodnutí vytvořit HPC variantu akcelerátoru Instinct MI450 (nazvanou MI430) právě důsledkem zklamání z Ozaki Scheme. To trpí dvěma zásadními problémy. V první řadě není kompatibilní se standardy IEEE a za druhé nedává stejné výsledky (odpovědi) jako nativní použití FP64.

Přesnost může limitovat použitelnost poměrně zásadně:

V některých případech je to v pořádku. Ale u mnoha matic, se kterými se běžně setkáváme, jsou dopady na přesnost poměrně zásadní. Reálně může jít o matice, jejichž prvky se liší o několik řádů… Ozaki má problémy s přesností.

--- Nick Malaya, AMD

Další problém s Ozaki se týká očekávaného vstupu čtvercových matic. Pokud HPC úloha nemá čtvercové matice, pak výkon klesne pod úroveň nativního hardwaru FP64. Podle HPCwire navíc změny v instrukcích DGEMM (obecné násobení matic s dvojitou přesností), které by jim umožnily těžit z Ozakiho schématu, byly realizovány v méně než 10 % běžných HPC aplikací. To je však nutná podmínka, protože Ozakiho schéma nelze aplikovat na vektorové výpočty, přičemž HPC aplikace tradičně používají vektorové výpočty na rozdíl od tenzorové / maticové matematiky, která převazuje v segmentu umělé inteligence.

Malaya konstatoval, že AMD bude podporovat Ozakiho schéma (nejde o nic jiného než software), ale z výše uvedených důvodů nemůže ho považovat za řešení pro FP64. Proto nadále pokračuje s nativní podporou rychlého FP64 na úrovni hardwaru - konkrétně v podobě Instinct MI430X.

Stávající akcelerátory AMD nabízejí v FP64 výkon kolem 80 TFLOPS, řešení od Nvidie, dlouhodobě zaměřená čistě na AI nativně dosahují výkonu mezi 30-40 TFLOPS. Konkrétní údaje pro Instinct MI430X zatím nebyly zveřejněné, ale můžeme považovat za jisté, že v tomto kontextu půjde o trojcifernou hodnotu.

Tagy:

superpočítač, FP64, Instinct, MI400, AMD

Zdroje:

HPCwire

nahlásit chybu

Jiří "no-X" Souček

více článků, blogů a informací o autorovi

Diskuse ke článku FP64 nevymizí, Ozaki není alternativou, má problémy s přesností i kompatibilitou

Pátek, 10 Duben 2026 - 10:54 | maraou | Ja tomu teda zas tak nerozumim, moji domovinou je...

Pátek, 10 Duben 2026 - 10:44 | maraou | Samozřejmě že by to byl problém, je to všechno...

Čtvrtek, 9 Duben 2026 - 06:42 | goldmarked | nice post

Středa, 8 Duben 2026 - 22:14 | waleed | Den 3.14 není přesmička. To jen amíci mají...

Středa, 8 Duben 2026 - 20:46 | Kubrak | Vzdyt rikam, ze slunecni soustava je chaoticky...

Středa, 8 Duben 2026 - 20:18 | Umpa Čumpa | A nebol by v single precision problém, že by sa...

Středa, 8 Duben 2026 - 20:04 | Umpa Čumpa | Áno, len som chcel vysvetliť prečo je často nutná...

Středa, 8 Duben 2026 - 17:19 | Ji Si | Tady se ale nejedná o to, že by se výpočet v FP64...

Středa, 8 Duben 2026 - 14:45 | Ji Si | Co se týče výpočtu drah družic, tak tam je...

Středa, 8 Duben 2026 - 14:43 | melkor | Když se podíváme na chyby zaokrouhlování, tak u...

Zobrazit diskusi

Diit.cz - Novinky a informace o hardware, software a internetu

FP64 nevymizí, Ozaki není alternativou, má problémy s přesností i kompatibilitou

FP64 a HPC

Řešení? Ozaki Scheme

Omezení

Jiří "no-X" Souček

Diskuse ke článku FP64 nevymizí, Ozaki není alternativou, má problémy s přesností i kompatibilitou

Komerční sdělení

CDR Hry

Epic rozdává zdarma hru, která potěší hráče fantasy strategických her

Zákaz trollů, goblinů a holubů. Interní pravidla OpenAI zní jako pořádná satira

Windows 11 dostává za vyučenou od SteamOS. Microsoft konečně přiznává problém

Kdo a proč vykopal sítě tunelů pod Evropou? Archeologové jsou dlouhodobě zmatení

Naděje jménem 2D materiály naráží na fyzikální limit, který nelze obejít

Aktuálně z blogů

KOMENTÁŘ: Jak se žije s „neomezenými“ daty za 29 Kč?

SockaPC 2023, dějství druhé

SockaPC a SockaPhone 2023 (ani na to neklikejte)

Pár slov k Socka PC 2022+

Komentář k testu 5800X3D s RX 6900 XT