Diit.cz - Novinky a informace o hardware, software a internetu

FP64 nevymizí, Ozaki není alternativou, má problémy s přesností i kompatibilitou

Zdroj: HPC Wire

FP64 ze světa výpočetních akcelerátorů nezmizí. Navzdory tzv. Ozaki Scheme, které přinášelo příslib emulace na hardwaru s nižší přesností, nejsou výsledky použitelné pro ~90 % zátěží a situací…

FP64 a HPC

Nvidia v minulosti získala nemálo zakázek v segmentu HPC / superpočítačů díky svým akcelerátorům na bázi GPGPU. Jakmile však ucítila nastupující vlnu AI, přestala svá výpočetní GPU optimalizovat pro potřeby superpočítačů a zaměřila se na tenzorové výpočty. Zatímco původně navyšovala výkon v FP64 vektorech, s nástupem matic šla tato metrika na vedlejší kolej. Kupříkladu s generací Ampere stoupl výkon v AI (podle formátu) na 2,5-5násobek, v dříve nepodporované přesnosti i řádově, ale výkon v FP64 vektorech se posunul pouze 1,24×.

AMD naproti tomu výkon v FP64 navyšovala podstatně déle. V důsledku toho, a v kombinaci s faktem, že Nvidia v podstatě v segmentu superpočítačů vyklidila pole, získala AMD s Instinct MI250X množství zakázek na superpočítače (Frontier, Setonix, Lumi, Adastra aj.). To pomohlo vzmáhající se AMD nejen finančně, ale především to vedlo k bleskovému rozšíření akcelerátorů od firmy, která v daném segmentu do té doby neměla téměř žádné zakázky. To mělo příznivý dopad na podporu a také na tržní zastoupení procesorů Epyc, které v téměř všech systémech akcelerátory Instinct provázely.

Mimo segment klasických superpočítačů, v AI systémech, však získala řadu zakázek Nvidia - i díky softwarové podpoře v tomto segmentu. Akcelerátory Nvidie jsou tudíž velmi rozšířené, na druhou stranu podpora formátu FP64 je poměrně potlačená. Jenže se ukazuje, že poptávka po FP64 výpočtech nevymizela, ona naopak roste, jen ne tak rychle jako AI segment. Co s tím?

Řešení? Ozaki Scheme

Jako řešení se jevilo použití tzv. Ozaki Scheme, emulace Ozakiho schématu, což je metoda (publikovaná převážně v letech 2022-2025), jak na hardwaru s nižší přesností (Int8, FP8, FP16) emulovat výpočty vyžadující vyšší přesnost (FP64). Jde o metodu pro přesnější sčítání a násobení v plovoucí desetinné čárce s tím, že rozkládá čísla na více částí a tím omezuje zaokrouhlovací chyby. Novodobě bylo publikováno vylepšené schéma, označované neformálně jako Ozaki II, které alespoň některé subjekty považovaly za cestu, jak řešit FP64 na akcelerátorech s pomalou podporou tohoto formátu.

Omezení

Redakce HPCwire spáchala rozhovor s AMD Fellow Nickem Malayou. Ten pracuje u AMD poslední dekádu v oddělení HPC a významně se podílel na úspěchu superpočítačů Frontier a El Capitan (první byl několik let na špičce žebříčku nejvýkonnějších superpočítačů Top500 a druhý jej nahradil a na nejvyšší příčce stojí dosud). Podle Malayi bylo rozhodnutí vytvořit HPC variantu akcelerátoru Instinct MI450 (nazvanou MI430) právě důsledkem zklamání z Ozaki Scheme. To trpí dvěma zásadními problémy. V první řadě není kompatibilní se standardy IEEE a za druhé nedává stejné výsledky (odpovědi) jako nativní použití FP64.

Přesnost může limitovat použitelnost poměrně zásadně:

V některých případech je to v pořádku. Ale u mnoha matic, se kterými se běžně setkáváme, jsou dopady na přesnost poměrně zásadní. Reálně může jít o matice, jejichž prvky se liší o několik řádů… Ozaki má problémy s přesností.

--- Nick Malaya, AMD

Další problém s Ozaki se týká očekávaného vstupu čtvercových matic. Pokud HPC úloha nemá čtvercové matice, pak výkon klesne pod úroveň nativního hardwaru FP64. Podle HPCwire navíc změny v instrukcích DGEMM (obecné násobení matic s dvojitou přesností), které by jim umožnily těžit z Ozakiho schématu, byly realizovány v méně než 10 % běžných HPC aplikací. To je však nutná podmínka, protože Ozakiho schéma nelze aplikovat na vektorové výpočty, přičemž HPC aplikace tradičně používají vektorové výpočty na rozdíl od tenzorové / maticové matematiky, která převazuje v segmentu umělé inteligence.

Malaya konstatoval, že AMD bude podporovat Ozakiho schéma (nejde o nic jiného než software), ale z výše uvedených důvodů nemůže ho považovat za řešení pro FP64. Proto nadále pokračuje s nativní podporou rychlého FP64 na úrovni hardwaru - konkrétně v podobě Instinct MI430X.

Stávající akcelerátory AMD nabízejí v FP64 výkon kolem 80 TFLOPS, řešení od Nvidie, dlouhodobě zaměřená čistě na AI nativně dosahují výkonu mezi 30-40 TFLOPS. Konkrétní údaje pro Instinct MI430X zatím nebyly zveřejněné, ale můžeme považovat za jisté, že v tomto kontextu půjde o trojcifernou hodnotu.

Zdroje: 

Diskuse ke článku FP64 nevymizí, Ozaki není alternativou, má problémy s přesností i kompatibilitou

Středa, 8 Duben 2026 - 20:46 | Kubrak | Vzdyt rikam, ze slunecni soustava je chaoticky...
Středa, 8 Duben 2026 - 20:18 | Umpa Čumpa | A nebol by v single precision problém, že by sa...
Středa, 8 Duben 2026 - 20:04 | Umpa Čumpa | Áno, len som chcel vysvetliť prečo je často nutná...
Středa, 8 Duben 2026 - 17:19 | Ji Si | Tady se ale nejedná o to, že by se výpočet v FP64...
Středa, 8 Duben 2026 - 14:45 | Ji Si | Co se týče výpočtu drah družic, tak tam je...
Středa, 8 Duben 2026 - 14:43 | melkor | Když se podíváme na chyby zaokrouhlování, tak u...
Středa, 8 Duben 2026 - 14:38 | melkor | >> Takze ono mozna pro trajektorie...
Středa, 8 Duben 2026 - 14:18 | no-X | To s tím pí na 2 desetinná místa je vtip, který...
Středa, 8 Duben 2026 - 12:17 | Umpa Čumpa | Pri maticových operáciách je dôležitá...
Středa, 8 Duben 2026 - 12:03 | Kubrak | "Pro výpočty trajektorií vesmírných objektů...

Zobrazit diskusi