FP64 nevymizí, Ozaki není alternativou, má problémy s přesností i kompatibilitou
FP64 a HPC
Nvidia v minulosti získala nemálo zakázek v segmentu HPC / superpočítačů díky svým akcelerátorům na bázi GPGPU. Jakmile však ucítila nastupující vlnu AI, přestala svá výpočetní GPU optimalizovat pro potřeby superpočítačů a zaměřila se na tenzorové výpočty. Zatímco původně navyšovala výkon v FP64 vektorech, s nástupem matic šla tato metrika na vedlejší kolej. Kupříkladu s generací Ampere stoupl výkon v AI (podle formátu) na 2,5-5násobek, v dříve nepodporované přesnosti i řádově, ale výkon v FP64 vektorech se posunul pouze 1,24×.
- Nvidia Ampere uveden: Vše na oltář Tensor Cores 2020
- Instinct MI250X: 5× vyšší výkon v FP64 než Ampere 2021
AMD naproti tomu výkon v FP64 navyšovala podstatně déle. V důsledku toho, a v kombinaci s faktem, že Nvidia v podstatě v segmentu superpočítačů vyklidila pole, získala AMD s Instinct MI250X množství zakázek na superpočítače (Frontier, Setonix, Lumi, Adastra aj.). To pomohlo vzmáhající se AMD nejen finančně, ale především to vedlo k bleskovému rozšíření akcelerátorů od firmy, která v daném segmentu do té doby neměla téměř žádné zakázky. To mělo příznivý dopad na podporu a také na tržní zastoupení procesorů Epyc, které v téměř všech systémech akcelerátory Instinct provázely.
Mimo segment klasických superpočítačů, v AI systémech, však získala řadu zakázek Nvidia - i díky softwarové podpoře v tomto segmentu. Akcelerátory Nvidie jsou tudíž velmi rozšířené, na druhou stranu podpora formátu FP64 je poměrně potlačená. Jenže se ukazuje, že poptávka po FP64 výpočtech nevymizela, ona naopak roste, jen ne tak rychle jako AI segment. Co s tím?
Řešení? Ozaki Scheme
Jako řešení se jevilo použití tzv. Ozaki Scheme, emulace Ozakiho schématu, což je metoda (publikovaná převážně v letech 2022-2025), jak na hardwaru s nižší přesností (Int8, FP8, FP16) emulovat výpočty vyžadující vyšší přesnost (FP64). Jde o metodu pro přesnější sčítání a násobení v plovoucí desetinné čárce s tím, že rozkládá čísla na více částí a tím omezuje zaokrouhlovací chyby. Novodobě bylo publikováno vylepšené schéma, označované neformálně jako Ozaki II, které alespoň některé subjekty považovaly za cestu, jak řešit FP64 na akcelerátorech s pomalou podporou tohoto formátu.
Omezení
Redakce HPCwire spáchala rozhovor s AMD Fellow Nickem Malayou. Ten pracuje u AMD poslední dekádu v oddělení HPC a významně se podílel na úspěchu superpočítačů Frontier a El Capitan (první byl několik let na špičce žebříčku nejvýkonnějších superpočítačů Top500 a druhý jej nahradil a na nejvyšší příčce stojí dosud). Podle Malayi bylo rozhodnutí vytvořit HPC variantu akcelerátoru Instinct MI450 (nazvanou MI430) právě důsledkem zklamání z Ozaki Scheme. To trpí dvěma zásadními problémy. V první řadě není kompatibilní se standardy IEEE a za druhé nedává stejné výsledky (odpovědi) jako nativní použití FP64.
Přesnost může limitovat použitelnost poměrně zásadně:
V některých případech je to v pořádku. Ale u mnoha matic, se kterými se běžně setkáváme, jsou dopady na přesnost poměrně zásadní. Reálně může jít o matice, jejichž prvky se liší o několik řádů… Ozaki má problémy s přesností. --- Nick Malaya, AMD |
Další problém s Ozaki se týká očekávaného vstupu čtvercových matic. Pokud HPC úloha nemá čtvercové matice, pak výkon klesne pod úroveň nativního hardwaru FP64. Podle HPCwire navíc změny v instrukcích DGEMM (obecné násobení matic s dvojitou přesností), které by jim umožnily těžit z Ozakiho schématu, byly realizovány v méně než 10 % běžných HPC aplikací. To je však nutná podmínka, protože Ozakiho schéma nelze aplikovat na vektorové výpočty, přičemž HPC aplikace tradičně používají vektorové výpočty na rozdíl od tenzorové / maticové matematiky, která převazuje v segmentu umělé inteligence.
Malaya konstatoval, že AMD bude podporovat Ozakiho schéma (nejde o nic jiného než software), ale z výše uvedených důvodů nemůže ho považovat za řešení pro FP64. Proto nadále pokračuje s nativní podporou rychlého FP64 na úrovni hardwaru - konkrétně v podobě Instinct MI430X.
- AMD vybaví evropský exascale superpočítač Alice Recoque Zen 6 a Instinct MI430X
- AMD získala zakázky od DoE na dva superpočítače s Instinct MI355X a MI430
Stávající akcelerátory AMD nabízejí v FP64 výkon kolem 80 TFLOPS, řešení od Nvidie, dlouhodobě zaměřená čistě na AI nativně dosahují výkonu mezi 30-40 TFLOPS. Konkrétní údaje pro Instinct MI430X zatím nebyly zveřejněné, ale můžeme považovat za jisté, že v tomto kontextu půjde o trojcifernou hodnotu.



















