Legendární superpočítač Aurora navzdory příslibu 2,4 EFLOPS nepřekonal Frontier
V dubnu 2015 jste si na našem webu mohli přečíst článek:
Od té doby už přicházely pouze zprávy o odkladech, přepracování projektu, rušení a obnovování plánů. Původně měla být Aurora postavena na Xeonech Phi od Intelu, tedy akcelerátorech vycházejících z architektury Larrabee. To byla původně architektura navržená pro samostatné grafické karty, která se většinu specializovaných jednotek snažila nahradit víceúčelovými programovatelnými. Což ovšem stálo násobně více tranzistorů, tedy i více energie a více křemíku (tudíž i více peněz). Plán výroby grafických karet na bázi Larrabee zkrachovaly a místo nich architekturu Intel využil na akcelerátory nazvané Xeon Phi. Právě jejich generace Knights Hill měla pohánět Auroru.
Jenže co čert nechtěl, zrovna na Knights Hill vyšel dobře známý 10nm proces Intelu, což znamenalo odklady. Odklady tak významné, že se během nich proměnily požadavky na úlohy, které se na superpočítačích zpracovávají. Začínala se rozjíždět umělá inteligence, a tak zákazník (Argonne National Laboratory) dal Intelu druhou možnost: Zpoždění nevadí, pokud superpočítač krom vysokého FP64 výkonu bude nabízet i akceleraci AI. Což byl problém. Intel měl na rýsovacích prknech Knights Hill určený pro akceleraci FP64 výpočtů a Knights Mill pro FP16 (tehdy používaný v AI). Neměl tedy akcelerátor, který by zvládal obojí a zároveň Knights Mill měl dorazit ještě později než Knights Hill.
Po čase z těchto plánů sešlo, vývoj Xeonů Phi byl pro nezájem zákazníků ukončen, a aby Intel zakázku neztratil, začal vyvíjet novou grafickou architekturu, kterou by mohl použít i pro novou řadu akcelerátorů, jimž by Auroru vybavil. Zprvu se mluvilo o tzv. Xe-HP. Informace ale byly zmatené. Až později vyšlo najevo, že Intel střídavě zkoušel monolitické i dlaždicové řešení, ale obě měla potíže (první nejspíš výtěžnost, druhé energetické nároky sběrnice propojující dlaždice).
Ponte Vecchio, akcelerátor Intelu pro superpočítač Aurora (Intel)
Nakonec došlo na (minimálně čtvrtý?) plán. Xe-HPC neboli Ponte Vecchio neboli to, co bylo začátkem letošního roku představeno jako Intel Data Center GPU Max Series. V době původního ohlášení šlo o velmi složité řešení postavené na 63 dlaždicích vyráběných různými procesy Intelu i TSMC. Intel tehdy oznámil, že byl navýšen cílový výkon z původně uváděného 1 EFLOPS na 2,4 EFLOPS.
superpočítač | komplet. | výkon FP64 | spotř. | CPU | (GP)GPU |
---|---|---|---|---|---|
Summit | 2018 | 0,2 EFLOPS | 13 MW | IBM | Nvidia |
Sierra | 2018 | 0,125 EFLOPS | 11 MW | IBM | Nvidia |
Perlmutter | 2020 | 0,1 EFLOPS | 21,5 MW | AMD | Nvidia |
HPC Mega-Project | ? | 0,275 EFLOPS | ? | AMD | AMD |
Fugaku | 2021 | 0,415 EFLOPS | 18 MW | Fujitsu | - |
Frontier | 2021 | ~2,0 EFLOPS | 27 MW | AMD | AMD |
Oceanlite | 2021 | 1,3 EFLOPS | 35 MW | SW26010 | - |
Tianhe-3 | 2021 | 1,3 EFLOPS | ? | FeiTeng | - |
Aurora | 2023 | ~2,4 EFLOPS | 60 MW | Intel | Intel |
El Capitan | 2023 | >2 EFLOPS | ~30 MW | AMD | AMD |
? (pro EXAIL) | 2023? | ? EFLOPS | ? | Nvidia | Nvidia |
AMD někdy v té době pracovala na hardwaru pro superpočítač Frontier, který měl dosahovat špičkového výkonu kolem 1,5 EFLOPS, ale nakonec se měl přiblížit ke 2 EFLOPS. Ohlášený byl dále ElCapitan rovněž postavený na hardwaru AMD, který byl původně rovněž projektován na vyšší výkon, ale nakonec bylo oznámeno, že danou hardwarovou konfigurací může překonat 2 EFLOPS.
Top500
Nyní autoři žebříčku nejvýkonnějších superpočítačů světa Top500 zveřejnili hodnocení za listopad, ve kterém se Aurora objevila vůbec poprvé. Výsledky však nejsou příliš povzbudivé. Hardwarová konfigurace s teoretickým výkonem až 2,4 EFLOPS dosáhla maximálního výkonu 0,585 EFLOPS a špičkového výkonu 1,059 EFLOPS. To je 44 % instalovaného teoretického výkonu.
O rok a půl déle fungující Frontier dosahuje maximálního výkonu 1,194 EFLOPS (2× více) a špičkového výkonu 1580 EFLOPS (1,5× více). Připomeňme, že Frontier je postaven na akcelerátorech AMD Instinct MI250X, jejichž éra pomalu končí. Ty navíc stojí na 2 čipletech (oproti 63 dlaždicím Intelu) vyrobených generickým 6nm procesem TSMC. Jsou vybavené všeho všudy 16 MB integrované L2 cache oproti 408 MB Rambo Cache v samostatných dlaždicích.
AMD Instinct MI250X: 2 kusy křemíku (6nm TSMC), 16 MB cache, architektura minulé generace (CDNA 2)
Bohužel ani energetická stránka není příliš přesvědčivá. Zatímco Frontier nabízí 52,59 GFLOPS / watt, Aurora dosahuje pouze 23,71 GFLOPS / watt, tedy 45 % toho co Frontier.
Dalo by se spekulovat o tom, zda se ještě systém nepodaří vyladit a výsledky nebudou výhledově lepší. Jenže Aurora byla zkompletována v červnu, takže na ladění bylo bezmála půl roku. Kdyby navíc tvůrci výsledek považovali za neobjektivní a viděli potenciál k zásadnímu zlepšení, nemuseli by jej do žebříčku Top500 vůbec zařazovat. Čísla navíc celkem korespondují s informací v říjnu vypuštěnou webem The Next Platform, podle něhož zákazníci nemají o akcelerátory Ponte Vecchio zájem, protože nejsou po stránce energetické efektivity konkurenceschopné (nakonec byl jeden projekt s Ponte Vecchio ohlášen, za čímž patrně bude stát skutečnost, že řešení Nvidie jsou prakticky nedostupná, respektive dostupná za dvojnásobek původní ceny navíc s roční čekací dobou).
AMD Instinct MI300A, jádro superpočítače El Captain, s architekturou CDNA 3, Zen 4,
vrstvenými čiplety, Infinity Cache a HBM3 s datovou propustností 5,2 TB/s (AMD)
Lze však připustit, že zveřejnění výsledků v listopadovém žebříčku bylo žádoucí z toho důvodu, že v příštím (květnovém) vydání by již mohl být zařazen výsledek superpočítače El Capitan postaveného na výpočetním APU (Zen 4 + CDNA 3) Instinct MI300A, který překoná Frontier výkonem i energetickou efektivitou. Aurora, která by podle papírových specifikací měla být z této trojice nejvýkonnější, by tak ani dočasně neuhájila druhé místo a rovnou skončila na třetím.