Diit.cz - Novinky a informace o hardware, software a internetu

Legendární superpočítač Aurora navzdory příslibu 2,4 TFLOPS nepřekonal Frontier

8 let připravovaný superpočítač Aurora se dostal do listopadové verze žebříčku Top500. K celkovému překvapení však nedokázal překonat stávající Frontier, který se na špičce drží již rok a půl…

V dubnu 2015 jste si na našem webu mohli přečíst článek:

Od té doby už přicházely pouze zprávy o odkladech, přepracování projektu, rušení a obnovování plánů. Původně měla být Aurora postavena na Xeonech Phi od Intelu, tedy akcelerátorech vycházejících z architektury Larrabee. To byla původně architektura navržená pro samostatné grafické karty, která se většinu specializovaných jednotek snažila nahradit víceúčelovými programovatelnými. Což ovšem stálo násobně více tranzistorů, tedy i více energie a více křemíku (tudíž i více peněz). Plán výroby grafických karet na bázi Larrabee zkrachovaly a místo nich architekturu Intel využil na akcelerátory nazvané Xeon Phi. Právě jejich generace Knights Hill měla pohánět Auroru.

Jenže co čert nechtěl, zrovna na Knights Hill vyšel dobře známý 10nm proces Intelu, což znamenalo odklady. Odklady tak významné, že se během nich proměnily požadavky na úlohy, které se na superpočítačích zpracovávají. Začínala se rozjíždět umělá inteligence, a tak zákazník (Argonne National Laboratory) dal Intelu druhou možnost: Zpoždění nevadí, pokud superpočítač krom vysokého FP64 výkonu bude nabízet i akceleraci AI. Což byl problém. Intel měl na rýsovacích prknech Knights Hill určený pro akceleraci FP64 výpočtů a Knights Mill pro FP16 (tehdy používaný v AI). Neměl tedy akcelerátor, který by zvládal obojí a zároveň Knights Mill měl dorazit ještě později než Knights Hill.

Po čase z těchto plánů sešlo, vývoj Xeonů Phi byl pro nezájem zákazníků ukončen, a aby Intel zakázku neztratil, začal vyvíjet novou grafickou architekturu, kterou by mohl použít i pro novou řadu akcelerátorů, jimž by Auroru vybavil. Zprvu se mluvilo o tzv. Xe-HP. Informace ale byly zmatené. Až později vyšlo najevo, že Intel střídavě zkoušel monolitické i dlaždicové řešení, ale obě měla potíže (první nejspíš výtěžnost, druhé energetické nároky sběrnice propojující dlaždice).

Ponte Vecchio, akcelerátor Intelu pro superpočítač Aurora (Intel)

Nakonec došlo na (minimálně čtvrtý?) plán. Xe-HPC neboli Ponte Vecchio neboli to, co bylo začátkem letošního roku představeno jako Intel Data Center GPU Max Series. V době původního ohlášení šlo o velmi složité řešení postavené na 63 dlaždicích vyráběných různými procesy Intelu i TSMC. Intel tehdy oznámil, že byl navýšen cílový výkon z původně uváděného 1 EFLOPS na 2,4 EFLOPS.

superpočítačkomplet.výkon FP64spotř.CPU(GP)GPU
Summit20180,2 EFLOPS13 MWIBMNvidia
Sierra20180,125 EFLOPS11 MWIBMNvidia
Perlmutter20200,1 EFLOPS21,5 MWAMDNvidia
HPC Mega-Project?0,275 EFLOPS?AMDAMD
Fugaku20210,415 EFLOPS18 MWFujitsu-
Frontier2021~2,0 EFLOPS27 MWAMDAMD
Oceanlite20211,3 EFLOPS35 MWSW26010-
Tianhe-320211,3 EFLOPS?FeiTeng-
Aurora2023~2,4 EFLOPS60 MWIntelIntel
El Capitan2023>2 EFLOPS~30 MWAMDAMD
? (pro EXAIL)2023?? EFLOPS?NvidiaNvidia

AMD někdy v té době pracovala na hardwaru pro superpočítač Frontier, který měl dosahovat špičkového výkonu kolem 1,5 EFLOPS, ale nakonec se měl přiblížit ke 2 EFLOPS. Ohlášený byl dále ElCapitan rovněž postavený na hardwaru AMD, který byl původně rovněž projektován na vyšší výkon, ale nakonec bylo oznámeno, že danou hardwarovou konfigurací může překonat 2 EFLOPS.

Top500

Nyní autoři žebříčku nejvýkonnějších superpočítačů světa Top500 zveřejnili hodnocení za listopad, ve kterém se Aurora objevila vůbec poprvé. Výsledky však nejsou příliš povzbudivé. Hardwarová konfigurace s teoretickým výkonem až 2,4 EFLOPS dosáhla maximálního výkonu 0,585 EFLOPS a špičkového výkonu 1,059 EFLOPS. To je 44 % instalovaného teoretického výkonu.

O rok a půl déle fungující Frontier dosahuje maximálního výkonu 1,194 EFLOPS (2× více) a špičkového výkonu 1580 EFLOPS (1,5× více). Připomeňme, že Frontier je postaven na akcelerátorech AMD Instinct MI250X, jejichž éra pomalu končí. Ty navíc stojí na 2 čipletech (oproti 63 dlaždicím Intelu) vyrobených generickým 6nm procesem TSMC. Jsou vybavené všeho všudy 16 MB integrované L2 cache oproti 408 MB Rambo Cache v samostatných dlaždicích.

AMD Instinct MI250X: 2 kusy křemíku (6nm TSMC), 16 MB cache, architektura minulé generace (CDNA 2)

Bohužel ani energetická stránka není příliš přesvědčivá. Zatímco Frontier nabízí 52,59 GFLOPS / watt, Aurora dosahuje pouze 23,71 GFLOPS / watt, tedy 45 % toho co Frontier.

Dalo by se spekulovat o tom, zda se ještě systém nepodaří vyladit a výsledky nebudou výhledově lepší. Jenže Aurora byla zkompletována v červnu, takže na ladění bylo bezmála půl roku. Kdyby navíc tvůrci výsledek považovali za neobjektivní a viděli potenciál k zásadnímu zlepšení, nemuseli by jej do žebříčku Top500 vůbec zařazovat. Čísla navíc celkem korespondují s informací v říjnu vypuštěnou webem The Next Platform, podle něhož zákazníci nemají o akcelerátory Ponte Vecchio zájem, protože nejsou po stránce energetické efektivity konkurenceschopné (nakonec byl jeden projekt s Ponte Vecchio ohlášen, za čímž patrně bude stát skutečnost, že řešení Nvidie jsou prakticky nedostupná, respektive dostupná za dvojnásobek původní ceny navíc s roční čekací dobou).

AMD Instinct MI300A, jádro superpočítače El Captain, s architekturou CDNA 3, Zen 4,
vrstvenými čiplety, Infinity Cache a HBM3 s datovou propustností 5,2 TB/s (AMD)

Lze však připustit, že zveřejnění výsledků v listopadovém žebříčku bylo žádoucí z toho důvodu, že v příštím (květnovém) vydání by již mohl být zařazen výsledek superpočítače El Capitan postaveného na výpočetním APU (Zen 4 + CDNA 3) Instinct MI300A, který překoná Frontier výkonem i energetickou efektivitou. Aurora, která by podle papírových specifikací měla být z této trojice nejvýkonnější, by tak ani dočasně neuhájila druhé místo a rovnou skončila na třetím.

Diskuse ke článku Legendární superpočítač Aurora navzdory příslibu 2,4 TFLOPS nepřekonal Frontier

Neděle, 19 Listopad 2023 - 03:58 | VCR33 | Nebuďte zlí na grafomany. Kupte jim treba...
Sobota, 18 Listopad 2023 - 00:50 | melkor | ".. uz sa mi tu zacinate prelinat .."...
Pátek, 17 Listopad 2023 - 19:47 | Kutil | Ty procesory mají na starosti krmení a další...
Pátek, 17 Listopad 2023 - 11:17 | Naruto | Zajimalo by me, odkud pochazi tech 2.4 ExaFlops....
Čtvrtek, 16 Listopad 2023 - 08:32 | Kutil | I mě se to někdy stává.
Čtvrtek, 16 Listopad 2023 - 08:31 | LadIQe | ah sorry, moja chyba uz sa mi tu zacinate...
Čtvrtek, 16 Listopad 2023 - 08:30 | Kutil | Možná si pleteš odpovědi více lidí. Mi dva jsme...
Čtvrtek, 16 Listopad 2023 - 08:28 | LadIQe | samozrejme do diskusie, kde to nikto ani neriesil...
Čtvrtek, 16 Listopad 2023 - 08:19 | Kutil | Je mi, víš kde, že se ti odpověď nelíbí. Podal...
Čtvrtek, 16 Listopad 2023 - 08:11 | LadIQe | a hadam to niekde riesim? opat sa vyhybas priamej...

Zobrazit diskusi