Argonne čekající 6 let na superpočítač od Intelu objednala stroj od AMD a Nvidie
Rekapitulaci událostí kolem superpočítače Aurora, která shrnuje více než 6 let a 1 kvartál dlouhou historii, už nelze vtěsnat do jednoho souvětí, ani do jediného odstavce. Uvádím ji proto v maximálně zestručněné a zjednodušené podobě v rámečku níže, abyste ji mohli snadno přeskočit pro případ, že ji máte v hlavě:
Stavbu superpočítače Aurora ohlásil Intel v dubnu 2015. Předaný měl být roku 2018. Přípravy na straně Intelu neprobíhaly podle časového plánu a odklad byl nevyhnutelný. Zadavatel si proto prosadil, aby systém (krom původních požadavků) v rozumné míře zvládal AI / strojové učení. To byl problém, neboť Intel i s ohledem na zpoždění počítal s nasazením akcelerátorů Knights Hill (derivát Larrabee) z řady Xeon Phi, které specifickou akceleraci strojového učení neuměly. … Krom toho byl problém v podobě nepoužitelné 10nm výroby, na které Knights Hill závisel. Došlo k dalšímu odkladu a plánu použít o generaci novější Knights Mill, jenž podporoval výpočty ve formátu FP16. Ten, krom potíží s 10nm výrobou, zase nepodporoval formát FP64 (oproti Knights Hill), bez nějž nešlo dosáhnout požadovaného výkonu v FP64. Intel přesto plánoval Knights Mill nasadit a aby se vyhnul problémům s 10nm výrobou, převedl návrh čipu na 14nm proces. Což však znamenalo nižší výkon při vyšší spotřebě. Později bylo vyhodnoceno, že ani tudy cesta nevede, Intel kompletně zrušil vývoj produktů na bázi Larrabee a Aurora se znovu překreslila. … Verze chystaná na letošní rok měla stát na Xeonech Sapphire Rapids a akcelerátorech na bázi Xe. V květnu 2020 přišla zpráva, že přípravy probíhají zdárně a cílí ke kompletaci v roce 2021. V červnu 2020 měl Intel v laboratořích první vzorek Sapphire Rapids, který bylo možné zapnout. V červenci 2020 přinesl Charlie Demerjian zprávu, že Intelu nejde vše hladce a pro urychlené dokončení produktu posílá na tape-out i návrhy Sapphire Rapids, o kterých ví, že ještě obsahují bugy. Navzdory tomu mělo být vydání v roce 2021 zcela nereálné, což znamenalo další odklad Aurory. … CEO Intelu, Pat Gelsinger v březnu mluvil o částečné výrobě procesorů Sapphire Rapids v roce 2021 a zahájení velkokapacitní výroby v prvním pololetí 2022. V pololetí již nemluvil o výrobě v roce 2021 vůbec, což znamená, že dodávky těchto Xeonů na stavbu Aurory nemohou začít dříve než na jaře 2022. |
V tomto kontextu není až tak šokující, že Argonne National Laboratory nečekaně naplánovala a objednala superpočítač Polaris, který jí postaví Hewlett Packard Enterprise (HPE) z procesorů AMD a akcelerátorů Nvidie. Systém nejdříve ponese procesory AMD Epyc druhé generace (7532) a akcelerátory Nvidia A100. Později dojde na upgrade o Epycy třetí generace (7543). Z těchto údajů i z výkonu, kterého dosáhne první konfigurace (44 PFLOPS) je zřejmé, že nejde o náhradu Aurory, ale o rychlý projekt, který má za cíl přinést Argonne výkonnostní upgrade (výkon bude 4× vyšší než mají současné superpočítače Argonne), aby bylo na čem pracovat, než se dokončí Aurora. Polaris má sloužit mimo jiné projektům jako Exascale Computing Project (DOE), Early Science Program (ALCF) a mimo jiné dát inženýrům prostor pro získání zkušeností s optimalizacemi pro větší výpočetní systémy.
Polaris měla být po stránce hrubé stavby zkompletována nyní v srpnu a během podzimu už bude následovat jen spouštění a ladění, aby mohla být od začátku roku 2022 v ostrém provozu. Pro širší komunitu bude výkon systému dostupný od jara.