Intel sehnal prvního významného zákazníka pro AI akcelerátor Gaudi 3
Intel od loňského roku opakovaně prezentuje akcelerátory Gaudi 3, které jsou v současnosti jediným moderním produktem v jeho portfoliu výkonných AI akcelerátorů. Připomeňme, že řada Xeon Phi, která v tomto směru měla ambice jako první, je dlouho mrtvá, dlaždicový akcelerátor Ponte Vecchio byl považována poměrem spotřeba / výkon za zastaralý již v době vydání, jeho nástupce Rialto Bridge byl zrušen, (jeho) nástupce Falcon Shores byl odložen, akcelerátory postavené na technologiích společnosti Nervana uloženy k ledu a řada Gaudi tak zůstala tím jediným, co Intel aktuálně může nabídnout.
Gaudi 3 oproti Gaudi 2 přešla od monolitického provedení ke dvěma dlaždicím. Ze 7nm procesu TSMC se přešlo na 5nm. Namísto šesti HBM modulů je jich osazeno osm.
Gaudi 3 (Intel)
Intel ještě v letošním roce prezentoval Gaudi 3 jako produkt, který by měl být dostupný dříve než atomový Xeon Sierra Forest, to znamená nejpozději ve druhém kvartálu letošního roku. Když však došlo na dubnové vydání (dá-li se tomu tak říct), uvedl Intel, že hardware bude dostupný ve čtvrtém kvartálu 2024.
Ani to však nejspíš není definitivní, neboť nyní, při ohlášení prvního významného zákazníka, který Gaudi 3 objednal, hovoří Intel i zákazník o dodávkách na začátku roku 2025. Oním zákazníkem je společnosti IBM, která pro IBM cloud připravuje systémy poháněné právě AI akcelerátorem Gaudi 3 a Xeony 5. generace, tedy Emerald Rapids. Další zákazníci nebo projekty, které by měly nasadit Gaudi 3, nejsou známé.
Intel od počátku prezentuje Gaudi 3 jako konkurenta pro Nvidia Hopper (H100), nicméně při reálné dostupnosti začátkem roku 2025 jde zcela o konkurenci pro o generaci novější Nvidia Blackwell (B100). Přitom již proti Hopper nabízel vyšší výkon jen za poměrně specifických podmínek. Řada Gaudi je vzešlá z konceptu ASIC a jako taková je poměrně málo flexibilní. Zatímco akcelerátory vzešlé z architektury GPU nabízejí obvykle širokou škálu podporovaných formátů a mohou krom AI akcelerace nabídnout i akceleraci běžných výpočtů, Gaudi je čistě AI akcelerátor podporující několik základních formátů. 64bit a 4bit formáty nepodporuje vůbec. Podporuje 32bit, 16bit a 8bit formáty. Podpora 32bit formátů je pomalá (o 40 % pomalejší než Hopper). Podpora 8bit formátů je sice jen kosmeticky pomalejší než v případě Hopper, ale její použití nemá smysl mimo úspory paměti a sběrnice, protože je stejně rychlá jako podpora 16bit formátů, které jsou jako jediné podstatně rychlejší než u Hopper. V FP16/BF16 kosmeticky překonává i Blackwell, ale ve všech ostatních ohledech je nesrovnatelně pomalejší.
Nvidia HGX H100 | Nvidia HGX B100 | Intel Gaudi 2 UBB | Intel | |
---|---|---|---|---|
proces | 4nm | 4nm | 7nm | 5nm |
FP64 PFLOPS | 0,48 | 2,52? | - | - |
FP32 PFLOPS | 4,00 | 7,00 | 0,56 | 2,39 |
FP16/BF16 PFLOPS | 8,00 | 14,0 | 3,46 | 14,68 |
FP8 PFLOPS | 16,0 | 28,0 | 6,92 | 14,68 |
FP4 PFLOPS | - | 56,0 | - | - |
Intelu tedy nezbývá než zaujmout cenově. Nutno dodat, že ani to u některých zákazníků nemusí fungovat, nebo Gaudi 3 je posledním modelem řady, kterou Intel zrušil - další vývoji již neprobíhá. Řada Gaudi bude nahrazena GPU akcelerátory Falcon Shores. Pro potenciální odběratele to znamená, že upgrade systému s Gaudi 3 se zachováním softwarové kompatibility je de facto nemožný. Falcon Shores jakožto zcela odlišná architektura bude vyžadovat odlišné optimalizace a vyladění systému, takže nebude možná prostá náhrada nebo doplnění akcelerátorů v rámci stávajících systémů.