Spotřeba se posune o řád, Nvidia chystá 15360W AI akcelerátory
Korejská společnost Kaist Teralab je jedním z klíčových partnerů Nvidie. Té pomáhá řešit propojení křemíku vzájemně, s HBM pamětmi a samotné pouzdření jejích AI akcelerátorů. Kaist Teralab na ISC High Performance 2025 zveřejnila roadmapy jak co do budoucnosti HBM až po rok 2038, tak co do plánů s akcelerátory Nvidie do roku 2035.
Roadmapa HBM pamětí a nároků na chalzení (Kaist Teralab)
V první řadě se dozvídáme, že po HBM 4, které se na trh dostanou s akcelerátory vydanými v příštím roce, bude potřeba začít více řešit chlazení HBM pamětí, kterým již patrně nebude stačit stávající přístup. Není se ale čemu divit. I když jsou HBM od počátku vnímané jako energeticky efektivní a úsporné řešení, s extrémním růstem datové propustnosti a kapacity sice energeticky efektivní zůstanou (oproti hypotetickému řešení s podobnými parametry postavenému na technologii DDR), ale úsporné nebudou v žádném případě. S HBM4 se čeká nárůst spotřeby na 75 wattů pro (každý HBM modul, tedy onu mnohovrstvou kostičku), za 10 let s s HBM 7 dostaneme na 160 wattů a jejich nástupce přihodí zhruba ještě 20 wattů.
Roadmapa datové propustnosti HBM pamětí (Kaist Teralab)
Očekává se, že v roce 2028 stoupne datová propustnost HBM, konkrétně HBM4E, na 2,5 TB/s, tedy desetinásobek toho, na čem HBM začínaly, když AMD před deseti lety ve spolupráci s Hynixem uvedla řadu Radeon Fury. U akcelerátorů vybavených HBM pamětmi ale datová propustnost nestoupá pouze v důsledku zvyšování propustnosti samotného standardu, ale také v důsledku navyšování počtu HBM (modulů), čímž roste šířka sběrnice. Ta do budoucna poroste extrémně:
Roadmapa akcelerátorů Nvidie (Kaist Teralab)
Kaist Teralab očekává, že Nvidia do deseti let zvýší počet HBM osazených na akcelerátoru ze současných osmi (Blackwell; Hopper měl šest) na třicet dva. Tedy na čtyřnásobek. V kombinaci s propustností samotných HBM, která stoupne na šestnáctinásobek stávající generace, se posuneme zhruba na 64× vyšší datovou propustnost. Pro hrubou představu: Je řeč o 16-32× širší datové sběrnici než nyní, což znamená, že když dnes má Blackwell 8192bit sběrnici, bude mít akcelerátor roku 2035 asi 131072-262144bit sběrnici. Nemohu si odpustit poznámku - když jsem před dekádou psal první zprávy o AMD Fiji (Radeon Fury) a její 4096bit sběrnici, řada čtenářů mi vysvětlovala, že to přeci není možné a že tomu určitě nerozumím :-). Nyní si tedy pokládáme otázku, zda bude sběrnice na akcelerátorech roku 2035 spíše 0,1Mbit nebo 0,2Mbit.
Dále Kaist Teralab očekává, že Nvidia bude muset začít trochu brzdit s rozměry čipletů (dá-li se to tak říct). Je pravdou, že reticle-limit, tedy maximální plocha, se kterou je TSMC schopna pracovat, se už podle loňských (a možná i starších) zvěstí měla začít zmenšovat. Navíc ceny nových procesů půjdou extrémně nahoru. Pokud Hopper dosahoval 814 mm², pak byl dost možná na hodně dlouhou dobu největším kusem křemíku od Nvidie, protože po stávajícím 750mm² Blackwellu se očekává stagnace a výhledově pokles na 700 mm² (2032) až 600 mm² (2035).
Ještě zajímavější to bude se spotřebou. Stávající Blackwell Ultra v podobě jednoho modulu (tedy jedno pouzdro, bez CPU) dosahuje až 1400 wattů, od Rubin se očekává až 2200 wattů, Feynman 4400 wattů, jeho nástupce 5920 wattů a další generace (chystaná na rok 2035) asi 15 360 wattů. Vzhledem k tomu, že již nyní Nvidia vyrábí o moduly se čtyřmi GPU a dvěma CPU, by se takový quad-GPU modul v roce 2035 dostal někam nad 60 kW. Inu, quad-SLI jak má být ;-).
Důsledky
Pokud si výrobci serverů a zejména jejich provozovatelé stěžovali na přehřívání a nedostatečnost stávajících kapalinových chladičů, které nezvládaly uchladit nové systémy postavené na Blackwellu, pak si s dalšími generacemi budou muset zvyknout na přestavbu chladící infrastruktury na míru pro každou generaci - nebo z byznysu vypadnou. Posun na desetinásobek odpadního tepla do deseti let je zkrátka extrém. Pro srovnání: Pentium III v roce 2001 dosahovalo TDP 31 wattů a desetinásobek, tedy 300 wattů, Intel oficiálně překonal s Raptor Lake-refresh a jeho 350W Extreme Performance Mode v roce 2022. Tedy po 21 letech. U AI akcelerátorů má k posunu o řád dojít do 10 let
To nás, jako koncové uživatele ale trápit nemusí. Co se nás dotkne spíš, budou dostupnost a ceny PC komponent náročných na křemík. Z prezentace je vidět, že počet čipletů ze stávajících dvou stoupne na osm, tedy na čtyřnásobek. Pokud se poptávka po AI akcelerátorech udrží a nároky na křemík stoupnou 4× (přičemž těžko očekávat, že do deseti let stoupnou výrobní kapacity TSMC na novějších procesech na čtyřnásobek), pak desktopové procesory a zejména desktopová GPU buďto velmi citelně zdraží, nebo budou prakticky nedostupná. Je potřeba si uvědomit, že zatímco současné akcelerátory se cenově pohybují v řádu desítek tisíc dolarů (a přesto se na ně stojí fronty), s modely vyobrazenými v roadmapě se dostáváme přinejmenším do řádu nižších stovek tisíc dolarů. Pokud si pokládáme otázku, co Nvidii motivuje k výrobě desktopových grafických karet za ~$1000, když ze stejného křemíku může vyrábět a prodávat akcelerátory za $20 000, asi dokážete sami extrapolovat, jaká bude motivace k výrobě desktopových grafických karet ze ~$1000, když bude limitována výrobními kapacitami na akcelerátory za $200 000.
Kaist Teralab @ISC HP 2025