Google, Meta a Microsoft mají potíže s přehříváním Blackwellu od Nvidie
Zatímco generace Hopper šla prakticky jako po másle, s Blackwellem jakoby si Nvidia vytáhla Černého Petra. Patrně ve snaze eliminovat závislost na stavu 3nm procesu TSMC ponechala tuto generaci na 4nm výrobě, což při zachování vysokých výkonnostních ambicí znamenalo navýšení TDP. Již počátkem března letošního roku se objevila informace, že akcelerátory Blackwell budou dosahovat spotřeby kolem 1000 wattů na GPU. Nvidia o pár týdnů později potvrdila rozsah TDP pro různé modely v rozmezí 700 až 2700 wattů, přičemž vyšší hodnota je pro řešení se dvěma GPU. V květnu již začaly od zákazníků prosakovat zprávy, že 1000 wattů a výše už může být docela zásadní problém.
Začátek srpna pak přinesl zvěsti o problémech s výrobou, které upřesnily pozdější zprávy. Mělo jít o nízkou výtěžnost a vyřešení potíží mělo přesunout velkoobjemové dodávky z roku 2024 na rok 2025. Později vyšlo najevo, že mezi Nvidií a TSMC byly nějaké asi ne úplně pěkné dohady ohledně toho, kdo za nízkou výtěžnost může. Výsledek nakonec oznámil CEO Nvidie veřejně a potvrdil, že za problém TSMC nemohla.
Tím ale problémy nekončí. Společnosti Google, Meta a Microsoft, které se chystají na akcelerátorech Blackwell stavět velké systémy a již nové konfigurace testují, se potýkají s přehříváním. Problém je natolik závažný, že ho nezvládají o vyřešit na vlastní pěst, takže na jeho odstranění spolupracují s Nvidií. Týkat se má zejména konfigurací se 72 GPU.
Platforma Blackwell (Nvidia)
Je to trochu paradoxní, neboť právě konfigurace 72NVL měla původně existovat ve dvou variantách: single-rack (jednorackové) a dual-rack (dvourackové, tzv. NVL36 ×2). Výhodou jednorackové verze by byla celkově nižší spotřeba a objem v přepočtu na GPU, ale vyšší nároky na chlazení (z hlediska vyšší tepelné denzity) a požadavky na prostor pro jeden rack. Naopak výhodou dvourackové verze (NVL36 ×2) měly být nižší nároky na chlazení (množství odpadního tepla na objem) a standardní požadavky na rozměry. Nvidia, která se z důvodů řešení řady problémů dostala do skluzu, se pro zjednodušení situace rozhodla dvourackovou (NVL36 ×2) verzi zrušit a podporovat jen jednorackovou - tedy tu, která má nadstandardní nároky na chlazení.
Výsledkem jsou konfigurace se 72 GPU v racku a energetických nárocích až 120 kW. Výrobcům nejspíš nezbude, než situaci nějak vyřešit - pravděpodobně se to však podepíše na dostupnosti, respektive datu zahájení dodávek.