Titan V se při opakování stejného zadání dobírá různých výsledků
Redakce webu The Register zveřejnila zajímavou informaci, o kterou se s ní podělil inženýr, který ve svém oboru pracuje již řadu let (jméno redakce nezveřejnila). Inženýr se zabývá simulacemi interakcí mezi proteiny a enzymy a objevil, že při opakování konkrétního zadání vypočte Titan V různé výsledky. Při zadání stejného výpočtu čtyřem kartám u dvou, tedy poloviny, vychází numerický výsledek odlišně zhruba v rozpětí 10 % výsledků.
S Titany postavenými na architektuře Pascal prý podobný problém není. Na druhou stranu inženýr zmínil, že v minulosti už se u některého (nejmenovaného) produktu Nvidie s podobným problémem setkal, ale společnost ho zvládla vyřešit softwarovou aktualizací. V tomto případě ale inženýr předpokládá, že dochází k nějaké specifické chybě, která je dána příliš vysokým taktováním pamětí na hraně stability.
Osobně se mi toto vysvětlení příliš nezdá, protože Titan V využívá paměti HBM2 taktované na efektivních 1,7 GHz. Ty jsou de facto podtaktované, protože nominálním a stabilním taktem čipů jsou 2 GHz. Pokud by tedy problém souvisel s datovými přenosy z/do pamětí, pak je pravděpodobnější, že se buďto do výroby dostaly vadné čipy, jejichž defekt interní testy neodhalily. Druhou možností by byl limit na straně paměťového řadiče, který se blíží svému limitu a některé kusy pak danou frekvenci nezvládají zcela stabilně. Nvidia na generaci GP100 taktovala HBM2 kolem 1,4 GHz, na generaci GV100 pak 1,7-1,75 GHz podle produktu.
The Register konstatoval, že přes opakovanou žádost o komentář nikdo z Nvidie nereagoval; nakonec se ale dočkal a článek aktualizoval se stručným vyjádřením, že si Nvidia za produktem stojí a pokud má někdo problém, může kontaktovat support@nvidia.com.