Nvidia: H100 je stejně rychlejší než MI300X. AMD: Ale není.
Nvidia si konkrétně vybrala výsledek v pravé části níže uvedeného slajdu AMD:
(AMD)
Tedy latenci naměřenou v Llama 2. Nvidia zveřejnila následující graf, ve kterém se snaží zákazníky přesvědčit, že lepších výsledků v této zátěži ve skutečnosti dosahuje její akcelerátor H100:
(Nvidia)
Na to záhy reagovala AMD, která upozorňuje, že výsledky zveřejněné Nvidií jsou v několika ohledech zavádějící. Nvidia Instinct MI300X netestovala a jeho výkonnostní výsledek, který uvádí v grafu, se pokusila získat přepočtem z latencí, které uvádí AMD. Zásadnější problém však je, že výsledky doplněné Nvidií (zelené) byly naměřeny v přesnosti FP8, nikoli v FP16, ve které srovnávala AMD. Jde tedy o srovnávání hrušek s jablky. Další „změnou“ je, že Nvidia pro srovnání hardwaru nepoužila vLLM (podporuje jak Instinct MI300X tak Nvidia H100), ale pro vlastní hardware optimalizovaný TensorRT-LLM. Jinými slovy výsledky zveřejněné Nvidií pocházejí z odlišné konfigurace softwaru a byly naměřeny při nižší přesnosti.
(AMD)
AMD k tomu dodala, že ony „1,4× lepší“ latence, které uváděla při vydání Instinct MI300X, již stejně není aktuální údaj, neboť pokročila s optimalizacemi softwarové platformy a v současnosti se již dostala na latence 2,1× lepší oproti tomu, co ve stejném softwaru a se stejnou přesností (FP16) nabízí Nvidia H100. I když se pro hardware Nvidie použije tensorRT-LLM, zůstává AMD 1,3× lepší latence a dokonce i při použití nižší přesnosti (FP8) u Nvidie a vyšší (FP16) u AMD má již s optimalizacemi provedenými v posledních týdnech AMD mírně lepší výsledek.