Llamafile 0.7 přináší podporu AVX-512 a BF16, 10× víc výkonu na Zen 4
Llamafile je považován za jeden z nejzajímavějších „neprohlížečových“ projektů Mozilly. Umožňuje totiž distribuci a užití velkých jazykových modelů (LLM, Large Language Model) prostřednictvím jediného spustitelného souboru. Díky snazší distribuci se tak velké jazykové modely stávají dostupnějšími pro uživatele. Řešení je poměrně široce kompatibilní a v současnosti schopné využívat jak procesor (CPU), tak grafické jádro (GPU).
V aktuálně vydané verzi Llamafile 0.7 byla doplněna podpora instrukcí AVX-512 a datového formátu BF16 (BFloat16). Ten vznikl z FP32 (32bit IEEE 754), který disponuje 8 bity pro dynamický rozsah (exponent) a 24 bity pro přesnost tohoto formátu (mantisa). BF16 zachovává 8 bitů dynamického rozsahu (exponent), ale přesnost formátu (mantisa) je snížena na 8 bitů. Z hlediska AI výpočtů není pro přesnost výsledků tolik důležitá přesnost formátu (mantisa) jako rozsah (exponent), takže výsledky výpočtů jsou podobně přesné jako při FP32, ale výkon je díky 16 bitům (8 bitů exponent + 8 bitů mantisa) podobný jako při použití FP16.
Podle Phoronixu hlásí uživatelé Llamafile výkonnostní nárůsty ~10× na procesorech postavených na architektuře Zen 4 a ~8× na Raspberry Pi 5 (podporuje 16bit formát). Bližší údaje zatím nejsou k dispozici, ale zhruba řádový posun výkonu lze očekávat na většině hardwaru podporujících AVX-512, zejména v kombinaci s formátem BF16. Z PC procesorů jsou to krom Zen 4 také produkty Intelu, konkrétně generace Cannon Lake, Ice Lake (včetně Rocket Lake) a Tiger Lake. Novější již ne, počínaje Alder Lake Intel podporu AVX-512 deaktivoval u všech generací, které krom velkých jader (jež jsou AVX-512-kompatibilní) disponují i jádry malými (jež jsou AVX-512-nekompatibilní).