Osmijádrová Tegra X1 s Maxwellem zvládá 4k h.265 video i automatické parkování
- Tegra X1 alias Erista
- 8 CPU jader (4+4)
- 256 GPU jader (Maxwell)
- komprimované datové přenosy
- přehrávání VP9 a h.265 4k videa
- nasazení v automobilovém průmyslu
To je jen stručný výčet klíčových novinek, které X1 přináší. Kde začít? Asi nejlépe u procesorových jader.
CPU
Nvidia v tomto ohledu tak trochu přeskakuje experimenty, kterých se dopustila s generací K1 a v některých ohledech se vrací ke konceptu generací jako Tegra 3 a 4. Ty totiž kombinovaly výkonná a úsporná procesorová jádra (koncept 4+1), což umožňovalo snížení spotřeby při minimální zátěži. Loňská K1 naproti tomu disponovala buďto čtveřicí výkonných jader Cortex-A15, nebo dvojicí jader Denver (jejichž energetické nároky v kombinaci s 28nm procesem znamenaly přílišný throttling v řadě aplikací a tudíž omezování výkonu, který nepůsobil ve srovnání s čtyřjádrem A15 příliš přesvědčivě).
Tegru X1 lze proto po stránce procesorové konfigurace vnímat jako ideového nástupce Tegry 3 a 4, ovšem s tím rozdílem, že namísto konfigurace 4+1 přináší rovnou 4+4. Čtveřice výkonných jader vychází z architektury Cortex-A57 (64bit) a je vybavena 2MB L2 cache. Čtveřice úsporných jader je Cortex-A53 (64bit) a disponuje 0,5MB L2 cache. Rozšíření počtu energeticky nenáročných procesorových jader zvyšuje počet možných situací, ve kterých se lze vyhnout použití výkonných A57.
To zároveň řeší námi několikrát zmiňovaný nešvar, který se týkal zařízení s Tegrou typu 4+1, na nichž byly nainstalované Windows. Windows RT prakticky nepustily úsporné jádro ke slovu, protože vždy docházelo k (alespoň minimálnímu) vytížení dvou jader zároveň. Tento problém by s Tegrou X1 neměl nastat - i v případě OS, který s nízkoenergetickým jádrem nepočítá, budou mimo skutečnou zátěž výkonná jádra v klidu.
GPU
Možná ještě zajímavější než procesorová je grafická část. Na řadu se dostal Maxwell, který je pro mobilní nasazení mnohem lépe vybavený než Kepler přítomný na generaci K1. Počet stream-procesorů vzrostl ze 192 na 256, ale to není hlavní rozdíl. Jak jsme několikrát zmiňovali, v případě Kepleru nebylo možné pro ultramobilní řešení efektivně použít víc než jeden výpočetní blok (SM), který nesl právě 192 jednotek. Propojení, které u této architektury zajišťovalo komunikaci mezi SM bloky bylo totiž energeticky náročné a nevhodné pro použití v rámci ultramobilních SoC.
Tento zádrhel byl na Maxwellu vyřešen - jak ostatně ilustruje přítomnost 256 stream-procesorů, tedy dvojice SM bloků (jeden SM Maxwellu je vybaven 128 jednotkami). Dobrou zprávou je, že X1 nese aktuální generaci Maxwellu (jako GeForce GTX 980), která je technologicky pokročilejší než původní, kterou známe z GeForce GTX 750.
Zvýšen byl i počet ROP jednotek - teoreticky ze 4 na 16, ale jejich výbava je odlišná, takže teoretický výkon stoupl v rozmezí dvoj- až čtyřnásobku. Zatímco rasterizace je 4× rychlejší, práce se Z-daty je „jen“ 2× výkonnější. Počet texturovacích jednotek byl zdvojnásoben (jejich základní parametry se podle všeho nezměnily). Mírně stoupla taktovací frekvence grafického jádra, z původních 950 MHz na až 1 GHz. I díky tomu má Nvidia první ARM SoC s výkonem dosahujícím 1 TFLOPS (byť jen ve snížené přesnosti FP16).
Paměťové přenosy
Protože šířka paměťového rozhraní patří k faktorům, které mají přímý vliv na energetické nároky čipu, zůstala Nvidia u 64bitů. Přinesla ale tři novinky, jejichž cílem je zdvojnásobení energetické efektivity paměťových přenosů a efektivní rozšíření paměťové propustnosti jako takové.
Prvním krokem je nám již známá Delta-komprese v pokročilejší verzi, která je použitá na GeForce GTX 970 / 980. Umožňuje zvýšit datovou propustnost sběrnice teoreticky až o 40 %. Druhý prvek nazývá Nvidia End-to-End Compression a jde o nasazení komprese v rámci datových přenosů až po zobrazovací obvody čipu.
Třetí zlepšení spočívá v nasazení LPDDR4. O těch už jsme si povídali - umožňují až 40% úsporu oproti LPDDR3, protože díky technologii LVSTL na I/O rozhraní používají zhruba poloviční napětí oproti LPDDR3. Kombinací zmíněných tří změn lze podle Nvidia dosáhnout až 2,1-násobného zvýšení energetické efektivity při datových přenosech.
Multimédia
Velmi pěkně se vyvíjí i multimediální podpora. Po stránce dekomprese přibyla podpora pro VP9 a h.265. Všechny podporované formáty umí čip dekomprimovat až ve 4k rozlišení při 60 FPS (oproti max. 30 FPS u K1). Pětinásobného zrychlení doznal (M)JPEG dekodér.
O fous méně změn je na straně enkodéru. Zvládá h.265 (při max. 30 FPS). VP9 podporován není. (M)JPEG enkodér je rovněž 5× rychlejší - podobně jako dekodér.
Upgradu se dočkaly i výstupní rozhraní. Pro integrovaný displej je nyní při 60Hz zobrazování k dispozici plných 4k (namísto „3k“ u Tegry K1) a pro externí zobrazovadla je tu HDMI 2.0, které umožňuje 4k rozlišení při plných 60 Hz.
Nástup na trh a nasazení
Všechny popsané změny dohromady přinášejí grafický výkon alespoň o polovinu nad A8x od Applu a původní K1:
Pro urychlení nástupu na trh se Nvidia s Tegrou X1 rozhodla upustit od 16nm FinFet procesu TSMC a namísto něj vsadit na 20nm výrobu (rovněž TSMC). Ta sice nepřináší tak výraznou energetickou úsporu, ale je vyzkoušená, dostupná a výsledná velikost čipu se výrazněji neliší.
Kromě high-endových mobilních zařízení se Nvidia s Tegrou X1 výrazně soustředí na automobilový průmysl. Ohlásila palubní počítač Nvidia Drive CX a referenční design projektu Nvidia Drive PX se dvěma Tegrami X1, který slouží k asistenci řízení automobilu a mimo jiné zvládá na základě analýzy dat z externích kamer koordinovat automatické parkování vozu.