CeBit 2006: Fraunhofer IIS posunuje vpřed nejen MP3
Tento výzkumný ústav se zabývá mnoha oblastmi, od vývoje analogových a digitálních IO přes bezpečnost, problémy životního prostředí, zdravotnictví (byl vystaven i zajímavý invalidní vozík), energetiku, digitální vysílání, vysokofrekvenční systémy, automatizaci designu, inteligentní rozpoznávání obrazu, technologie 3D obrazu, přes řešení dopravních problémů a tak dále... až k našemu známému vývoji a standardizaci kódování multimédií.
Jedním z nejznámějších produktů institutu je systém kódování audia MP3. Na veletrhu předváděli pracovníci institutu také další možnosti tohoto systému včetně již známého prostorového řešení MP3 Surround. Poprvé byl předváděn tento systém na CeBITu před dvěma lety a na letošní výstavě byl doplněn ještě dalšími technologiemi.
Technologie Ensonido umožňuje prostorový poslech na běžná stereo sluchátka a může být navíc doplněna možností HTM (head-tracking mode - sledování polohy hlavy). Podle tvrzení pracovníků institutu již samotná technologie Ensonido způsobí, že posluchač slyší zvuk prostorově a mimo svoji hlavu. Také si může vybírat charakteristiky prostoru, který má být emulován. Pokud se ještě použije výše zmíněný HTM, zůstávají zdánlivé zdroje zvuku na místě nezávisle na směru natočení posluchačovy hlavy. Tento mód byl na výstavě předváděn a zanechal v nás dva zajímavé zážitky: Při poslechu na sluchátka skutečně byl vytvářen pocit, že hudba hraje okolo a její zdroje se s pohybem hlavy nesynchronizují a zůstávají na místě. Zážitek to byl skutečně velmi silný. A druhý dojem byl docela komický - když jste totiž pozorovali jiného návštěvníka s těmito sluchátky, otáčel se jako holub na báni a na tváři měl spokojený úsměv. Nakonec se můžete podívat na krátké video, jak takový zkušební poslech vypadal.
O způsobu kódování MP3 Surround bylo letos k dispozici více informací a také je k dispozici podstatně větší softwarová podpora. K dispozici jsou kodéry i dekodéry pro Linux, Windows i MAC, přehrávač pro MAC a pro Windows i plugin do WinAmpu. MP3 Surround je plně zpětně kompatibilní s běžným formátem MP3. Pokud tedy dostaneme MP3 Surround soubor, je možno ho stereofonně přehrát běžným MP3 přehrávačem. Princip kódování prostorových informací se nazývá Binaural Cue Coding (BCC). Jeho výsledkem jsou tři typy prostorových informací (Inter-channel Time Difference (ICTD - časové rozdíly mezi kanály), Inter-channel Level Diference (ICLD - rozdíly úrovní kanálů) a Inter-channel Coherence (ICC - mezikanálové koherence (shody?)). Informace z kodéru BCC se přidává k informaci stereofonní (tato data se mohou přidávat i k monofonnímu sumárnímu signálu, ale z důvodu toho, že zdaleka nejpoužívanějším standardem v MP3 je stereo, přidávají se k signálu stereofonnímu). Následující obrázek vychází z původní koncepce přidání prostorové informace k sumárnímu monofonnímu signálu.
Zajímavé je, že samotná prostorová informace má velmi malé nároky na bitovou rychlost, podle údajů institutu v rozmezí 3 až 32 kbit/s. K jejímu uložení se využívá standardní oblast Ancillary Data ve streamu MP3, takže zakódovaný stream je zcela kompatibilní i pro stávající stereofonní dekodéry. Díky malým datovým nárokům prostorové informace je možné při stejné bitové rychlosti dosáhnout prakticky shodnou kvalitu zvuku jako při stereu. Celkový počet zvukových kanálů není prakticky omezen, takže je možné kódovat i sedmi či vícekanálové streamy. Na následujícím obrázku je schéma kodéru a dekodéru pro kódování zvuku v rozložení 5.1, které bylo použito i na výstavě.
Všimněte si, jak je doplňková prostorová informace vkládána do datového streamu. Surround dekodér je vlastně BCC dekodér, který vytváří prostorovou informaci. Tuto informaci vkládá do streamu zcela standardní stereofonní kodér, což je umožněno právě tím, že je vkládána do již definovaných míst - do oblasti Ancillary Data. Běžný dekodér potom tuto informaci k dekódování zvuku nepoužije a dekóduje běžnou stereofonní informaci.
Protože jsme na výstavě obdrželi CD se všemi potřebnými nástroji pro tvorbu a dekódování MP3 Surround, vyzkoušeli jsme, jak je to s přeslechy. Součástí CD byl i šestikanálový WAV soubor, který v jednotlivých kanálech pouze příjemným hlasem oznamoval, který kanál je to (kromě LFE, tam to jen houklo). Tento wav jsme zakódovali do MP3 Surround a posléze z něj opět vytvořili šestikanálový WAV. V tomto jednoduchém případě byly ve výsledném souboru přeslechy stejné jako ve zdrojovém WAVu (takže se vůbec nezhoršily). Pouze se projevil vliv kódování například v kmitočtovém spektru.
Na výstavě byly předváděny skladby MP3 Surround s bitovou rychlostí 192 kbit/s v systému 5.1. Protože se poslouchalo na sluchátkách, byla použita technologie Ensonido, aby skladby zněly prostorově a navíc i technologie pro sledování pohybů hlavy. K tomu byla na sluchátkách připevněna sonda, pomocí které se jejich natočení zjišťovalo.
Fraunhoferův institut kromě technologií MP3 Surround a Ensonido informoval i o technologii MP3 SX (Stereo eXtended). Tato technologie vytváří ze stereofonních souborů (jak MP3, tak WAV) soubory s doplněnou prostorovou informací MP3 Surround. Dovede prý vytvořit centrální kanál a zvuky zadních kanálů vytváří ze zvuků, které charakterizují prostor a jsou obsaženy ve stereofonním signálu. Hlavní zvuk však zůstává vpředu. Stereofonní MP3 soubory jsou prostorovou informací prý pouze doplněny, takže původní stereofonní signál není ovlivněn. K tomu slouží aplikace MP3SX Converter. Stereofonní WAV soubory jsou zakódovávány do MP3 Surround pomocí aplikace MP2SX Encoder. Tuto činnost lze nahradit i běžným zakódováním do stereo MP3 a následně doplněním prostorové informace pomocí aplikace MP3SX Converter.
Fraunhofer IIS pracuje také na vývoji technologií MPEG-4 a MPEG-7. Zajímavá byla informace o kodeku ULD (Ultra Low Delay). Běžné kodéry zvuku mají zpoždění řádově desítky až stovky ms. Kodek ULD má zpoždění okolo 6 ms a je vhodný pro aplikace s požadavky na rychlou odezvu (např. telefonování či semináře s digitálními bezdrátovými sluchátky).