Něco o způsobu komprese
Kapitoly článků
Pojďme se ale vrátit k tomu, jak tato ztrátová komprese vlastně pracuje. O jednotce son jsme si již řekli. Podívejme se nyní, jak vypadá takový průběh citlivost našeho ucha přes všechny slyšitelné frekvence.
Jistě vás zaujme, že citlivost je poměrně kolísavá. Nejlépe vnímáme tóny kolem frekvence 4kHz. Vezmeme-li tuto frekvenci jako etalon, pak každý další zvuk o jiné frekvenci, ale stejné intenzitě, budeme slyšet vždy hůře, než právě ony 4kHz. Spodní, čárkovaná křivka představuje práh slyšitelnosti, tedy 0 son. Pro názornost jsou ještě vyneseny křivky pro 1 a 16 sonů.
Znalost této křivky pak umožňuje využití tzv. překrývání tónů, kdy ve výsledném vzorku zůstává jen ten, který naše ucho opravdu slyší a další zvuky jsou odstraněny, aniž by došlo ke ztrátě kvality. Možná by se to dalo přirovnat k tomu, když si dva lidi povídají například na pouti. Kolem je spousta hluku, ale oni si přesto jsou schopni porozumět. Je to proto, že ucho spolu s naším mozkem nepotřebné zvuky jednoduše odfiltruje. Zde ovšem není inteligence vůbec uplatněna. Vychází se ze známých, empiricky zjištěných algoritmů, podepřených obrovským množstvím měření našeho sluchového orgánu.
Další vlastností našeho ucha, kterou komprese používá, jsou tzv. kritická frekvenční pásma. Ucho totiž analyzuje celý slyšitelný frekvenční rozsah jakou soubor subrozsahů. V rámci těchto menších rámců vnímá ucho zvuky jako podobné, a tyto rámce jsou zpracovávány separátně. Je to taková vnitřní frekvenční stupnice našeho ucha.
|
I zde si můžete všimnout, že tři čtvrtiny kritických frekvenčních pásem je pod 5kHz. Toto je také důležitá informace pro kompresní algoritmus.
ATRAC dělí 16bitový 44kHz digitální signál na 52 subpásem celého frekvenční pásma (po rychlé Fourierově transformaci). Rozdělení na tyto pásma vychází z výše uvedeného příkladu kritických frekvenčních pásem lidského sluchu. Na nižších frekvencích je tedy hustější. Psychoakustická funkce pak využije další vlastnosti, překrývání tónů, čímž dojde k celkové kompresi až 1:5. Každý kanál se kóduje zvlášť. Při kompresi tak dochází k transformaci vstupního 16bitového digitálního signálu na signál s menším počtem bitů. Zachovávají se jen akusticky "důležité" informace. Zmenší se datový tok. Díky poměrně dokonalým kompresním metodám proto můžete nakonec slyšet výstupní signál téměř shodný s originálem. Odstraněny jsou většinou tóny a zvuky, které by jste i při 100% zachování signálu stejně neslyšeli.
Jaký je datový tok po průchodem ATRAC kódováním? Pro stereo signál je to 292 162,5 bitů/s. ATRAC kompresí vstupních 512 16bitových vzorků (512 × 16 = 8 192 / 8 = 1 024 bytů) do jedné "zvukové grupy" (212 bytů) v kompresním poměru 4,83 : 1. Výpočet je pro názornost následující:
44 100 (vzorků/s ) / 512 (vzorků) × 2 (kanály) × 212 (zvuková grupa) × 8 (bitů v bytu) = 292 162,5