W jakim formacie lepiej słuchać muzyki. Trzy wieloryby stratne

2024 Autor: Malcolm Clapton | [email protected]. Ostatnio zmodyfikowany: 2023-12-17 04:07

Zrozumienie cyfrowych formatów audio wcale nie jest łatwe. Jeszcze trudniej o jednoznaczny wniosek, w jakim formacie lepiej słuchać muzyki. Jeśli spojrzysz na tabelę porównawczą formatów audio w Wikipedii, twoje oczy zaczną pulsować kolumnami cichych liczb. Spróbujmy dowiedzieć się, co się za tym kryje.

Zróbmy od razu rezerwację, że artykuł mówi TYLKO o ogólnej charakterystyce i nie będzie zawierał żadnych szczegółów. W przyszłości Lifehacker przeprowadzi własne bezstronne badania. A dzisiaj postaramy się w taki czy inny sposób uogólnić znane już doświadczenie.

Jest analog i figura.

Analog jest dobry, ale krótkotrwały i niewygodny. Dlatego media analogowe, mimo wysokiej sprzedaży winyli, nie wrócą.

Cyfrowe audio może mieć trzy główne typy:

w formacie, który nie wykorzystuje kompresji;
w formacie wykorzystującym kompresję bezstratną;
w formacie wykorzystującym kompresję stratną.

Na pierwszy rzut oka bardziej obiecujące są formaty bezstratne. Nie zawsze tak jest, o czym szerzej omówimy w jednym z poniższych materiałów. Formaty nieskompresowane nie mają żadnego sensu poza przechowywaniem nagrań wzorcowych potrzebnych do tworzenia treści audio. Łatwiej je przywrócić. Przechowywanie i słuchanie nagrań domowych jest zbędne.

Spośród wielu parametrów dźwięku cyfrowego użytkownik powinien przede wszystkim dbać o częstotliwość próbkowania (dokładność digitalizacji sygnału analogowego w czasie), głębię bitową (dokładność digitalizacji w amplitudzie - głośność), przepływność (ilość informacje zawarte w pliku na sekundę).

Dziś porozmawiamy o stratnych.

W przypadku dźwięku skompresowanego bardzo ważna jest koncepcja modelu psychoakustycznego - wyobrażenia naukowców i inżynierów na temat tego, jak człowiek odbiera dźwięk. Ucho odbiera całe spektrum docierających do niego fal akustycznych. Jednak mózg przetwarza sygnały.

Wartość referencyjna zakresu słyszalnego przez człowieka wynosi od 16 Hz do 20 kHz, ale nie jest on w stanie jednocześnie słyszeć i być świadomym wszystkich dochodzących dźwięków.

Słuch jest dyskretny, a jego wrażliwość słuchowa jest nieliniowa.

Nowoczesne modele psychoakustyczne trafnie oceniają ludzki słuch i są stale ulepszane. W rzeczywistości, wbrew zapewnieniom melomanów, muzyków i audiofilów, dla przeciętnego niewprawnego ucha pierwszy wygląd MP3 w maksymalnej jakości stał się niezwykle wyczuwalny. Są wyjątki, one nie mogą nie istnieć. Ale nie zawsze są one łatwo zauważalne przy ślepym słuchaniu.

Formaty wykorzystujące psychoakustyczne modele kompresji

Istnieje wiele takich formatów stratnej kompresji dźwięku. Najczęstsze dzisiaj są następujące.

OGG (Vorbis)

Ogólnie rzecz biorąc, plik z rozszerzeniem *.ogg jest „kontenerem”: może zawierać kilka nagrań dźwiękowych z własnymi znacznikami i charakterystykami. Najczęściej przechowywane w nim pliki są kompresowane za pomocą kodeka Ogg Vorbis, chociaż można użyć innych, w tym MP3 lub FLAC.

Jego główne zalety to szeroki zakres możliwych parametrów podczas kodowania: częstotliwość próbkowania dźwięku może osiągnąć 192 kHz, głębia bitowa to 32 bity. Domyślnie OGG używa zmiennej przepływności (chociaż nie jest to widoczne na ekranie właściwości), która może osiągnąć nawet 1000 kb/s.

MP3

W przeciwieństwie do darmowego OGG, MP3 został opracowany przez Fraunhofer Society, stowarzyszenie niemieckich instytutów badań stosowanych, co jest bardzo ważne dla nowoczesnej akustyki. Swoją drogą wśród audiofilów to niezwykle szanowane biuro, jednak nie lubią tego przyznawać. Ale ich rozwój jest uważnie obserwowany.

W przeciwieństwie do OGG może mieć zarówno zmienną (VBR), jak i stałą (CBR). Nawiasem mówiąc, to dzięki MP3 odkryto, że nie każde nagranie da się zakodować z wysoką jakością ze zmiennym bitratem (patrz powody powyżej, algorytmy kodowania i ich wyniki w tym przypadku mogą być inne przy kodowaniu tego samego źródła).

Ze względu na zaawansowany wiek MP3 ma znaczne ograniczenia: głębia bitowa może wynosić 16-24 bity, częstotliwość próbkowania wyrażona jest tylko w wartościach dyskretnych (8, 11, 025, 12, 16, 22, 05, 24, 32, 44, 1, 48), przepływność ograniczona do 320 kb/s. Ponadto w zwykłej wersji MP3 liczba kanałów jest ograniczona do dwóch.

AAC

To samo grabie, tylko z profilu. Opracowany również przez Towarzystwo Fraunhofera. Później i wykorzystuje inny model psychoakustyczny, bardziej nowoczesny. Publicznie dostępne informacje pozwalają stwierdzić: tak, udało im się ulepszyć własną kreację.

Nawet przy najbardziej podstawowych liczbach AAC jest bardziej elastycznym formatem. Głębia bitowa plików uzyskanych za pomocą tego opracowania waha się od 16 do 24, częstotliwość próbkowania, w razie potrzeby, również pozwoli nie stracić obrazu dźwiękowego i mieści się w zakresie 8-192 kHz. Strumień danych ogólnie zbliża się do formatów bezstratnych (do 512 kb/s), podczas gdy maksymalna liczba kanałów plików AAC sięga 48.

Który format jest zdecydowanie najlepszy

Biorąc pod uwagę, że po kilkunastu latach AAC to remake MP3, wybór jest na jego korzyść. W razie potrzeby warto porównać tylko MP3 i OGG. Rzućmy okiem na zdjęcia wykonane przez szanowanego Andreya Aspidova z ixbt.com:

Na wykresach - dobre AudioCD, OGG skompresowane zmiennym bitrate 350 kbps i MP3 przy pomocy Lame. Im niższy wykres, tym dźwięk jest bliższy oryginałowi. Okazuje się, że to bardzo ciekawy obraz. Pomimo tego, że MP3 wyraźnie obcina wysokie częstotliwości, w przeciwieństwie do OGG, w którym widać blokadę poniżej 2 kHz.

Rozkład częstotliwościowo-czasowy dźwięku mówi o nie mniej interesujących rzeczach. Przy stałej szybkości transmisji bitów wynoszącej 320 kb/s plik MP3 jest prawie identyczny z oryginalnym nagraniem. Wszystko wydaje się teraz układać na swoim miejscu. Ale… W rzeczywistości wszystko jest jeszcze bardziej zagmatwane.

Po co w ogóle używać stratnych, gdy są dostępne bezstratne?

Zdrowy rozsądek.

Faktem jest, że większość nagrań analogowych nie zawiera takiej ilości informacji, jaka musiałaby być przechowywana w formatach wysokiej jakości. Nie zapominaj, że natywna częstotliwość próbkowania dla CD to 44,1 kHz, kwantyzacja to tylko 16 bitów.

Poprzednie wykresy dobrze pokazują wysoką wierność transmisji MP3. Ale w przypadku kasety audio, taśmy magnetycznej (o ile oczywiście nie jest to taśma-matka), cechy AudioCD są nieosiągalne. A w przypadku masowego sprzętu studyjnego możliwość nagrywania dźwięku analogowego odpowiadającego AudioCD pojawiła się stosunkowo niedawno. Nie ma sensu digitalizować we FLAC (a tym bardziej w WAV) nagrania koncertowego czy płyty z epoki przedcyfrowej, zwłaszcza tych wykonanych z nośników magnetycznych. Nie zawierają tych widm i ilości informacji, które mogą być przechowywane przez kontenery bez kompresji.

Co się dzisiaj zmieniło

Niezwykły inżynier dźwięku dokonuje cyfrowego nagrania wzorcowego (które jest następnie odtwarzane na nośnikach fizycznych), wykorzystując w pełni nowoczesne technologie. Dlatego prawdopodobieństwo, że ścieżka 24-bitowa jest w rzeczywistości tylko 16-bitowa, jest bardzo wysoka.

Analogowe nagranie wysokiej jakości na wysokiej jakości sprzęcie jest dziś jeszcze trudniejsze do znalezienia – choćby dla fanów tego brzmienia. Takim jest na przykład Jack White, były przywódca White Stripes. Jednocześnie niektóre z jego nagrań nawiązują do wariacji lo-fi, a poszukiwanie oburzających cech brzmieniowych utworu staje się dla smakoszy swoistą przyjemnością.

Jeśli wyobrażasz sobie idealne źródło, to tylko wytrenowane ucho lub odsłuch na wysokiej jakości sprzęcie audio pozwoli Ci znaleźć skompresowany plik. I już na tej podstawie (nie zapominając o percepcji) warto wyciągnąć następujący wniosek:

AAC jest niezbędny i wystarczający dla sprzętu ze średniej półki cenowej, w przypadku braku którego (i przy braku źródeł, które można zakodować w AAC) - MP3 o stałej przepływności 320 kbps, tworzone przy użyciu kodeka Lame 3.93 (zalecane klucze dla dekodowanie: -cbr -b320 -q0 -k -ms).

Wyjątkiem są nagrania oryginalnie nagrane w wysokiej jakości, na przykład nagrane na płytach DVD-Audio, SACD lub nagrania oryginalnie zebrane w formacie DSD (lub podobnym) z dużą przepływnością.

Chociaż bezstratny ma pewne cechy. I opowiemy o nich następnym razem.