Загадки и Парадоксы Цифрового Звука

Спектр - видим почти то, что слышим.

В откликах, поступивших на адрес моей электронной почты после публикации в КТ N 31,32 темы "Цифра и Звук", довольно часто встречается просьба максимально просто, без математики объяснить, что такое спектр (график спектра сигнала), полученный с помощью БПФ (Быстрого Преобразования Фурье), и какая от него польза. И так, на графике спектра мы видим результат сравнения сигнала с набором синусоидальных колебаний с разными постепенно увеличивающимися на постоянную величину частотами (по оси X). Чем больше похож сигнал на синусоиду с данной образцовой частотой, тем больше величина пика на графике по оси Y. Таким образом, чисто синусоидальный сигнал должен иметь график спектра в виде одиночного пика. Так и есть на самом деле, но только если частота такого сигнала точно совпадает с частотой одной из образцовых синусоид. В противном случае сигнал в некотором смысле (корреляции) будет похож и на близ лежащие по частоте образцовые синусоиды и, следовательно, на графике спектра появятся дополнительные пики. Вот это уже можно назвать парадоксом. Сигнал, реально состоящий из одной синусоиды, представится нам как сумма нескольких синусоид. Этот парадокс характерен именно для БПФ спектров. Другими словами, если мы оцифруем, скажем, аналоговый синусоидальный сигнал частотой Fs на частоте F1 и F2, то БПФ спектры одной и той же синусоиды могут выглядеть по-разному. То есть цифровой БПФ спектр одного и того же сигнала может выглядеть по-разному. Не улучшает ситуацию популярный метод наложения "окна" или предварительного (до обработки БПФ) "взвешивания" (умножения) отсчетов на некоторые функции, обычно имеющие вид колокола. Этот метод приводит практически к полному абсурду, ведь после него "размывается" и расщепляется даже одиночный пик на графике БПФ (см. рис. 4). Кроме того, на рисунках. 3 и 4 видно значительное уменьшение амплитуды пиков по оси Y (на 4 и 9 дБ соответсвенно, относительно 0 дБ). При непродуманном использовании результатов БПФ это может привести к значительным ошибкам в измерениях.


Рис. 1. Синусоидальный сигнал.

Уменьшено: 96% от [ 598 на 380 ] — нажмите для просмотра полного изображения

Рис. 2. Спектр БПФ синусоидального сигнала в случае совпадения его частоты с одной из образцовых частот БПФ.



Рис. 3. Спектр БПФ синусоидального сигнала в случае не совпадения его частоты ни с одной из образцовых частот БПФ.



Рис. 4. Спектр БПФ синусоидального сигнала в случае совпадения его частоты с одной из образцовых частот БПФ и предварительной обработкой отсчетов методом наложения окна Blackman-Harris.

К счастью, существуют более точные методы вычисления спектров, широко применяемые в статистическом анализе временных рядов (анализ курса доллара и т.д.), свободные от описанного выше эффекта "расщепления", но зато имеющие другие недостатки.

Но даже с учетом выше перечисленных недостатков БПФ спектр позволяет наблюдать интересные явления. Например, весьма занимательно и информативно рассматривать, как изменяется график БПФ спектра некоторого сигнала во времени. На рис. 1 вы можете видеть такой график для сигнала скрипки.


Рис. 5. График БПФ звукового сигнала скрипки.

По оси Х - частота, по Y - время и в "третьем измерении" - амплитуда синусоид, из которых "по мнению" БПФ, состоит сигнал. Парадоксально, но столь сложный с точки зрения цифрового спектрального анализа по методу БПФ сигнал субъективно ощущается как монолитный, цельный и "простой" звук определенной высоты (частоты).

Человеческое ухо физиологически имеет около 20 тысяч резонаторов (это не совсем точно, специалисты по анатомии человека меня поправят, но для дальнейшего изложения их поправки не существенны), настроенных на разные частоты, покрывающие весь слышимый человеком диапазон от 10..20 гц до 20..25 Кгц. Если во входном звуковом сигнале содержится синусоидальное колебание с частотой близкой к частоте настройки одного из резонаторов, на выходе этого (резонатора) появится электрическое напряжение, пропорциональное мощности колебания, и по нервам поступит в мозг для дальнейшего анализа. Я уверен, что эффект "расщепления" или "размывания" спектра имеет место быть и в человеческом ухе. Синусоидальный сигнал возбуждает не только резонатор, точно настроенный на его частоту, но и несколько соседних. Однако при последующей обработке в мозге "расщепление" устраняется. Во всяком случае, синусоидальный сигнал мы всегда слышим как чистый простой тон. Таким образом, по крайней мере, на первом этапе функционирование нашего слуха весьма напоминает вычисление спектра с помощью ПФ. Видимо это и определяет популярность использования БПФ, спектрального анализа, графических эквалайзеров и индикаторов в звуковоспроизводящей и записывающей аппаратуре и в программном обеспечении персональных компьютеров, предназначенном для обработки звуковых файлов (см. CoolEdit, WaveLab, Sound Forge и др.). Однако человеческий слух обладает свойством маскирования в частотной области (и во временной тоже), подробно описанном в моей статье "Компрессия звуковых данных" (КТ N 32). Кроме того, человеческий слух менее чувствителен к самым низким и самым высоким частотам. Можно считать, что частоты ниже 10 Гц и выше 25 Кгц подавляющее большинство людей не слышит. В результате, на графике БПФ звукового сигнала некоторые частоты будут показаны, хотя реально они не будут слышны или будут значительно ослаблены.

Аналоговый звук против цифрового

Почти все читатели, откликнувшиеся на мои публикации, утверждают, что аналоговый звук отличается от цифрового. При современном уровне развития общедоступной звуковоспроизводящей аппаратуры большинство из них довольно легко отличают "живой" звук от цифровой записи с компакт диска. С другой стороны, преимущества аналоговых магнитофонов и проигрывателей виниловых пластинок очевидны далеко не для всех. Несколько читателей справедливо отмечают, что так называемые аналоговые ленточные магнитофоны по своей сути являются цифровыми устройствами. Дело в том, что число магнитных доменов, попадающих в зазор звукоснимающей магнитной головки магнитофона, конечно. Читатели предполагают числа от 16000 до 100000 (точные данные неизвестны). Но в любом случае, это относительно небольшое число и уж точно это не бесконечность. А домены (в данном случае) имеют всего два устойчивых состояния намагниченности. Таким образом, магнитная головка, по сути, есть ЦАП с конечной разрядностью от 14 до 17 бит и высококачественным интерполирующим фильтром низкой частоты (его образует система магнитная головка-зазор-лента), возможно дополнительно увеличивающим разрядность до 18..19 бит и даже 20 бит. Из всего выше сказанного следует, что мы просто не можем слышать чисто аналоговых записей, так как ленточные магнитофоны применялись и при создании виниловых пластинок. А значит со старого доброго "винила" тоже идет цифровой звук! Поэтому когда утверждается, что "аналоговый" звук лучше цифрового, на самом деле утверждается, что одна цифровая система лучше другой!

Найквист, Котельников, АЦП/ЦАП.

Многие читатели указывают на приоритет Котельникова в разработке теории дискретизации аналоговых сигналов, хотя детального сравнительного датологического обоснования никто дать не смог. Поэтому спор о приоритете Котельникова вряд ли можно считать законченным. Читатели, имеющие математическую подготовку на уровне четвертого курса матфака университета, могут детально ознакомится с теорией оценки точности восстановления аналогового сигнала, оцифрованного в соответствии с теоремой Котельникова-Найквиста, открыв "Справочник по теоретическим основам радиоэлектроники" (том 2 стр. 33, 34 и стр. 126, 127), раздел, посвященный вычислению ошибки интерполяции восстановленного по цифровым отсчетам сигнала (рекомендовано Варламовым Р.Г., профессором, д.т.н.). Из приведенных в этой книге формул следует, что при использовании реализуемых цифровых и аналоговых фильтров будет возникать ошибка интерполяции. Это одна из главных причин отличия цифрового и аналогового звучания. Разработчикам цифровой звуковоспроизводящей и записывающей аппаратуры разумно стремиться не к полному устранению этой ошибки (на практике это невозможно), а к уменьшению ее уровня до такой степени, чтобы она не влияла на субъективно воспринимаемое качество звука. Читатель Сергей Подоляк указывает на типичные ошибки разработчиков современной цифровой Hi-Fi и Hi-End аппаратуры, приводящие к значительным дополнительным искажениям сигнала. Применение ЦАП с оверсэмплингом в современном конструктивном исполнении с предварительной фильтрацией частотных составляющих сигнала только выше 20 Кгц, но без фильтрации частотных составляющих ниже 20 гц приводит к возникновению специфических, неприятных на слух цифровых искажений. Сергей располагает убедительным математическим доказательством необходимости фильтрации сигнала, как по высоким, так и по низким частотам, которое, однако, сложно для восприятия даже подготовленным человеком (теорема Агеева). Далее я попробовал объяснить проблемы предварительной и восстанавливающей фильтрации и интерполяции без формул, в виде наглядных картинок. Интересно, что искажения формы сигнала возникают в АЦП до, собственно, дискретизации и квантования. Вследствие причин, подробно рассмотренных в моей статье об АЦП/ЦАП (КТ N 31), необходимо ограничить спектр входного аналогового сигнала с помощью фильтра низкой частоты. Такое ограничение приводит к существенному искажению формы "прямоугольного" сигнала, хотя синусоидальный сигнал проходит такой фильтр "почти" без искажения формы. "Почти" это то, что называется переходными процессами в фильтрах низкой частоты. Как видно на рисунках 5 и 6, искажения формы сигнала еще до самой оцифровки могут быть весьма значительными.


Рис. 5. Искажения "прямоугольного" сигнала предварительным фильтром АЦП.


Рис. 6. Искажения синусоидального сигнала предварительным фильтром АЦП.


Переходные процессы свойственны любым фильтрам, как цифровым, так и аналоговым. Поэтому даже АЦП с оверсэмплингом не свободны от подобных искажений. Способы борьбы с этим явлением разрабатывались еще для аналоговых усилителей мощности звуковых сигналов на транзисторах (УНЧ). Заключаются они в расширении полосы пропускания УНЧ до нескольких сотен килогерц или даже до мегагерца! К сожалению, звуковых карт с такими характеристиками обнаружить (и соответственно испытать) в продаже мне не удалось. Хочу, однако, отметить, что элементная база, выпускаемая в частности фирмой Analog Devices, и характеристики шины PCI (и даже ISA) вполне допускают создание недорогих широкополосных звуковых карт! Таким образом, из-за повсеместного применения устаревших, узкополосных, с низкой частотой дискретизации (не более 48 Кгц) АЦП форма сигнала портится еще до оцифровки. Примерно такие же искажения происходят и при восстановлении аналогового сигнала по цифровым отсчетам. Интересно, что особенно портятся "прямоугольные" сигналы, когда синусоидальные получаются "почти" идеальными и наоборот. Опять же "почти" - это так называемые переходные процессы.


Рис. 7. Синусоидальный и "прямоугольный" сигнал ЦАП до восстанавливающей фильтрации.




Рис. 8. Противоречивость требований к восстанавливающему фильтру ЦАП.

Возможно, единственный путь борьбы с искажениями подобного рода - это расширение полосы пропускания системы. При фиксированной же частоте дискретизации имеется такой парадокс - чем лучше восстанавливается форма прямоугольного сигнала, тем сильнее будет искажена синусоида и наоборот. Возможно, кому-нибудь и удастся разрешить этот парадокс. Представьте устройство, которое понимает, прямоугольный или синусоидальный сигнал в данный момент восстанавливается из цифры в аналог, и соответствующим образом (оптимальным) настраивает интерполирующие фильтры. Но, конечно, более простой и дешевый путь - это просто увеличить частоту дискретизации. Технически, как я уже говорил, это легко реализуется. Но еще более интересно было бы и вовсе отказаться от интерполирующих фильтров низкой частоты (ФНЧ) на выходе ЦАП. В настоящее время все (!) обследованные мной звуковые карты стоимостью от $9 до $700 (см. мою статью в КТ N242, 1998) используют мощные ФНЧ с оверсэмплингом и подавлением неслышимых человеческим ухом высоких частот выше 22..24 Кгц на 80 дБ и более. Но с другой стороны, а зачем собственно надо подавлять такие высокие частоты, если они все равно не слышимы?! (возможно, что бы не создавать помехи телевидению? J ) Человеческое ухо и есть ФНЧ с бесконечным подавлением частотных компонент выше 25..30 Кгц (идеальный теоретически невозможный фильтр!). Было бы крайне интересно прослушать звуковую карту без выходного ФНЧ. К сожалению, ни одна из доступных мне звуковых карт (Acer S23, CS4237, AD1848, ess1868, opti-931, Yamaha Sax700, SB-16/Vibra, awe64, Turtle Beach Pinnacle, Digital Wings, Monster Sound 3D) не имеет такой возможности. Заметьте, что на некоторых DVD дисках можно увидеть надпись "Audio 24 bit, 96 KHz". Значит все же существуют АЦП/ЦАП с такой высокой частотой дискретизацией. А так как DVD расчитан на более или менее массовую аудиторию, цена таких АЦП/ЦАП не должна быть слишком высокой. Звуковая карта с частотой дискретизации 96 Кгц позволила бы проверить каково будет качество звука стандартного компакт диска с 44.1 Кгц без выходного интерполирующего ФНЧ с "завалом" частот выше 20 Кгц. Ведь при частоте дискретизации 96 Кгц частота среза ФНЧ видимо будет установлена в районе 48 Кгц, а передискретизация с 44.1 Кгц на 96 Кгц технически достаточно легко реализуется. Так что, если хотите по-настоящему классный цифровой звук, ищите звуковые карты с частотой дискретизации 96 Кгц!


С комментариями и пожеланиями можно обращаться к автору по адресу digital_sound@bigfoot.com
Симаненков Дмитрий