Не пустой звук. Разбираемся, как устроено цифровое кодирование звука

Задумывался ли ты, как в цифровых устройствах воспроизводится звук? Как формируется звуковой сигнал из комбинации единиц и нулей? Наверняка задумывался, раз уже начал читать! Но часто даже у профессионалов есть лишь общее представление о современном звуковом тракте. Из этой статьи ты узнаешь, как появились разные форматы, что такое цифроаналоговый преобразователь, какие виды ЦАП бывают и от чего зависит качество воспроизведения звука.

PCM (ИКМ)

Как известно, в цифровом звуке практически любой формат, за редким исключением, записывается импульсно-кодовым потоком, или потоком PCM — pulse code modulation. FLAC, MP3, WAV, Audio CD, DVD-Audio и другие форматы — это лишь способы упаковки, «консервации» потока PCM.

С чего все начиналось

Теоретические основы цифровой передачи звука были разработаны еще на заре двадцатого века, когда ученые попытались передать звуковой сигнал на большое расстояние, но не по телефону, а довольно странным для того времени способом.

Разделив звуковую волну на небольшие части, ее можно было отправлять получателю в некоем математическом представлении. Получатель, в свою очередь, мог восстановить исходную волну и прослушать запись. Также перед учеными стояла задача увеличить пропускную способность «эфира».

В 1933 году увидела свет теорема В. А. Котельникова. В западных источниках ее называют теоремой Найквиста — Шеннона. Да, Гарри Найквист был первым, кто затронул эту тему: в 1927 году он рассчитал минимальную частоту дискретизации для передачи формы волны, впоследствии названную в его честь «частотой Найквиста», — но теорема Котельникова была издана на 16 лет раньше.

Суть теоремы проста: непрерывный сигнал можно представить в виде интерполяционного ряда, состоящего из дискретных отчетов, по которым можно заново восстановить сигнал. Чтобы была возможность восстановить приблизительно исходное состояние сигнала, частота дискретизации должна равняться как минимум удвоенной верхней граничной частоте этого сигнала.

Много лет теорема не была востребована — вплоть до прихода цифровой эпохи. Тут-то ей и нашлось применение. В частности, теорема пригодилась при разработке формата CDDA (Compact Disc Digital Audio), в простонародье его называют Audio CD или Red Book. Формат был выпущен инженерами Philips и Sony в 1980 году и стал стандартом для аудио-компакт-дисков.

Характеристики формата:

  • частота дискретизации — 44,1 кГц;
  • разрядность квантования — 16 бит.

INFO

  • Частота дискретизации — количество отсчетов сигнала, «взятых» при его дискретизации. Измеряется в герцах.
  • Разрядность квантования — количество двоичных разрядов, выражающих амплитуду сигнала. Измеряется в битах.

Частота дискретизации 44,1 кГц была рассчитана из теоремы Котельникова. Считается, что слух среднестатистического человека не способен уловить звук за пределами 19–22 кГц. Вероятно, частота 22 кГц и была выбрана в качестве верхней граничной.

22 000 × 2 = 44 000 + 100 = 44 100 Герц

Откуда взялось 100 Герц? Есть версия, что это небольшой запас на случай ошибок или передискретизации. На самом деле такую частоту в Sony выбрали из соображений совместимости со стандартом телевещания PAL.

Разрядность формата CDDA — 16 бит, или 65 536 отсчетов, что равняется динамическому диапазону примерно в 96 дБ. Такое большое число отсчетов выбрано не случайно. Во-первых, из-за сильного влияния шумов квантования, во-вторых, чтобы обеспечить формальный динамический диапазон выше, чем у главных тогда конкурентов — кассетных записей и виниловых пластинок. Я расскажу об этом подробнее в разделе про цифроаналоговые преобразователи.

Дальнейшее развитие PCM так и продолжилось по принципу умножения на два. Появились другие частоты дискретизации: сначала добавилась частота дискретизации 48 кГц, а в дальнейшем основанные на ней частоты 96, 192 и 384 кГц. Частота 44,1 кГц также удваивалась до 88,2, 176,4 и 352,8 кГц. Разрядность же увеличилась с 16 до 24, а позднее и до 32 бит.

Следующим после CDDA в 1987 году появился формат DAT — Digital Audio Tape. Частота дискретизации в нем составила 48 кГц, разрядность квантования не изменилась. И хотя формат провалился, частота дискретизации 48 кГц прижилась на студиях звукозаписи, как пишут, из-за удобства цифровой обработки.

В 1999 году вышел формат DVD-Audio, который позволял записать на один диск шесть стереодорожек с частотой дискретизации 96 кГц и разрядностью 24 бит или две стереодорожки с частотой 192 кГц, 24 бит.

В том же году был представлен формат SACD — Super Audio CD, но диски для него стали производить только спустя три года. Подробнее об этом формате я расскажу в разделе про DSD.

Это основные форматы, которые считаются стандартом для цифровых звукозаписей на носителях. Теперь рассмотрим, как передаются данные в цифровом звуковом тракте.

Структура цифрового звукового тракта

При проигрывании музыки происходит примерно следующее: плеер при помощи кодека, выполненного в виде устройства или программы, распаковывает файл в заданном формате (FLAC, MP3 и другие) или считывает данные с CD, DVD-Audio или SACD-диска, получая стандартный поток данных PCM. Затем этот поток передается через USB, LAN, S/PDIF, PCI и так далее в I2S-конвертер. В свою очередь, конвертер преобразует полученные данные в так называемые кадры интерфейса передачи данных I2S (не путать с I2С!).

I2S

I2S — это последовательная шина передачи цифрового аудиопотока. Сейчас I2S — стандарт для подключения источника сигнала (компьютер, проигрыватель) к цифроаналоговому преобразователю. Именно через нее подключается напрямую или опосредованно подавляющее большинство ЦАП. Существуют и другие стандарты передачи цифрового аудиопотока, но они используются гораздо реже.

Выход (вход) I2S на печатных платах

Шина I2S может состоять из трех, четырех и даже пяти контактов:

  • continuous serial clock (SCK) — тактовый сигнал битовой синхронизации (может называться BCK или BCLK);
  • word select (WS) — тактовый сигнал кадровой синхронизации (может называться LRCK или FSYNC);
  • serial data (SD) — сигнал передаваемых данных (может называться DATA, SDOUT или SDATA). Как правило, данные передаются от передатчика к приемнику, но бывают устройства, которые могут выступать и приемником, и передатчиком одновременно. В таком случае может присутствовать еще один контакт;
  • serial data in (SDIN) — по этому контакту данные движутся в направлении приема, а не передачи.

SD или SDOUT служит для подключения цифроаналогового преобразователя, а SDIN используется для подключения аналого-цифрового преобразователя к шине I2S.

В большинстве случаев присутствует еще один контакт, Master Clock (MCLK или MCK), он используется для синхронизации приемника и передатчика от одного генератора тактовых импульсов, чтобы снизить коэффициент ошибок передачи данных. Для внешней синхронизации MCLK служат два генератора тактовых импульсов: с частотой 22 579 кГц и 24 576 кГц. Первый, 22 579 кГц, — для частот, кратных 44,1 кГц (88,2, 176,4, 352,8 кГц), а второй, 24 576 кГц, — для частот, кратных 48 кГц (96, 192, 384 кГц). Также могут встречаться генераторы на 45 158,4 кГц и 49 152 кГц — наверняка ты уже заметил, как в мире цифрового звука всё любят умножать на два.

Frame, или кадр I2S

В I2S обязательно используются три контакта: SCK, WS, SD — остальные контакты опциональны.

По каналу SCK передаются синхроимпульсы, под которые синхронизированы кадры.

По каналу WS передается длина «слова», при этом используются и логические состояния. Если на контакте WS логическая единица, значит, передаются данные правого канала, если ноль — данные левого канала.

По SD передаются биты данных — значения амплитуды звукового сигнала при квантовании, те самые 16, 24 или 32 бита. Никаких контрольных сумм и служебных каналов на шине I2S не предусмотрено. Если данные при передаче потеряются, возможности восстановить их не существует.

На дорогих ЦАП часто бывают внешние разъемы для подключения к I2S. Использование таких разъемов и кабелей может плохо отразиться на звуке, вплоть до появления «артефактов» и заиканий, все будет зависеть от качества и длины провода. Все же I2S это внутрисхемный разъем, и длина проводников от передатчика до приемника должна стремиться к нулю.

Рассмотрим, как передается поток данных PCM по шине I2S. Например, при передаче PCM 44,1 кГц с разрядностью 16 бит длина слова на канале SD будет соответствовать этим шестнадцати битам, а длина кадра будет 32 бита (правый канал + левый). Но чаще всего передающие устройства используют длину слова 24 бита.

При воспроизведении PCM 44,1 × 16 старшие биты либо попросту игнорируются, так как заполнены нулями, либо, в случае со старыми мультибитными ЦАП, они могут перейти на следующий кадр. Длина «слова» (WS) может также зависеть от плеера, через который воспроизводится музыка, а также от драйвера устройства воспроизведения.

Альтернативой PCM и I2S может быть запись звукового сигнала в DSD. Этот формат развивался параллельно с PCM, хотя и тут теорема Котельникова оказала некоторое влияние. Для улучшения качества звучания по сравнению с CDDA упор был сделан не на повышение разрядности квантования, как в формате DVD Audio, а на увеличение частоты дискретизации.

DSD

DSD расшифровывается как Direct Stream Digital. Он берет свое начало в лабораториях фирм Sony и Philips — впрочем, как и другие форматы, рассматриваемые в этой статье.

SACD

Впервые DSD увидел свет на дисках Super Audio CD в далеком 2002 году.

На тот момент SACD казался шедевром инженерной мысли, в нем был применен совершенно новый способ записи и воспроизведения, очень близкий к аналоговым устройствам. Реализация одновременно была простой и изящной.

Носитель даже оснастили защитой от копирования, хотя и без этого никакие пираты были не страшны. Под марками Sony и Philips стали выпускать «закрытые» устройства исключительно для воспроизведения, без какой-либо возможности копировать диски. Производители продавали студиям оборудование для записи, но при этом оставили за собой контроль за выпуском SACD-дисков.

Как знать, возможно, формат SACD мог бы обрести популярность, сравнимую с Audio CD, если бы не стоимость устройств воспроизведения. Безосновательно накручивая цены на проигрыватели, руководители Sony и Philips сами мешали популярности своего формата. А следующая ошибка и вовсе поставила крест на продажах специализированных устройств. Для продвижения игровой приставки Sony PlayStation инженеры Sony добавили возможность слушать на ней SACD. Хакеры тут же взломали приставку и стали копировать диски SACD в ISO-образы, которые можно записать на обычную болванку DVD и воспроизводить на любом плеере фирм-конкурентов; другие просто извлекали дорожки для воспроизведения на компьютере.

Звукозаписывающие компании тоже хороши: вопреки ожиданиям меломанов, они не пользовались всеми возможностями нового формата высокого разрешения. На студиях не записывали в DSD музыку с мастер-ленты, а брали цифровую запись в PCM, пересводили и обрабатывали всем подряд: лимитерами, компрессорами, дитерингом с нойз-шейпингом и различными цифровыми фильтрами. В итоге на выходе получался такой стерильный и сухой звук, что даже CD Audio мог бы звучать гораздо лучше. Таким образом было подорвано доверие слушателей к SACD, а заодно и к новым форматам вообще.

INFO

Увы, с виниловыми пластинками эта порочная практика применяется и по сей день: студии печатают винил с цифровой записи, даже если у них есть запись на мастер-ленте. Так что на современном виниле запросто может оказаться 44,1 × 16.

DSD

Что же представляет собой DSD? Это однобитный поток с очень высокой, по сравнению с PCM, частотой дискретизации. Также в DSD используется иной вид модуляции, PDM (Pulse Density Modulation) — плотностно-импульсная модуляция. Запись звука в таком формате производится однобитным аналого-цифровым преобразователем, сейчас такие АЦП на основе сигма-дельта-модуляции используются повсеместно. Процесс записи выглядит примерно так: пока амплитуда волны возрастает, на выходе АЦП логическая единица, когда амплитуда падает, на выходе логический ноль, среднего значения быть не может. Сравнивается с предыдущим значением амплитуды волны.

DSD позволяет достичь важных преимуществ по сравнению с PCM:

  • точнее прорисовка волны;
  • выше помехоустойчивость;
  • более простой способ коммутации и передачи цифрового потока;
  • теоретически есть возможность уменьшить стоимость, упростив схему ЦАП, но из-за обратной совместимости со старыми форматами производители вряд ли пойдут на это.

Изначально на SACD-дисках использовался формат DSD x64 c частотой дискретизации 2822,4 кГц. За основу взяли частоту дискретизации Audio CD 44,1 кГц, увеличенную в 64 раза, отсюда название x64. Сегодня реально используются следующие DSD:

  • x64 = 2822,4 кГц;
  • x128 = 5644,8 кГц;
  • x256 = 11 289,6 кГц;
  • x512 = 22 579,2 кГц;
  • заявлен DSD x1024.

DXD

Существует некий промежуточный формат между PCM и DSD под названием DXD — Digital eXtreme Definition. Это, по сути, PCM высокого разрешения — 352,8 кГц или 384 кГц с разрядностью квантования 24 или 32 бита. Он применяется в студиях для обработки и последующего сведения материалов.

Но такой подход ущербен: во-первых, он не позволяет задействовать все преимущества DSD, во-вторых, размер файлов получается больше, чем в DSD. На текущий момент флагманские ЦАП на входе I2S принимают поток данных PCM с частотой дискретизации до 768 кГц и разрядностью до 32 бит. Страшно даже считать, какой объем на жестком диске будет занимать один альбом в таком разрешении.

DSD практически отделился от SACD. Теперь формат DSD чаще можно встретить упакованным в файлы с расширением DSF и DFF. Выпущено множество проигрывателей с возможностью записи в DSF и DFF, любители хорошего звука все чаще и чаще оцифровывают виниловые пластинки именно в формате DSD. А вот на звукозаписывающих студиях никто не хочет вкладываться в малопопулярные форматы, так что там продолжают клепать звук на минималках: 44,1 × 16.

Коммутация DSD и передача данных

Для передачи цифрового потока в DSD используется трехконтактная схема подключения:

  1. DSD Clock Pin (DCLK) — синхронизация;
  2. DSD Lch Data Input Pin (DSDL) — данные левого канала;
  3. DSD Rch Data Input Pin (DSDR) — данные правого канала.

В отличие от I2S, передача данных DSD предельно упрощена. DCLK задает тактовую частоту битовой синхронизации, а по контактам DSDL и DSDR последовательно передаются сами данные левого и правого канала соответственно. Никаких ухищрений тут нет, запись и воспроизведение в DSD делается побитно. Такой подход дает максимальное приближение к аналоговому сигналу, а за счет высокой частоты уменьшаются шумы квантования и на порядок повышается точность воспроизведения.

Продолжение доступно только участникам

Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте

Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее

Вариант 2. Открой один материал

Заинтересовала статья, но нет возможности стать членом клуба «Xakep.ru»? Тогда этот вариант для тебя! Обрати внимание: этот способ подходит только для статей, опубликованных более двух месяцев назад.


Комментарии (2)

  • Отличная статья, с одной стороны я узнал много нового, с другой стороны воспроизвести даже тезисно вряд-ли смогу. но читать было очень интересно. Спасибо автору. Реквестирую дальнейшее погружение.

    • Грядет вторая часть с практикой. Будет еще интереснее!

Похожие материалы