- Содержание
- Принципы оцифровки звука [ править | править код ]
- Дискретизация по времени [ править | править код ]
- Линейное (однородное) квантование амплитуды [ править | править код ]
- Другие способы оцифровки [ править | править код ]
- Аналогово-цифровые преобразователи (АЦП) [ править | править код ]
- Кодирование оцифрованного звука перед его записью на носитель [ править | править код ]
- Терминология [ править | править код ]
- Наиболее распространённые кодеки [ править | править код ]
- Некоторые форматы оцифровки звука в сравнении [ править | править код ]
- Полный цикл преобразования звука: от оцифровки до воспроизведения у потребителя [ править | править код ]
- Помехоустойчивое и канальное кодирование [ править | править код ]
- Принцип действия ЦАП [ править | править код ]
- Параметры, влияющие на качество звука при его прохождении по полному циклу [ править | править код ]
- Просмотр содержимого документа «Кодирование звуковой информации»
В основе кодирования звука с использованием ПК лежит процесс преобразования колебаний воздуха в колебания электрического тока и последующая дискретизация аналогового электрического сигнала. Кодирование и воспроизведение звуковой информации осуществляется с помощью специальных программ (редактор звукозаписи). Качество воспроизведения закодированного звука зависит от частоты дискретизации и её разрешения (глубины кодирования звука — количество уровней) [1] .
Содержание
Принципы оцифровки звука [ править | править код ]
Цифровой звук — это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды [2] .
Оцифровка звука — технология поделенным временным шагом и последующей записи полученных значений в численном виде [2] .
Другое название оцифровки звука — аналогово-цифровое преобразование звука.
Оцифровка звука включает в себя два процесса:
- процесс дискретизации (осуществление выборки) сигнала по времени
- процесс квантования по амплитуде.
Дискретизация по времени [ править | править код ]
Процесс дискретизации по времени — процесс получения значений сигнала, который преобразуется с определенным временным шагом — шагом дискретизации . Количество замеров величины сигнала, осуществляемых в единицу времени, называют частотой дискретизации или частотой выборки, или частотой семплирования (от англ. « sampling» — «выборка»). Чем меньше шаг дискретизации, тем выше частота дискретизации и тем более точное представление о сигнале нами будет получено.
Это подтверждается теоремой Котельникова (в зарубежной литературе встречается как теорема Шеннона, Shannon). Согласно ей, аналоговый сигнал с ограниченным спектром точно описуем дискретной последовательностью значений его амплитуды, если эти значения берутся с частотой, как минимум вдвое превышающей наивысшую частоту спектра сигнала. То есть, аналоговый сигнал, в котором находится частота спектра равная Fm, может быть точно представлен последовательностью дискретных значений амплитуды, если для частоты дискретизации Fd выполняется: Fd>2Fm.
На практике это означает, что для того, чтобы оцифрованный сигнал содержал информацию о всем диапазоне слышимых частот исходного аналогового сигнала (20 Гц — 20 кГц) необходимо, чтобы выбранное значение частоты дискретизации составляло не менее 40 кГц. Количество замеров амплитуды в секунду называют частотой дискретизации (в случае, если шаг дискретизации постоянен).
Основная трудность оцифровки заключается в невозможности записать измеренные значения сигнала с идеальной точностью (хотя исходя из теоремы Шенона и Котельникова это возможно)
Линейное (однородное) квантование амплитуды [ править | править код ]
Отведём для записи одного значения амплитуды сигнала в памяти компьютера N бит. Значит, с помощью одного N -битного слова можно описать 2 N разных положений. Пусть амплитуда оцифровываемого сигнала колеблется в пределах от −1 до 1 некоторых условных единиц. Представим этот диапазон изменения амплитуды — динамический диапазон сигнала — в виде 2 N −1 равных промежутков, разделив его на 2 N уровней — квантов. Теперь, для записи каждого отдельного значения амплитуды, его необходимо округлить до ближайшего уровня квантования. Этот процесс носит название квантования по амплитуде. Квантование по амплитуде — процесс замены реальных значений амплитуды сигнала значениями, приближенными с некоторой точностью. Каждый из 2 N возможных уровней называется уровнем квантования, а расстояние между двумя ближайшими уровнями квантования называется шагом квантования. Если амплитудная шкала разбита на уровни линейно, квантование называют линейным (однородным).
Точность округления зависит от выбранного количества (2 N ) уровней квантования, которое, в свою очередь, зависит от количества бит (N), отведенных для записи значения амплитуды. Число N называют разрядностью квантования (подразумевая количество разрядов, то есть бит, в каждом слове), а полученные в результате округления значений амплитуды числа — отсчетами или семплами (от англ. « sample» — «замер»). Принимается, что погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными. Этот способ оцифровки сигнала — дискретизация сигнала во времени в совокупности с методом однородного квантования — называется импульсно-кодовой модуляцией, ИКМ (англ. Pulse Code Modulation — PCM).
Оцифрованный сигнал в виде набора последовательных значений амплитуды уже можно сохранить в памяти компьютера. В случае, когда записываются абсолютные значения амплитуды, такой формат записи называется PCM (Pulse Code Modulation). Стандартный аудио компакт-диск (CD-DA), применяющийся с начала 80-х годов 20-го столетия, хранит информацию в формате PCM с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит.
Другие способы оцифровки [ править | править код ]
- Способ неоднородного квантования предусматривает разбиение амплитудной шкалы на уровни по логарифмическому закону. Такой способ квантования называют логарифмическим квантованием. При использовании логарифмической амплитудной шкалы, в области слабой амплитуды оказывается большее число уровней квантования, чем в области сильной амплитуды (при этом, общее число уровней квантования остается таким же, как и в случае однородного квантования). Аналогово-цифровое преобразование, основанное на применении метода неоднородного квантования, называется неоднородной импульсно-кодовой модуляцией — неоднородной ИКМ (Nonuniform PCM).
- Альтернативным способом аналогово-цифрового преобразования является разностная импульсно-кодовая модуляция — разностная ИКМ (англ. « Differential PCM») — в случае разностной ИКМ квантованию подвергают не саму амплитуду, а относительные значения величины амплитуды. В полной аналогии с ИКМ, разностная ИКМ может сочетаться с использованием как однородного, так и неоднородного методов квантования. Разностное кодирование имеет много разных вариантов [3] .
Аналогово-цифровые преобразователи (АЦП) [ править | править код ]
Вышеописанный процесс оцифровки звука выполняется аналогово-цифровыми преобразователями (АЦП).
Это преобразование включает в себя следующие операции:
- Ограничение полосы частот производится при помощи фильтра нижних частот для подавления спектральных компонент, частота которых превышает половину частоты дискретизации.
- Дискретизацию во времени, то есть замену непрерывного аналогового сигнала последовательностью его значений в дискретные моменты времени — отсчетов. Эта задача решается путём использования специальной схемы на входе АЦП — устройства выборки-хранения.
- Квантование по уровню представляет собой замену величины отсчета сигнала ближайшим значением из набора фиксированных величин — уровней квантования.
- Кодирование или оцифровку, в результате которого значение каждого квантованного отсчета представляется в виде числа, соответствующего порядковому номеру уровня квантования.
Делается это следующим образом: непрерывный аналоговый сигнал «режется» на участки, с частотой дискретизации, получается цифровой дискретный сигнал, который проходит процесс квантования с определенной разрядностью, а затем кодируется, то есть заменяется последовательностью кодовых символов. Для записи звука в полосе частот 20-20 000 Гц, требуется частота дискретизации от 44,1 и выше (в настоящее время появились АЦП и ЦАП c частотой дискретизации 192 и даже 384 кГц). Для получения качественной записи достаточно разрядности 16 бит, однако для расширения динамического диапазона и повышения качества звукозаписи используется разрядность 24 (реже 32) бита.
Кодирование оцифрованного звука перед его записью на носитель [ править | править код ]
Для хранения цифрового звука существует много различных способов. Оцифрованный звук являет собой набор значений амплитуды сигнала, взятых через определенные промежутки времени.
- Блок оцифрованной аудио информации можно записать в файл без изменений, то есть последовательностью чисел — значений амплитуды. В этом случае существуют два способа хранения информации.
- Первый — PCM (Pulse Code Modulation — импульсно-кодовая модуляция) — способ цифрового кодирования сигнала при помощи записи абсолютных значений амплитуд. (В таком виде записаны данные на всех аудио CD.)
- Второй — ADPCM (Adaptive Delta PCM — адаптивная относительная импульсно-кодовая модуляция) – запись значений сигнала не в абсолютных, а в относительных изменениях амплитуд (приращениях).
Терминология [ править | править код ]
- кодер – программа (или устройство), реализующая определенный алгоритм кодирования данных (например, архиватор, или кодер MP 3), которая в качестве ввода принимает исходную информацию, а в качестве вывода возвращает закодированную информацию в определенном формате.
- декодер – программа (или устройство), реализующая обратное преобразование закодированного сигнала в декодированный.
- кодек (от англ. « codec » — « Coder / Decoder ») — программный или аппаратный блок, предназначенный для кодирования/декодирования данных.
Наиболее распространённые кодеки [ править | править код ]
- MP3 – MPEG-1 Layer 3
- ОGG – Ogg Vorbis
- WMA – Windows Media Audio
- MPC — MusePack
- AAC – MPEG-2/4 AAC (Advanced Audio Coding)
- Стандарт MPEG-2 AAC
- Стандарт MPEG-4 AAC
Некоторые форматы оцифровки звука в сравнении [ править | править код ]
Название формата | Квантование, бит | Частота дискретизации, кГц | Число каналов | Величина потока данных с диска, кбит/с | Степень сжатия/упаковки |
---|---|---|---|---|---|
CD | 16 | 44,1 | 2 | 1411,2 | 1:1 без потерь |
Dolby Digital (AC3) | 16-24 | 48 | 6 | до 640 | |
DTS | 20-24 | 48; 96 | до 8 | до 1536 | |
DVD-Audio | 16; 20; 24 | 44,1; 48; 88,2; 96 | 6 | 6912 | 2:1 без потерь |
DVD-Audio | 16; 20; 24 | 176,4; 192 | 2 | 4608 | 2:1 без потерь |
MP3 | плавающий | до 48 | 2 | до 320 | |
AAC | плавающий | до 96 | до 48 | до 529 | с потерями |
AAC+ (SBR) | плавающий | до 48 | 2 | до 320 | с потерями |
Ogg Vorbis | до 32 | до 192 | до 255 | до 1000 | с потерями |
WMA | до 24 | до 96 | до 8 | до 768 | 2:1, есть версия без потерь |
Полный цикл преобразования звука: от оцифровки до воспроизведения у потребителя [ править | править код ]
Помехоустойчивое и канальное кодирование [ править | править код ]
Помехоустойчивое кодирование позволяет при воспроизведении сигнала выявить и устранить (или снизить частоту их появления) ошибки чтения с носителя. Для этого при записи к сигналу, полученному на выходе АЦП, добавляется искусственная избыточность (контрольный бит), которая впоследствии помогает восстановить поврежденный отсчет. В устройствах записи звука обычно используется комбинация из двух или трех помехоустойчивых кодов. Для лучшей защиты от пакетных ошибок также применяется перемежение. Канальное кодирование служит для согласования цифровых сигналов с параметрами канала передачи (записи/воспроизведения). К полезному сигналу добавляются вспомогательные данные, которые облегчают последующее декодирование. Это могут быть сигналы временного кода, служебные сигналы, сигналы синхронизации. В устройствах воспроизведения цифровых сигналов канальный декодер выделяет из общего потока данных тактовые сигналы и преобразует поступивший канальный сигнал в цифровой поток данных. После коррекции ошибок сигнал поступает в ЦАП.
Принцип действия ЦАП [ править | править код ]
Цифровой сигнал, полученный с декодера, преобразовывается в аналоговый. Это преобразование происходит следующим образом:
- Декодер ЦАП преобразует последовательность чисел в дискретный квантованный сигнал
- Путём сглаживания во временной области из дискретных отсчетов вырабатывается непрерывный во времени сигнал
- Окончательное восстановление сигнала производится путём подавления побочных спектров в аналоговом фильтре нижних частот
Параметры, влияющие на качество звука при его прохождении по полному циклу [ править | править код ]
Основными параметрами, влияющими на качество звука при этом являются:
Также немаловажными остаются параметры аналогового тракта цифровых устройств кодирования и декодирования:
Презентация к уроку "Кодирование звуковой информации". Раскрываются такие понятия как: оцифровка звука; интервал и частота дисретизации; разрядность кодирования.
Просмотр содержимого документа
«Кодирование звуковой информации»
Кодирование звуковой информации
- Звук – это колебания среды (воздуха, воды), которые воспринимает человеческое ухо. С помощью микрофона звук преобразуется в так называемый аналоговый электрический сигнал.
Аналоговый сигнал – это произвольное изменение некоторой величины в заданном диапазоне.
В любой момент времени сигнал на выходе микрофона (ток или напряжение) может принимать любое значение в некотором интервале.
Число T называется интервалом дискретизации , а обратная ему величина 1/ T – частотой дискретизации . Частота дискретизации обозначается буквой f и измеряется в герцах (Гц) и килогерцах (кГц). Один герц – это 1 раз в секунду, а 1 кГц – 1000 раз в секунду. Чем больше частота дискретизации, тем точнее мы записываем сигнал, тем меньше информации теряем. Однако при этом возрастает количество отсчетов, то есть информационный объем закодированного звука.
Оцифровка – это преобразование аналогового сигнала в цифровой код.
Для кодирования звука в компьютерах чаще всего используются следующие частоты дискретизации:
- 8 кГц (плохое качество, но достаточно для распознавания речи);
- 11 кГц, 22 кГц, 44,1 кГц (звуковые компакт-диски);
- 48 кГц (фильмы в формате DVD) ;
- также 96 кГц и 192 кГц (высококачественный звук в формате DVD‐audio).
Выбранная частота влияет на качество цифрового звука.
Представим себе, что на один отсчет выделяется 3 бита. При этом код каждого отсчета – это целое число от 0 до 7. Весь диапазон возможных значений сигнала, от 0 до максимально допустимого, делится на 8 полос, каждой из которых присваивается номер (код). Все отсчеты, попавшие в одну полосу, имеют одинаковый код
Преобразование измеренного значения сигнала в число называется дискретизацией по уровню. Эту операцию выполняет аналого-ифровой преобразователь (АЦП) звуковой карты.
Разрядность кодирования — это число бит, используемое для хранения одного отсчета.
Недорогие звуковые карты имеют разрядность 16-18 бит, большинство современных — 24 бита, что позволяет использовать 2 24 = 16 777 216 различных уровней.
Объем информации, полученный после оцифровки звука, зависит от разрядности и частоты дискретизации. Например, если используется 16-разрядное кодирование с частотой 44 кГц , за 1 с выполняется 44000 измерений сигнала, и каждое из измеренных значений занимает 16 бит (2 байта). Поэтому за 1 секунду накапливается 44000 х 2 = 88000 байт информации, а за 1 минуту
88000 х 60 = 5 280 000 байт = 5 Мбайт . Если записывается стерео звук (левый и правый каналы), это число нужно удвоить .
С помощью оцифровки можно закодировать любой звук, который принимает микрофон. В частности, это единственный способ кодирования человеческого голоса и различных природных звуков (шум прибоя и т.п.).
Среди форматов звуковых файлов наиболее известны:
- WAV (англ. Waveform Audio File Format, файлы с расширением .wav ) — стандартный
- формат звуковых файлов в операционной системе Windows; сжатие данных возможно, но используется редко;
- MP3 (файлы с расширением .mp3 ) — самый популярный формат звуковых файлов,
- использующий сжатие c потерями: для значительного уменьшения объема файла снижается качество кодирования для тех частот, которые практически неразличимы для человеческого слуха;
- WMA (англ. Windows Media Audio, файлы с расширением .wma ) — формат звуковых
- файлов, разработанный фирмой Microsoft; чаще всего используется сжатие для уменьшения объема файла;
- Ogg Vorbis (файлы с расширением .ogg ) — свободный (не требующий коммерческих
- лицензий) формат сжатия звука с потерями. Все эти форматы являются потоковыми, то есть можно начинать прослушивание до того момента, как весь файл будет получен (например, из Интернета).
Метод инструментального кодирования
- Этот метод основан на стандарте MIDI (англ. Musical Instrument Digital Interface— цифровой интерфейс музыкальных инструментов). В отличие от оцифрованного звука, в таком формате хранятся последовательность нот, коды инструментов (можно использовать 128 мелодических и 47 ударных инструментов), громкость, тембр, время затухания каждой ноты и т.д. Фактически это программа, предназначенная для проигрывания звуковой картой, в памяти которой хранятся образцы звуков реальных инструментов (волновые таблицы, англ. wave tables).
- Что такое аналоговый сигнал?
- Какие вы знаете аналоговые приборы?
- Что такое оцифровка? Если ли потеря информации при оцифровке? Почему?
- Что такое интервал дискретизации и частота дискретизации?
- Как связаны частота дискретизации с потерей информации и объемом файла?
- Какие частоты дискретизации сейчас используются?
- От чего зависит выбор частоты дискретизации?
- Почему частоты дискретизации более 48 кГц применяются очень редко?
- Что такое дискретизация по уровню?
- Что такое разрядность кодирования звука? На что она влияет?
- В чем достоинства и недостатки оцифровки?
- Какие форматы файлов для хранения оцифрованного звука вы знаете?
- Что такое потоковый звук?
- Что такое инструментальное кодирование?
- В чем достоинства и недостатки инструментального кодирования звука?
- Почему MIDI-файлы могут звучать по-разному на разной аппаратуре?
Звук– волна с непрерывно изменяющейся амплитудой и частотой.Чем больше амплитуда, тем он громче для человека, чем больше частота, тем выше тон.
Цифровой звук– это аналоговый звуковой сигнал, представленный посредством дискретных численных значений его амплитуды.
В основе кодирования звука с использованием компьютеров лежит процесс преобразования колебаний воздуха в колебания электрического тока и последующая дискретизация аналогового электрического сигнала.
Кодирование и воспроизведение звуковой информации осуществляется с помощью специальных программ (редакторы звукозаписи).
Качество воспроизведения закодированного звука зависит от частоты дискретизации и её разрешения.
Оцифровка звука— (или аналогово-цифровое преобразование) — технология преобразования аналогового звукового сигнала в цифровой вид, которая осуществляется путем замеров амплитуды сигнала с определенным временным шагом и последующей записи полученных значений в численном виде.
Оцифровка звука включает в себя два процесса:
процесс дискретизации (осуществление выборки сигнала по времени);
процесс квантования по амплитуде.
Процесс дискретизации по времени— процесс получения значений сигнала, который преобразуется с определенным временным шагом —шагом дискретизации.
Количество замеров величины сигнала, осуществляемых в одну секунду, называют частотой дискретизациииличастотой выборки, иличастотой семплирования(от англ. « ampling» — «выборка»).
Чем меньше шаг дискретизации, тем выше частота дискретизации и тем более точное представление о сигнале нами будет получено.
Процесс квантования по амплитуде — процесс замены реальных значений амплитуды сигнала значениями, приближенными с некоторой точностью.
Квантование– дискретизация по уровню.
Принимается, что погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными.
Каждый из 2 N возможных уровней называетсяуровнем квантования, а расстояние между двумя ближайшими уровнями квантования называетсяшагом квантования.
Число N называют разрядностью квантования, а полученные в результате округления значений амплитуды числа —отсчетами илисемплами(от англ. « sample» — «замер»).
Погрешности квантования, являющиеся результатом квантования с разрядностью 16 бит, остаются для слушателя почти незаметными.
Оцифровка звука – итог:
Плюсы:можно закодировать любой звук (в т.ч. голос, свист, шорох, …)
Минусы: есть потеря информации, большой объем файлов
Основные параметры, влияющие на качество звука:
1. Разрядность — размерность (количество бит информации кодируемое/декодируемое при АЦП и ЦАП).
2. Частота дискретизации— частота взятия отсчетов непрерывного во времени сигнала при его дискретизации (АЦП), измеряется в Герцах.
3. Шум — нежелательные фазовые и/или частотные случайные отклонения передаваемого сигнала
Форматы звуковых файлов
WAV(Waveform audio format), часто без сжатия (размер!)
MP3(MPEG-1 Audio Layer 3, сжатие с учётом восприятия человеком)
AAC (Advanced Audio Coding, 48 каналов, сжатие)
WMA (Windows Media Audio, потоковый звук, сжатие)
OGG (Ogg Vorbis, открытый формат, сжатие)