Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны )
|
Кодирование речи - это приложение для сжатия данных цифровых аудиосигналов , содержащих речь . При кодировании речи используется оценка параметров речи с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления результирующих смоделированных параметров в компактном потоке битов. [1]
Некоторыми приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). [2] Наиболее широко используемым методом кодирования речи в мобильной телефонии является кодирование с линейным предсказанием (LPC), а в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT). [ необходима цитата ]
Методы , используемые при кодировании речи аналогичны тем , которые используются в аудио сжатия данных и кодированием звука , где знание в психоакустике используются для передачи только данных, имеющие отношение к человеческой слуховой системе. Например, при кодировании речи в голосовом диапазоне передается только информация в полосе частот от 400 Гц до 3500 Гц, но восстановленный сигнал все еще является адекватным для разборчивости .
Кодирование речи отличается от других форм кодирования звука тем, что речь является более простым сигналом, чем большинство других звуковых сигналов, и имеется гораздо больше статистической информации о свойствах речи. В результате некоторая слуховая информация, имеющая отношение к кодированию звука, может быть ненужной в контексте кодирования речи. При кодировании речи наиболее важным критерием является сохранение разборчивости и «приятности» речи при ограниченном количестве передаваемых данных. [3]
Кроме того, для большинства речевых приложений требуется небольшая задержка при кодировании, поскольку большие задержки при кодировании мешают речевому взаимодействию. [4]
Речевые кодеры бывают двух типов: [5]
С этой точки зрения алгоритмы A-закона и μ-закона ( G.711 ), используемые в традиционной цифровой телефонии с ИКМ, можно рассматривать как более ранний предшественник кодирования речи, требующий только 8 бит на выборку, но обеспечивающий эффективное разрешение 12 бит. . [6] Законы логарифмического компандирования согласуются с человеческим слуховым восприятием в том смысле, что шум малой амплитуды слышен вдоль речевого сигнала низкой амплитуды, но маскируется шумом высокой амплитуды. Хотя это привело бы к недопустимым искажениям в музыкальном сигнале, пиковый характер речевых сигналов в сочетании с простой частотной структурой речи в виде периодической формы волны, имеющей единственную основную частоту. со случайными добавками шума, делают эти очень простые алгоритмы мгновенного сжатия приемлемыми для речи.
В то время было испробовано множество других алгоритмов, в основном с вариантами дельта-модуляции , но после тщательного рассмотрения разработчики первых систем цифровой телефонии выбрали алгоритмы A-law / μ-law. На момент разработки их снижение пропускной способности на 33% при очень низкой сложности стало отличным инженерным компромиссом. Их звуковые характеристики остаются приемлемыми, и не было необходимости заменять их в стационарной телефонной сети.
В 2008 году кодек G.711.1 с масштабируемой структурой был стандартизирован ITU-T. Частота дискретизации входа составляет 16 кГц.
Большая часть более поздних работ по сжатию речи была мотивирована военными исследованиями в области цифровой связи для защищенных военных радиостанций , где требовались очень низкие скорости передачи данных для обеспечения эффективной работы во враждебной радиосреде. В то же время было доступно гораздо больше вычислительной мощности в виде схем СБИС , чем было доступно для более ранних методов сжатия. В результате современные алгоритмы сжатия речи могут использовать гораздо более сложные методы, чем были доступны в 1960-х годах, для достижения гораздо более высоких степеней сжатия.
Эти методы были доступны в открытой исследовательской литературе для использования в гражданских приложениях, что позволило создавать цифровые сети мобильных телефонов с существенно большей пропускной способностью каналов, чем аналоговые системы, которые им предшествовали. [ необходима цитата ]
Наиболее широко используемые алгоритмы кодирования речи основаны на кодировании с линейным предсказанием (LPC). [7] В частности, наиболее распространенной схемой кодирования речи является кодирование с линейным предсказанием с кодовым возбуждением ( CELP ) на основе LPC , которое используется, например, в стандарте GSM . В CELP моделирование делится на два этапа: этап линейного прогнозирования, который моделирует спектральную огибающую, и модель остатка на основе кодовой книги модели линейного прогнозирования. В CELP коэффициенты линейного предсказания (LPC) вычисляются и квантуются, обычно в виде линейных спектральных пар (LSP). В дополнение к собственно речевому кодированию сигнала часто необходимо использоватьканальное кодирование для передачи, чтобы избежать потерь из-за ошибок передачи. Обычно методы кодирования речи и кодирования каналов должны выбираться попарно, причем наиболее важные биты в потоке речевых данных защищены более надежным канальным кодированием, чтобы получить наилучшие общие результаты кодирования.
Модифицированный дискретные косинусное преобразование (МДКП), тип дискретных косинусного преобразования алгоритма (ДКП), был адаптирован в речь алгоритм кодирования называется LD-MDCT, используемой для AAC-LD формата , введенного в 1999. [8] МДКП с тех пор широко принятые в голоса по IP (VoIP) приложений, таких как G.729.1 широкополосного аудио кодека , введенного в 2006 году [9] Яблоко «s Facetime ( с использованием AAC-LD) , введенный в 2010 году, [10] и CELT кодека введен в 2011 году. [11]
Opus - это бесплатное программное обеспечение для кодирования речи. Он сочетает в себе алгоритмы сжатия звука MDCT и LPC . [12] Он широко используется для вызовов VoIP в WhatsApp . [13] [14] [15] PlayStation 4 видео игровая консоль также использует CELT / Opus кодек для своей PlayStation Network Партийной системы чата. [16]
Codec2 - это еще один бесплатный программный кодировщик речи, который обеспечивает очень хорошее сжатие до 700 бит / с. [17]