Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Кодирование речи - это приложение для сжатия данных цифровых аудиосигналов, содержащих речь . При кодировании речи используется оценка параметров речи с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления результирующих смоделированных параметров в компактном потоке битов. [1]

Некоторыми приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). [2] Наиболее широко используемым методом кодирования речи в мобильной телефонии является кодирование с линейным предсказанием (LPC), а в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT). [ необходима цитата ]

Методы , используемые при кодировании речи аналогичны тем , которые используются в аудио сжатия данных и кодированием звука , где знание в психоакустике используются для передачи только данных, имеющие отношение к человеческой слуховой системе. Например, при кодировании речи в голосовом диапазоне передается только информация в полосе частот от 400 Гц до 3500 Гц, но восстановленный сигнал все еще является адекватным для разборчивости .

Кодирование речи отличается от других форм кодирования звука тем, что речь является более простым сигналом, чем большинство других звуковых сигналов, и имеется гораздо больше статистической информации о свойствах речи. В результате некоторая слуховая информация, имеющая отношение к кодированию звука, может быть ненужной в контексте кодирования речи. При кодировании речи наиболее важным критерием является сохранение разборчивости и «приятности» речи при ограниченном количестве передаваемых данных. [3]

Кроме того, для большинства речевых приложений требуется небольшая задержка при кодировании, поскольку большие задержки при кодировании мешают речевому взаимодействию. [4]

Категории [ править ]

Речевые кодеры бывают двух типов: [5]

  1. Кодеры формы волны
    • Во временной области: PCM , ADPCM
    • Частотная область: кодирование поддиапазонов , ATRAC
  2. Вокодеры
    • Кодирование с линейным предсказанием (LPC)
    • Формантное кодирование

Образец компандирования рассматривается как форма кодирования речи [ править ]

С этой точки зрения алгоритмы A-закона и μ-закона ( G.711 ), используемые в традиционной цифровой телефонии с ИКМ, можно рассматривать как более ранний предшественник кодирования речи, требующий только 8 бит на выборку, но обеспечивающий эффективное разрешение 12 бит. . [6] Законы логарифмического компандирования согласуются с человеческим слуховым восприятием в том смысле, что шум малой амплитуды слышен вдоль речевого сигнала низкой амплитуды, но маскируется шумом высокой амплитуды. Хотя это привело бы к неприемлемым искажениям в музыкальном сигнале, пиковый характер речевых сигналов в сочетании с простой частотной структурой речи в виде периодической формы волны, имеющей единственную основную частоту. со случайным добавлением всплесков шума делают эти очень простые алгоритмы мгновенного сжатия приемлемыми для речи.

В то время было испробовано множество других алгоритмов, в основном на вариантах дельта-модуляции , но после тщательного рассмотрения разработчики первых систем цифровой телефонии выбрали алгоритмы A-law / μ-law. На момент разработки их снижение пропускной способности на 33% при очень низкой сложности стало отличным инженерным компромиссом. Их звуковые характеристики остаются приемлемыми, и не было необходимости заменять их в стационарной телефонной сети.

В 2008 году кодек G.711.1 с масштабируемой структурой был стандартизирован ITU-T. Частота дискретизации входа составляет 16 кГц.

Современное сжатие речи [ править ]

Большая часть более поздних работ по сжатию речи была мотивирована военными исследованиями в области цифровой связи для защищенных военных радиостанций , где требовались очень низкие скорости передачи данных для обеспечения эффективной работы во враждебной радиосреде. В то же время было доступно гораздо больше вычислительной мощности в виде схем СБИС , чем было доступно для более ранних методов сжатия. В результате современные алгоритмы сжатия речи могут использовать гораздо более сложные методы, чем были доступны в 1960-х годах, для достижения гораздо более высоких степеней сжатия.

Эти методы были доступны в открытой исследовательской литературе для использования в гражданских приложениях, что позволило создавать цифровые сети мобильных телефонов с существенно большей пропускной способностью каналов, чем аналоговые системы, которые им предшествовали. [ необходима цитата ]

Наиболее широко используемые алгоритмы кодирования речи основаны на кодировании с линейным предсказанием (LPC). [7] В частности, наиболее распространенной схемой кодирования речи является кодирование с линейным предсказанием с кодовым возбуждением ( CELP ) на основе LPC , которое используется, например, в стандарте GSM . В CELP моделирование разделено на два этапа: этап линейного прогнозирования, который моделирует спектральную огибающую, и модель остатка на основе кодовой книги модели линейного прогнозирования. В CELP коэффициенты линейного предсказания (LPC) вычисляются и квантуются, обычно как линейные спектральные пары (LSP). В дополнение к собственно речевому кодированию сигнала часто необходимо использоватьканальное кодирование для передачи, чтобы избежать потерь из-за ошибок передачи. Обычно методы кодирования речи и кодирования каналов должны выбираться попарно, причем наиболее важные биты в потоке речевых данных защищены более надежным канальным кодированием, чтобы получить наилучшие общие результаты кодирования.

Модифицированный дискретные косинусное преобразование (МДКП), тип дискретных косинусного преобразования алгоритма (ДКП), был адаптирован в речь алгоритм кодирования называется LD-MDCT, используемой для AAC-LD формата , введенного в 1999. [8] МДКП с тех пор широко принятые в голоса по IP (VoIP) приложений, таких как G.729.1 широкополосного аудио кодека , введенного в 2006 году [9] Яблоко «s Facetime ( с использованием AAC-LD) , введенный в 2010 году, [10] и CELT кодека введен в 2011 году. [11]

Opus - это бесплатное программное обеспечение для кодирования речи. Он сочетает в себе алгоритмы сжатия звука MDCT и LPC . [12] Он широко используется для вызовов VoIP в WhatsApp . [13] [14] [15] PlayStation 4 видео игровая консоль также использует CELT / Opus кодек для своей PlayStation Network Партийной системы чата. [16]

Codec2 - это еще один бесплатный программный кодер речи, который обеспечивает очень хорошее сжатие, всего 700 бит / с. [17]

Подполя [ править ]

Кодирование широкополосного звука
  • Кодирование с линейным предсказанием (LPC)
    • AMR-WB для сетей WCDMA
    • VMR-WB для сетей CDMA2000
    • Speex , IP-MR, SILK и Opus для передачи голоса по IP (VoIP) и видеоконференцсвязи
  • Модифицированное дискретное косинусное преобразование (MDCT)
    • AAC-LD , G.722.1 , G.729.1 , CELT и Opus для VoIP и видеоконференцсвязи
  • Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM)
    • G.722 для VoIP
Узкополосное кодирование звука
  • LPC
    • FNBDT для военных приложений
    • SMV для сетей CDMA
    • Полная скорость , половина скорости , EFR и AMR для сетей GSM
    • G.723.1 , G.728 , G.729 , G.729.1 и iLBC для VoIP или видеоконференцсвязи
  • ADPCM
    • G.726 для VoIP

См. Также [ править ]

  • Сжатие аудиоданных
  • Обработка аудиосигнала
  • Сжатие данных
  • Цифровая обработка сигналов
  • Линейное предсказание
  • Мобильный телефон
  • Импульсно-кодовая модуляция
  • Психоакустическая модель
  • Рекомендации по речевому интерфейсу
  • Обработка речи
  • Синтез речи
  • Телекоммуникации
  • Векторное квантование
  • Вокодер

Ссылки [ править ]

  1. М. Архона Рамирес и М. Минами, «Кодирование речи с низкой скоростью передачи данных», в Энциклопедии телекоммуникаций Wiley, изд. JG Proakis, New York: Wiley, 2003, vol. 3. С. 1299-1308.
  2. M. Arjona Ramírez и M. Minami, «Технология и стандарты для методов низкоскоростного вокодирования», в Справочнике компьютерных сетей, изд. H. Bidgoli, New York: Wiley, 2011, vol. 2. С. 447–467.
  3. ^ П. Крун, «Оценка речевых кодеров», в книге «Кодирование и синтез речи», под ред. W. Bastiaan Kleijn и KK Paliwal, Amsterdam: Elsevier Science, 1995, стр. 467-494.
  4. ^ JH Чен, Р. Кокс, Y.-C. Лин, NS Jayant и MJ Melchner, Кодер CELP с малой задержкой для стандарта кодирования речи CCITT 16 кбит / с. IEEE J. Select. Области Коммунал. 10 (5): 830-849, июнь 1992 г.
  5. ^ Су Хён Бэ, ECE 8873 Сжатие данных и моделирование, Технологический институт Джорджии, 2004 г.
  6. ^ NS Jayant и P. Noll, Цифровое кодирование сигналов. Энглвуд Клис: Прентис-Холл, 1984.
  7. Гупта, Шипра (май 2016 г.). «Применение MFCC в распознавании говорящих независимо от текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и программной инженерии . 6 (5): 805-810 (806). ISSN  2277-128X . Проверено 18 октября 2019 .
  8. ^ Шнелл, Маркус; Шмидт, Маркус; Джандер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC - новый стандарт для высококачественной связи (PDF) . 125-я конвенция AES. Фраунгофера IIS . Аудио инженерное общество . Проверено 20 октября 2019 года .
  9. ^ Nagireddi, Sivannarayana (2008). Обработка голосовых и факсимильных сигналов VoIP . Джон Вили и сыновья . п. 69. ISBN. 9780470377864.
  10. Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime» . AppleInsider . Проверено 9 июня 2010 года .
  11. ^ Презентация кодека CELT Тимоти Б. Террибери (65 минут видео, см. Также слайды презентации в PDF)
  12. ^ Валин, Жан-Марк; Максвелл, Грегори; Террибери, Тимоти Б .; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в ​​кодеке Opus . 135-я Конвенция AES. Аудио инженерное общество . arXiv : 1602.04845 .
  13. Лейден, Джон (27 октября 2015 г.). «WhatsApp обнажился: исследованы внутренности информативного приложения» . Реестр . Проверено 19 октября 2019 года .
  14. ^ Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android» . In Thampi, Sabu M .; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Fan, Chun I .; Мармол, Феликс Гомес (ред.). Безопасность в вычислениях и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Springer. С. 286–299 (290). DOI : 10.1007 / 978-981-10-6898-0_24 . ISBN 9789811068980.
  15. ^ Шривастава, Саураб Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, инициируемые смартфонами: проблемы, примеры из практики и предотвращение» . В Ле, Дак-Нхуонг; Кумар, Рагвендра; Мишра, Броджо Кишор; Чаттерджи, Джйотир Мой; Хари, Манджу (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и примеры из практики . Кибербезопасность в параллельных и распределенных вычислениях . Джон Вили и сыновья. С. 187–206 (200). DOI : 10.1002 / 9781119488330.ch12 . ISBN 9781119488057.
  16. ^ «Программное обеспечение с открытым исходным кодом, используемое в PlayStation®4» . Sony Interactive Entertainment Inc . Проверено 11 декабря 2017 .
  17. ^ "GitHub - Codec2" . Ноябрь 2019.

Внешние ссылки [ править ]

  • Различные ссылки для кодирования речи
  • Тестовые сигналы ITU-T для тестовых образцов телекоммуникационных систем
  • Инструмент для перцепционной оценки качества речи (PESQ) МСЭ-Т Источники