Аудио-к-видео синхронизации ( синхронизация А. В. , также известная как синхронизация губ , или по его отсутствию: ошибки синхронизации губ , губы закрылка ) относится к относительной синхронизации звука (звук) и видео части (изображения) во время создания, постпродакшн (микширование), обработка передачи , приема и воспроизведения. AV-синхронизация может быть проблемой на телевидении , видеоконференцсвязи или кино .
В отраслевой терминологии ошибка синхронизации губ выражается как количество времени, в течение которого звук отклоняется от идеальной синхронизации с видео, где положительное значение времени указывает, что звук опережает видео, а отрицательное число указывает, что звук отстает от видео. [1] Эта терминология и стандартизация числовой ошибки синхронизации губ используются в индустрии профессионального вещания, что подтверждается различными профессиональными документами, [2] стандартами, такими как ITU-R BT.1359-1, и другими приведенными ниже ссылками.
Цифровые или аналоговые аудио-видеопотоки или видеофайлы обычно содержат какой-то механизм синхронизации, либо в виде чередующихся видео- и аудиоданных, либо посредством явной относительной отметки времени данных. Обработка данных должна учитывать относительную синхронизацию данных, например, путем растягивания или интерполяции полученных данных. Если при обработке не учитывается ошибка AV-синхронизации, она будет увеличиваться всякий раз, когда данные теряются из-за ошибок передачи или из-за отсутствия или несвоевременной обработки.
Неправильно синхронизирован
Существуют разные способы некорректной синхронизации AV-синхронизации:
- При создании AV-синхронизации возникают ошибки из-за
- Внутренняя ошибка AV-синхронизации: разные задержки обработки сигнала между изображением и звуком в видеокамере и микрофоне . Задержка AV-синхронизации обычно фиксированная.
- Ошибка внешней AV-синхронизации: если микрофон расположен далеко от источника звука, звук будет рассинхронизирован, потому что скорость звука намного ниже скорости света . Если источник звука находится на расстоянии 340 метров от микрофона, звук появляется примерно на 1 секунду позже, чем свет. Задержка AV-синхронизации увеличивается с расстоянием.
- Во время микширования видеоклипов обычно требуется задержка звука или видео для их синхронизации. Задержка AV-синхронизации статична, но может варьироваться в зависимости от конкретного клипа.
- Эффекты редактирования видео .
Примеры передачи ( широковещания ), приема и воспроизведения, при которых AV-синхронизация может быть некорректно синхронизирована:
- Видеокамера со встроенными микрофонами или линейным входом не может задерживать звук и видео на одинаковое количество миллисекунд. Видеокамера должна иметь какую-то явную синхронизацию AV-синхронизации, помещенную в видео- и аудиопотоки. Твердотельные видеокамеры (например, устройства с зарядовой связью (CCD) и датчики изображения CMOS ) могут задерживать видеосигнал на один или несколько кадров.
- AV-поток может быть поврежден во время передачи из-за электрических сбоев (проводных) или беспроводных прерываний - это может привести к его рассинхронизации. Задержка AV-синхронизации обычно увеличивается со временем.
- В телевизионных системах широко используются схемы обработки аудио- и видеосигналов со значительными (и часто непостоянными) задержками. Конкретные схемы обработки видеосигнала, которые широко используются и вносят существенные задержки видео, включают синхронизаторы кадров, процессоры цифровых видеоэффектов, шумоподавление видео, преобразователи формата и системы сжатия .
- Схема обработки видеомонитора может задерживать видеопоток. Пиксельные дисплеи требуют преобразования формата видео и обработки деинтерлейсинга, которая может добавить один или несколько кадров задержки видео.
- Видеомонитор со встроенными динамиками или линейным выходом может не задерживать звук и видео на одинаковое количество миллисекунд. Некоторые видеомониторы содержат внутренние настраиваемые пользователем задержки звука для помощи в исправлении ошибок.
- Некоторые протоколы передачи, такие как RTP, требуют внеполосного метода синхронизации медиапотоков. В случае RTP каждый медиапоток имеет свою собственную метку времени с использованием независимой тактовой частоты и рандомизированного начального значения для каждого потока. Отчет отправителя RTCP (SR) необходим для каждого потока для синхронизации потоков. [3] Необходимые пакеты RTCP могут быть потеряны (поскольку RTP / RTCP не гарантирует доставку ) или отправлены не ранее, чем через несколько секунд после начала потока. Многие программные клиенты вообще не отправляют RTCP или отправляют несовместимые данные. [ необходима цитата ]
Эффект отсутствия явной синхронизации AV-синхронизации
Когда цифровой или аналоговый аудио-видеопоток не имеет какой-либо явной синхронизации AV-синхронизации, эти эффекты приведут к рассинхронизации потока:
- В фильмах эти ошибки синхронизации чаще всего вызваны изношенной пленкой, пропускающей звездочки кинопроектора, потому что пленка имеет порванные отверстия звездочки.
- Ошибки также могут быть вызваны тем, что киномеханик неправильно интерпретирует пленку в проекторе, хотя это редко бывает у компетентных киномехаников.
- AV-синхронизация обычно корректируется и поддерживается с помощью синхронизатора звука . Организации по стандартизации телевизионной индустрии установили допустимое количество ошибок синхронизации аудио и видео и предложили методы, связанные с поддержанием приемлемой синхронизации. [4] [1]
- Ошибки AV-синхронизации становятся серьезной проблемой в индустрии цифрового телевидения из-за использования больших объемов обработки видеосигналов в телевизионном производстве, телевещании и пиксельных телевизионных дисплеях, таких как ЖК- дисплеи , DLP и плазменные дисплеи .
- В области телевидения проблемы синхронизации аудио-видео обычно возникают, когда значительный объем обработки видео выполняется в видеочасти телевизионной программы.
- Типичные источники значительных задержек видео в телевизионной сфере включают в себя синхронизаторы видео, кодеры и декодеры сжатия видео. Особенно проблемные кодеры и декодеры используются в системах сжатия MPEG, используемых для вещания цифрового телевидения и хранения телевизионных программ на бытовых и профессиональных устройствах записи и воспроизведения.
- Источник значительной задержки видео обнаружен в пиксельных телевизионных дисплеях (LCD, DLP и плазменных), которые используют комплексную обработку видеосигнала для преобразования разрешения входящего видеосигнала в собственное разрешение пиксельного дисплея, например, преобразование видео стандартной четкости в отображаться на дисплее высокой четкости. «Лоскут для губ» временами может превышать 200 мс.
- В вещательном телевидении нет ничего необычного в том, что ошибка синхронизации губ может время от времени изменяться более чем на 100 мс (несколько видеокадров).
- Рекомендация EBU R37 «Относительная синхронизация звуковых и визуальных компонентов телевизионного сигнала» гласит, что сквозная синхронизация аудио / видео должна быть в пределах +40 мс и -60 мс (звук до / после видео, соответственно) и что каждый стадия должна быть в пределах от +5 мс до -15 мс. [5]
Зритель воспринимает неправильно синхронизированную AV-синхронизацию
В результате, как правило, снимаемый или транслируемый по телевидению персонаж двигает своим ртом, когда это не сопровождается речевым диалогом, отсюда и термин «лоскут губ» или «ошибка синхронизации губ». Возникающая в результате ошибка синхронизации аудио-видео может раздражать зрителя и даже может привести к тому, что зритель не получит удовольствие от программы, снизит эффективность программы или приведет к негативному восприятию говорящего со стороны зрителя. [6] Потенциальная потеря эффективности вызывает особое беспокойство у рекламных продуктов и политических кандидатов. Организации по стандартизации телевизионной индустрии, такие как Комитет передовых телевизионных систем , стали участвовать в установлении стандартов для ошибок синхронизации аудио и видео. [4]
Из-за этих неприятностей ошибка AV-синхронизации является проблемой для индустрии телевизионных программ, включая телевизионные станции, сети, рекламодателей и компании, производящие программы. К сожалению, с появлением технологий плоских дисплеев высокой четкости (LCD, DLP и плазменных), которые могут задерживать больше видео, чем аудио, проблема перенеслась в дом зрителя и вышла из-под контроля только индустрии телевизионных программ. Компании-производители потребительских товаров теперь предлагают регулировку задержки звука, чтобы компенсировать изменения задержки видео в телевизорах и A / V-ресиверах, а несколько компаний производят специальные задержки цифрового звука, предназначенные исключительно для исправления ошибок синхронизации губ.
Рекомендации
Для телевизионных приложений Комитет передовых телевизионных систем рекомендует, чтобы звук опережал видео не более чем на 15 миллисекунд, а звук отставал от видео не более чем на 45 миллисекунд. [4] Тем не менее, ITU провел строго контролируемые тесты с экспертными наблюдателями и обнаружил, что порог обнаруживаемости составляет от -125 до +45 мс. [1] Для фильма приемлемой синхронизацией губ считается не более 22 миллисекунд в любом направлении. [5] [7]
Ассоциация бытовой электроники опубликовала ряд рекомендаций по реализации A / V-синхронизации в цифровых телевизионных приемниках. [8]
SMPTE ST2064
Стандарт SMPTE ST2064, опубликованный в 2015 году [9], предоставляет технологию для уменьшения или устранения ошибок синхронизации губ в цифровом телевидении. Стандарт использует аудио и видео отпечатки пальцев, взятые из телевизионной программы. Отпечатки пальцев можно восстановить и использовать для исправления накопленной ошибки синхронизации губ. После создания отпечатков пальцев для телепрограммы и включения необходимой технологии устройство отображения зрителя имеет возможность непрерывно измерять и исправлять ошибки синхронизации губ. [10] [11]
Отметки времени
Отметки времени представления (PTS) встраиваются в транспортные потоки MPEG, чтобы точно сигнализировать, когда должен быть представлен каждый аудио- и видеосегмент, чтобы избежать ошибок AV-синхронизации. Однако эти временные метки часто добавляются после того, как видео проходит кадровую синхронизацию, преобразование формата и предварительную обработку, и, таким образом, ошибки синхронизации губ, созданные этими операциями, не будут исправлены добавлением и использованием временных меток. [12] [13] [14] [15]
В режиме реального времени Transport Protocol синхронизирует с использованием средств массовой информации Созидания временные метки на произвольной шкале. Часы реального времени, такие как часы, доставляемые сетевым протоколом времени и описанные в протоколе описания сеанса [16], связанные с мультимедийными данными, могут использоваться для синхронизации мультимедийных данных. Затем можно использовать сервер для окончательной синхронизации, чтобы удалить любое остаточное смещение. [17]
Смотрите также
- Аудио синхронизатор
- С 'хлопушкой'
- Дубляж (кинопроизводство)
- Входная задержка
- Синхронизация губ
Рекомендации
- ^ a b c «ITU-R BT.1359-1, Относительная синхронизация звука и изображения для радиовещания» (PDF) . ITU. 1998 . Дата обращения 30 мая 2015 . CS1 maint: обескураженный параметр ( ссылка )
- ^ Патрик Уодделл; Грэм Джонс; Адам Голдберг. «Аудио / видео стандарты и решения. Отчет о состоянии» (PDF) . ATSC . Проверено 4 апреля 2012 года . CS1 maint: обескураженный параметр ( ссылка )
- ^ RFC 3550
- ^ а б в IS-191: Relative Timing of Sound and Vision for Broadcast Operations , ATSC , 2003-06-26, заархивировано из оригинала на 2012-03-21 CS1 maint: обескураженный параметр ( ссылка )
- ^ а б «Относительная синхронизация звуковых и визуальных компонентов телевизионного сигнала» (PDF) .
- ^ Байрон Ривз; Дэвид Фолькер (октябрь 1993 г.). «Влияние асинхронности аудио-видео на память зрителя, оценка контента и способность обнаружения» (PDF) . Архивировано из оригинала (PDF) 2 октября 2008 года . Проверено 19 октября 2008 . CS1 maint: обескураженный параметр ( ссылка )
- ^ Сара Кудрле; и другие. (Июль 2011 г.). «Отпечаток пальца для решения проблем синхронизации аудио / видео в средах вещания». Журнал Motion Imaging . SMPTE .
Установлены соответствующие пределы синхронизации A / V, и диапазон, который считается приемлемым для пленки, составляет +/- 22 мс. Диапазон для видео, согласно ATSC, составляет до 15 мс с опережением и около 45 мс с задержкой.
- ^ Ассоциация бытовой электроники. «CEA-CEB20 R-2013: Рекомендуемая практика обработки синхронизации аудио / видео» . Архивировано из оригинала на 2015-05-30. CS1 maint: обескураженный параметр ( ссылка )
- ^ ST 2064: 2015 - Стандарт SMPTE - Измерение синхронизации аудио и видео , SMPTE , 2015
- ^ Обновление стандартов SMPTE: вызов Lip-Sync , SMPTE , 10 декабря 2013 г.
- ^ Обновление стандартов SMPTE: задача Lip-Sync (PDF) , SMPTE , 10 декабря 2013 г.
- ^ "Часто задаваемые вопросы о системах MPEG-2: 19. Куда вставляются PTS и DTS?" . Архивировано из оригинала на 2008-07-26 . Проверено 27 декабря 2007 .
- ^ Арпи (7 мая 2003 г.). "MPlayer-G2-dev: время контейнера mpeg (значения PTS)" .
- ^ "birds-eye.net: DTS - расшифровка отметки времени" .
- ^ «SVCD2DVD: Создавайте и записывайте DVD: AVI в DVD, DivX в DVD, Xvid в DVD, MPEG в DVD, SVCD в DVD, VCD в DVD, преобразование PAL в NTSC, HDTV2DVD, HDTV в DVD, BLURAY» . www.svcd2dvd.com .
- ^ RFC 7273
- ^ RFC 7272
дальнейшее чтение
- Куньини, Альдо (1 сентября 2007 г.). «Управление синхронизацией губ» . TV Technology, первоначально от Broadcast Engineering. Архивировано из оригинала 8 октября 2015 года . Проверено 19 октября 2008 . CS1 maint: обескураженный параметр ( ссылка )
- RA Salmon; Эндрю Мейсон (январь 2009 г.). «Факторы, влияющие на восприятие синхронизации аудио-видео на телевидении» . BBC Research & Development . Проверено 2 июня 2013 . Цитировать журнал требует
|journal=
( помощь )CS1 maint: обескураженный параметр ( ссылка ) - Sieranoja, S .; Сахидулла, штат Мэриленд; Киннунен, Т .; Komulainen, J .; Хадид, А. (июль 2018 г.). «Обнаружение аудиовизуальной синхронизации с оптимизированными звуковыми функциями» (PDF) . IEEE 3rd Int. Конференция по обработке сигналов и изображений (ICSIP 2018) : 377–381. DOI : 10.1109 / SIPROCESS.2018.8600424 . ISBN 978-1-5386-6396-7.