Разработка музыкального клипа |
---|
Аудио-к-видео синхронизации ( синхронизация А. В. , также известная как синхронизация губ , или по его отсутствию: ошибки синхронизации губ , губы закрылка ) относится к относительной синхронизации звука (звук) и видео части (изображения) во время создания, постпродакшн (микширование), обработка передачи , приема и воспроизведения. AV-синхронизация может быть проблемой на телевидении , видеоконференцсвязи или кино .
В отраслевой терминологии ошибка синхронизации губ выражается как количество времени, в течение которого звук отклоняется от идеальной синхронизации с видео, где положительное значение времени указывает, что звук опережает видео, а отрицательное число указывает, что звук отстает от видео. [1] Эта терминология и стандартизация числовой ошибки синхронизации губ используются в индустрии профессионального вещания, что подтверждается различными профессиональными документами, [2] стандартами, такими как ITU-R BT.1359-1, и другими приведенными ниже ссылками.
Цифровые или аналоговые аудио-видеопотоки или видеофайлы обычно содержат какой-то механизм синхронизации, либо в виде чередующихся видео- и аудиоданных, либо посредством явной относительной отметки времени данных. Обработка данных должна учитывать относительную синхронизацию данных, например, путем растягивания или интерполяции полученных данных. Если при обработке не учитывается ошибка AV-синхронизации, она будет увеличиваться всякий раз, когда данные теряются из-за ошибок передачи или из-за отсутствия или несвоевременной обработки.
Неправильно синхронизирован [ править ]
Существуют разные способы некорректной синхронизации AV-синхронизации:
- При создании AV-синхронизации возникают ошибки из-за
- Внутренняя ошибка AV-синхронизации: разные задержки обработки сигнала между изображением и звуком в видеокамере и микрофоне . Задержка AV-синхронизации обычно фиксированная.
- Ошибка внешней AV-синхронизации: если микрофон расположен далеко от источника звука, звук будет рассинхронизирован, потому что скорость звука намного ниже скорости света . Если источник звука находится на расстоянии 340 метров от микрофона, звук появляется примерно на 1 секунду позже, чем свет. Задержка AV-синхронизации увеличивается с расстоянием.
- Во время микширования видеоклипов обычно требуется задержка звука или видео для их синхронизации. Задержка AV-синхронизации статична, но может варьироваться в зависимости от конкретного клипа.
- Эффекты редактирования видео .
Примеры передачи ( широковещания ), приема и воспроизведения, при которых AV-синхронизация может быть некорректно синхронизирована:
- Видеокамера со встроенными микрофонами или линейным входом не может задерживать звук и видео на одинаковое количество миллисекунд. Видеокамера должна иметь какую-то явную синхронизацию AV-синхронизации, помещенную в видео- и аудиопотоки. Твердотельные видеокамеры (например, устройства с зарядовой связью (CCD) и датчики изображения CMOS ) могут задерживать видеосигнал на один или несколько кадров.
- AV-поток может быть поврежден во время передачи из-за электрических сбоев (проводных) или беспроводных прерываний - это может привести к его рассинхронизации. Задержка AV-синхронизации обычно увеличивается со временем.
- В телевизионных системах широко используются схемы обработки аудио- и видеосигналов со значительными (и часто непостоянными) задержками. Конкретные схемы обработки видеосигнала, которые широко используются и вносят существенные задержки видео, включают синхронизаторы кадров, процессоры цифровых видеоэффектов, шумоподавление видео, преобразователи формата и системы сжатия .
- Схема обработки видеомонитора может задерживать видеопоток. Пиксельные дисплеи требуют преобразования формата видео и обработки деинтерлейсинга, которая может добавить один или несколько кадров задержки видео.
- Видеомонитор со встроенными динамиками или линейным выходом может не задерживать звук и видео на одинаковое количество миллисекунд. Некоторые видеомониторы содержат внутренние настраиваемые пользователем задержки звука для помощи в исправлении ошибок.
- Некоторые протоколы передачи, такие как RTP, требуют внеполосного метода синхронизации медиапотоков. В случае RTP каждый медиапоток имеет свою собственную метку времени с использованием независимой тактовой частоты и рандомизированного начального значения для каждого потока. Отчет отправителя RTCP (SR) необходим для каждого потока для синхронизации потоков. [3] Необходимые пакеты RTCP могут быть потеряны (поскольку RTP / RTCP не гарантирует доставку ) или отправлены не ранее, чем через несколько секунд после начала потока. Многие программные клиенты вообще не отправляют RTCP или отправляют несовместимые данные. [ необходима цитата ]
Эффект отсутствия явной синхронизации AV-синхронизации [ править ]
Когда цифровой или аналоговый аудио-видеопоток не имеет какой-либо явной синхронизации AV-синхронизации, эти эффекты приведут к рассинхронизации потока:
- В фильмах эти ошибки синхронизации чаще всего вызваны тем, что изношенная пленка пропускает звездочки кинопроектора, потому что на пленке есть порванные отверстия для звездочек.
- Ошибки также могут быть вызваны тем, что киномеханик неправильно интерпретирует пленку в проекторе, хотя это редко бывает у компетентных киномехаников.
- AV-синхронизация обычно корректируется и поддерживается с помощью синхронизатора звука . Организации по стандартизации телевизионной индустрии установили допустимое количество ошибок синхронизации аудио и видео и предложили методы, связанные с поддержанием приемлемой синхронизации. [4] [1]
- Ошибки AV-синхронизации становятся серьезной проблемой в индустрии цифрового телевидения из-за использования больших объемов обработки видеосигналов в телевизионном производстве, телевещании и пиксельных телевизионных дисплеях, таких как ЖК- дисплеи , DLP и плазменные дисплеи .
- В области телевидения проблемы синхронизации аудио-видео обычно возникают, когда значительный объем обработки видео выполняется в видеочасти телевизионной программы.
- Типичные источники значительных задержек видео в телевизионной сфере включают в себя синхронизаторы видео, кодеры и декодеры сжатия видео. Особенно проблемные кодеры и декодеры используются в системах сжатия MPEG, используемых для вещания цифрового телевидения и хранения телевизионных программ на бытовых и профессиональных устройствах записи и воспроизведения.
- Источник значительной задержки видео обнаружен в пиксельных телевизионных дисплеях (LCD, DLP и плазменных), которые используют комплексную обработку видеосигнала для преобразования разрешения входящего видеосигнала в собственное разрешение пиксельного дисплея, например, преобразование видео стандартной четкости в отображаться на дисплее высокой четкости. «Лоскут для губ» временами может превышать 200 мс.
- В вещательном телевидении нет ничего необычного в том, что ошибка синхронизации губ может время от времени изменяться более чем на 100 мс (несколько видеокадров).
- Рекомендация EBU R37 «Относительная синхронизация звуковых и визуальных компонентов телевизионного сигнала» гласит, что сквозная синхронизация аудио / видео должна быть в пределах +40 мс и -60 мс (звук до / после видео, соответственно) и что каждый стадия должна быть в пределах от +5 мс до -15 мс. [5]
Опыт просмотра неправильно синхронизированной AV-синхронизации [ править ]
В результате, как правило, снимаемый или транслируемый по телевидению персонаж двигает своим ртом, когда это не сопровождается речевым диалогом, отсюда и термин «лоскут губ» или «ошибка синхронизации губ». Возникающая в результате ошибка синхронизации аудио-видео может раздражать зрителя и даже может привести к тому, что зритель не получит удовольствие от программы, снизит эффективность программы или приведет к негативному восприятию говорящего со стороны зрителя. [6] Потенциальная потеря эффективности вызывает особое беспокойство у рекламных продуктов и политических кандидатов. Организации по стандартизации телевизионной индустрии, такие как Комитет передовых телевизионных систем , стали участвовать в установлении стандартов для ошибок синхронизации аудио и видео. [4]
Из-за этих неприятностей ошибка AV-синхронизации является проблемой для индустрии телевизионных программ, включая телевизионные станции, сети, рекламодателей и компании, производящие программы. К сожалению, с появлением технологий плоских дисплеев высокой четкости (LCD, DLP и плазменных), которые могут задерживать больше видео, чем аудио, проблема перенеслась в дом зрителя и вышла из-под контроля только индустрии телевизионных программ. Компании-производители потребительских товаров теперь предлагают регулировку задержки звука, чтобы компенсировать изменения задержки видео в телевизорах и A / V-ресиверах, а несколько компаний производят специальные задержки цифрового звука, предназначенные исключительно для исправления ошибок синхронизации губ.
Рекомендации [ править ]
Для телевизионных приложений Комитет передовых телевизионных систем рекомендует, чтобы звук опережал видео не более чем на 15 миллисекунд, а звук отставал от видео не более чем на 45 миллисекунд. [4] Тем не менее, ITU провел строго контролируемые тесты с экспертными наблюдателями и обнаружил, что порог обнаруживаемости составляет от -125 до +45 мс. [1] Для фильма приемлемой синхронизацией губ считается не более 22 миллисекунд в любом направлении. [5] [7]
Ассоциация бытовой электроники опубликовала ряд рекомендаций по реализации A / V-синхронизации в цифровых телевизионных приемниках. [8]
SMPTE ST2064 [ править ]
Стандарт SMPTE ST2064, опубликованный в 2015 году [9], предоставляет технологию для уменьшения или устранения ошибок синхронизации губ в цифровом телевидении. Стандарт использует аудио и видео отпечатки пальцев, взятые из телевизионной программы. Отпечатки пальцев можно восстановить и использовать для исправления накопленной ошибки синхронизации губ. После создания отпечатков пальцев для телепрограммы и включения необходимой технологии устройство отображения зрителя имеет возможность непрерывно измерять и исправлять ошибки синхронизации губ. [10] [11]
Отметки времени [ править ]
Отметки времени представления (PTS) встраиваются в транспортные потоки MPEG, чтобы точно сигнализировать, когда должен быть представлен каждый аудио- и видеосегмент, чтобы избежать ошибок AV-синхронизации. Однако эти временные метки часто добавляются после того, как видео проходит кадровую синхронизацию, преобразование формата и предварительную обработку, и, таким образом, ошибки синхронизации губ, созданные этими операциями, не будут исправлены добавлением и использованием временных меток. [12] [13] [14] [15]
В режиме реального времени Transport Protocol синхронизирует с использованием средств массовой информации Созидания временные метки на произвольной шкале. Часы реального времени, такие как часы, доставляемые сетевым протоколом времени и описанные в протоколе описания сеанса [16], связанные с мультимедийными данными, могут использоваться для синхронизации мультимедийных данных. Затем можно использовать сервер для окончательной синхронизации, чтобы удалить любое остаточное смещение. [17]
См. Также [ править ]
- Аудио синхронизатор
- С 'хлопушкой'
- Дубляж (кинопроизводство)
- Входная задержка
- Синхронизация губ
Ссылки [ править ]
- ^ a b c «ITU-R BT.1359-1, Относительная синхронизация звука и изображения для радиовещания» (PDF) . ITU. 1998 . Дата обращения 30 мая 2015 .
- ^ Патрик Уодделл; Грэм Джонс; Адам Голдберг. «Аудио / видео стандарты и решения. Отчет о состоянии» (PDF) . ATSC . Проверено 4 апреля 2012 года .
- ^ RFC 3550
- ^ a b c IS-191: Relative Timing of Sound and Vision for Broadcast Operations , ATSC , 2003-06-26, заархивировано из оригинала на 2012-03-21
- ^ a b «Относительная синхронизация звуковых и визуальных компонентов телевизионного сигнала» (PDF) .
- ^ Байрон Ривз; Дэвид Фолькер (октябрь 1993 г.). «Влияние асинхронности аудио-видео на память зрителя, оценка контента и способность обнаружения» (PDF) . Архивировано из оригинала (PDF) 2 октября 2008 года . Проверено 19 октября 2008 .
- ^ Сара Кудрле; и другие. (Июль 2011 г.). «Отпечаток пальца для решения проблем синхронизации аудио / видео в средах вещания». Журнал Motion Imaging . SMPTE .
Установлены соответствующие пределы синхронизации A / V, и диапазон, который считается приемлемым для пленки, составляет +/- 22 мс.
Диапазон для видео, согласно ATSC, составляет до 15 мс с опережением и около 45 мс с задержкой.
- ^ Ассоциация бытовой электроники. «CEA-CEB20 R-2013: Рекомендуемая практика обработки синхронизации аудио / видео» . Архивировано из оригинала на 2015-05-30.
- ^ ST 2064: 2015 - Стандарт SMPTE - Измерение синхронизации аудио и видео , SMPTE , 2015
- ^ Обновление стандартов SMPTE: вызов Lip-Sync , SMPTE , 10 декабря 2013 г.
- ^ Обновление стандартов SMPTE: проблема синхронизации губ (PDF) , SMPTE , 10 декабря 2013 г.
- ^ "Часто задаваемые вопросы о системах MPEG-2: 19. Куда вставляются PTS и DTS?" . Архивировано из оригинала на 2008-07-26 . Проверено 27 декабря 2007 .
- ↑ Arpi (7 мая 2003 г.). "MPlayer-G2-dev: время контейнера mpeg (значения PTS)" .
- ^ "birds-eye.net: DTS - расшифровка отметки времени" .
- ^ "SVCD2DVD: Создавайте и записывайте DVD: AVI в DVD, DivX в DVD, Xvid в DVD, MPEG в DVD, SVCD в DVD, VCD в DVD, преобразование PAL в NTSC, HDTV2DVD, HDTV в DVD, BLURAY" . www.svcd2dvd.com .
- ^ RFC 7273
- ^ RFC 7272
Дальнейшее чтение [ править ]
- Куньини, Альдо (1 сентября 2007 г.). «Управление синхронизацией губ» . TV Technology, первоначально от Broadcast Engineering. Архивировано из оригинала 8 октября 2015 года . Проверено 19 октября 2008 .
- RA Salmon; Эндрю Мейсон (январь 2009 г.). «Факторы, влияющие на восприятие синхронизации аудио-видео на телевидении» . BBC Research & Development . Проверено 2 июня 2013 . Cite journal requires
|journal=
(help) - Sieranoja, S .; Сахидулла, штат Мэриленд; Киннунен, Т .; Komulainen, J .; Хадид, А. (июль 2018 г.). «Обнаружение аудиовизуальной синхронизации с оптимизированными звуковыми функциями» (PDF) . IEEE 3rd Int. Конференция по обработке сигналов и изображений (ICSIP 2018) : 377–381. DOI : 10.1109 / SIPROCESS.2018.8600424 . ISBN 978-1-5386-6396-7.