Акустическая теория речеобразования


Акустическая теория речеобразования — раздел акустической фонетики, исследующий аэродинамические и акустические процессы, которые происходят в речевом тракте[1]. Понимание этих процессов создает возможность обратных заключений: от акустики к артикуляционной картине. Знание акустики речеобразования необходимо и для правильной интерпретации физических данных, так как оно позволяет отделить прогнозируемые артикуляцией акустические свойства речевого сигнала от неожиданных, что в свою очередь заставляет задуматься о причинах таких акустических неожиданностей. Для фонетической науки важно, что акустическая теория речеобразования придает интерпретации физических речевых данных объяснительный, научный статус. Основы акустической теории речи были заложены в XIX веке немецким физиком Германом фон Гельмгольцем. В XX веке важнейшие работы в этой области принадлежат Гуннару Фанту и Джеймсу Фланагану[en].

Частота основного тона человеческой речи колеблется от 90Гц до 300 Гц, и определяет её мелодичность. Среднее значение частоты основного тона у каждого человека своя; мужские голоса обычно лежат в диапазоне 90—180 Гц, в то время как женские и детские находятся в области 185—300Гц. Щелчок голосовой щели представлен набором гармоник, кратных основному тону. Уровень энергий гармоник падает экспоненциально с увеличением частоты. Верхняя граничная частота речевого сигнала — приблизительно 18 кГц. Однако для трактов передачи информации, достаточно верхней граничной частоты до 3500 Г., правда при такой частотной полосе ряд фонем не слышен. При взаимодействии щелчка голосовой щели с резонансными полостями речевого тракта часть гармоник, кратных основному тону, резонирует, и образованные в спектре локальные максимумы, согласно модели Фланагана, образуют области концентрации энергии, которые называются формантами. Принято считать, что четыре форманты образуют гласные фонемы, а их динамические изменения во времени (формантные треки), по амплитуде и частоте образуют согласные звуки, те и другие называются фонемы. Добротность же формант является одной из статических характеристик речи и может характеризовать говорящего. Фонемы возбужденные шумом нельзя пропеть, в то время как фонемы возбужденные тоном могут быть пропеты. Одним из уникальных механизмов помехоустойчивого кодирования речевой информации является аллофонинизация гласных фонем, по сути это изменения траекторий формантных треков с учётом предыдущей и следующей за гласной фонемы. В русской речи насчитывается 43 фонемы и только две — «Ж» и «З» — образованы одновременно тоном и шумом.