Из Википедии, бесплатной энциклопедии
  (Перенаправлено из Cmudict )
Перейти к навигации Перейти к поиску

CMU Произнесение словарь (также известный как CMUdict ) является открытым исходным кодом , произнесение словарь изначально созданный Speech группой в университете Карнеги - Меллона (CMU) для использования в распознавании речи исследований.

CMUdict обеспечивает отображение орфографических / фонетических слов для английских слов в их североамериканском произношении. Он обычно используется для генерации представлений для распознавания речи (ASR), например, система CMU Sphinx , и синтеза речи (TTS), например, система Festival . CMUdict можно использовать в качестве обучающего корпуса для построения статистических моделей преобразования графемы в фонемы (g2p) [1], которые будут генерировать произношение для слов, еще не вошедших в словарь.

Самый последний выпуск - 0.7b; он содержит более 134 000 статей. Доступна версия с интерактивным поиском. [2]

Формат базы данных [ править ]

База данных распространяется в виде простого текстового файла с одной записью в строке в формате « WORD  <pronunciation>» с разделителем в два пробела между частями. Если для слова доступно несколько вариантов произношения, варианты идентифицируются с помощью пронумерованных версий (например, WORD(1)). Произношение кодируется с использованием модифицированной формы системы ARPABET с добавлением ударных знаков на гласных на уровнях 0, 1 и 2. ;;;Маркер в начале строки указывает на комментарий. Производный формат, непосредственно подходящий для движков распознавания речи, также доступен как часть дистрибутива; в этом формате устраняются различия в напряжении (обычно не используются в ASR).

История [ править ]

Приложения [ править ]

  • Unifon преобразователь основан на КМУ произнося словарь.
  • Инструментарий естественного языка содержит интерфейс к словарю произношения CMU.
  • Инструмент Carnegie Mellon Logios [5] включает Словарь произношения CMU.
  • PronunDict , словарь произношения американского английского языка, использует словарь произношения CMU в качестве источника данных. Произношение транскрибируется символами МФА . Этот словарь также поддерживает поиск по произношению .
  • Некоторые программные средства синтезатора голоса, такие как CeVIO Creative Studio и Synthesizer V, используют модифицированную версию словаря произношения CMU для синтеза английских певческих голосов.
  • Transcriber , инструмент для полнотекстовой фонетической транскрипции, использует словарь произношения CMU.


См. Также [ править ]

Ссылки [ править ]

  1. ^ http://www-i6.informatik.rwth-aachen.de/web/Software/g2p.html
  2. ^ "Словарь произношения CMU" .
  3. ^ ftp://ftp.cs.cmu.edu/project/speech/dict/ [ постоянная мертвая ссылка ]
  4. ^ http://svn.code.sf.net/p/cmusphinx/code/trunk/cmudict/00README_FIRST.txt
  5. ^ "Архивная копия" . Архивировано из оригинала на 2011-05-20 . Проверено 19 декабря 2009 .CS1 maint: заархивированная копия как заголовок ( ссылка )

Внешние ссылки [ править ]

  • Текущая версия словаря находится на SourceForge , хотя есть также версия, поддерживаемая на GitHub .
  • Домашняя страница - включает поиск по базе данных
  • RDF преобразован в Resource Description Framework проектом Texai с открытым исходным кодом .