Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

TIMIT - это корпус фонематически и лексически транскрибируемой речи говорящих на американском английском разных полов и диалектов. Каждый записанный элемент был очерчен во времени.

TIMIT был разработан для расширения акустико-фонетических знаний и систем автоматического распознавания речи. Он был заказан DARPA, а дизайн корпуса был совместным усилием Массачусетского технологического института , SRI International и Texas Instruments (TI). Речь была записана в TI, расшифрована в MIT, проверена и подготовлена ​​к публикации Национальным институтом стандартов и технологий (NIST). [1] Существует также версия телефонной полосы пропускания под названием NTIMIT (Network TIMIT).

TIMIT и NTIMIT не доступны в свободном доступе - для доступа к набору данных требуется либо членство в Консорциуме лингвистических данных , либо денежный платеж.

История [ править ]

Телефонный корпус TIMIT был первой попыткой создать базу данных с образцами речи. [2] Он был опубликован в 1988 году на CD-ROM и состоит всего из 10 предложений на говорящего. Каждый говорящий прочитал два «диалектных» предложения, а также еще 7 предложений, выбранных из большего набора [3]. Каждое предложение длится 30 секунд и произносится 630 разными говорящими. [4] Это была первая заметная попытка создания и распространения речевого корпуса, и общий проект обошелся в 1,5 миллиона долларов США. [5]

Полное название проекта - DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus [6], а аббревиатура TIMIT означает Texas Instruments / Massachusetts Institute of Technology. Основная причина создания корпуса телефонной речи заключалась в обучении программ распознавания речи . В задаче Blizzard различное программное обеспечение обязано преобразовывать аудиозаписи в текстовые данные, и корпус TIMIT использовался в качестве стандартизированной базовой линии. [7]

Сравнение методов машинного обучения [ править ]

См. Также [ править ]

Ссылки [ править ]

  1. ^ Фишер, Уильям М .; Доддингтон, Джордж Р .; Гоуди-Маршалл, Кэтлин М. (1986). База данных исследования распознавания речи DARPA: спецификации и статус . С. 93–99.
  2. ^ Моралес, Николас и Техедор, Хавьер и Гарридо, Хавьер и Колас, Хосе и Толедано, Доротео Т (2008). «НТЦ-ТИМИТ Генерация одноканального телефонного корпуса». Труды Шестых международных языковых ресурсов и оценки (LREC'08) : 391–395.CS1 maint: несколько имен: список авторов ( ссылка )
  3. ^ Лори Ф. Ламель и Роберт Х. Кассель и Стефани Сенефф (1986). Разработка речевой базы данных: дизайн и анализ акустико-фонетического корпуса (Технический отчет). DARPA (SAIC-86/1546).
  4. ^ Джон С. Гарофоло и Лори Ф. Ламель и Уильям М. Фишер и Джонатан Г. Фискус, Дэвид С. Паллетт и Нэнси Л. Дальгрен (1993). DARPA TIMIT: (Технический отчет). Национальный институт стандартов и технологий. DOI : 10.6028 / nist.ir.4930 .
  5. ^ Nattanun Chanchaochai и Кристофер Cieri и Japhet Debrah и Hongwei Дин и Yue Jiang и Сиши Ляо и Марк Либермана и Джонатан Райт и Jiahong Юань и Juhong Чжань и Юйцин Zhan (2018). GlobalTIMIT: акустико-фонетические наборы данных для языков мира . Interspeech 2018. ISCA. DOI : 10.21437 / interspeech.2018-1185 .
  6. ^ Бауэр, Патрик и Шелер, Дэвид и Фингшайдт, Тим (2010). WTIMIT: Корпус речи TIMIT, передаваемый по широкополосной мобильной сети 3G AMR . LREC.CS1 maint: несколько имен: список авторов ( ссылка )
  7. ^ Sawada, Kei и Асаи, Чиаки и Хасимото, Kei и Ор, Keiichiro и Tokuda, Кейти (2016). Система преобразования текста в речь NITech для Blizzard Challenge 2016 . Мастерская Blizzard Challenge 2016.CS1 maint: несколько имен: список авторов ( ссылка )
  8. ^ a b c d e Цао, Цзиго; Вентилятор, Гуанчжэ (2010). Классификация сигналов с использованием случайного леса с ядрами . IEEE. DOI : 10,1109 / aict.2010.81 . ISBN 978-1-4244-6748-8.
  9. ^ Берд, Джордан Дж .; Ваннер, Элизабет; Экарт, Анико; Фариа, Диего Р. (2020). «Оптимизация фонетического распознавания речи с помощью многоцелевых эволюционных алгоритмов». Экспертные системы с приложениями . Elsevier BV. 153 : 113402. DOI : 10.1016 / j.eswa.2020.113402 . ISSN 0957-4174 . 
  10. ^ а б Ли, Бин; Ю, Цинчжао (2008). «Классификация функциональных данных: подход сегментации». Вычислительная статистика и анализ данных . Elsevier BV. 52 (10): 4790–4800. DOI : 10.1016 / j.csda.2008.03.024 . ISSN 0167-9473 . 

Внешние ссылки [ править ]

  • Корпус акустико-фонетической непрерывной речи TIMIT