TIMIT - это корпус фонематически и лексически транскрибируемой речи говорящих на американском английском разных полов и диалектов. Каждый записанный элемент был очерчен во времени.
TIMIT был разработан для расширения акустико-фонетических знаний и систем автоматического распознавания речи. Он был заказан DARPA, а дизайн корпуса был совместным усилием Массачусетского технологического института , SRI International и Texas Instruments (TI). Речь была записана в TI, расшифрована в MIT, проверена и подготовлена к публикации Национальным институтом стандартов и технологий (NIST). [1] Существует также версия телефонной полосы пропускания под названием NTIMIT (Network TIMIT).
TIMIT и NTIMIT не доступны в свободном доступе - для доступа к набору данных требуется либо членство в Консорциуме лингвистических данных , либо денежный платеж.
История [ править ]
Телефонный корпус TIMIT был первой попыткой создать базу данных с образцами речи. [2] Он был опубликован в 1988 году на CD-ROM и состоит всего из 10 предложений на говорящего. Каждый говорящий прочитал два «диалектных» предложения, а также еще 7 предложений, выбранных из большего набора [3]. Каждое предложение длится 30 секунд и произносится 630 разными говорящими. [4] Это была первая заметная попытка создания и распространения речевого корпуса, и общий проект обошелся в 1,5 миллиона долларов США. [5]
Полное название проекта - DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus [6], а аббревиатура TIMIT означает Texas Instruments / Massachusetts Institute of Technology. Основная причина создания корпуса телефонной речи заключалась в обучении программ распознавания речи . В задаче Blizzard различное программное обеспечение обязано преобразовывать аудиозаписи в текстовые данные, и корпус TIMIT использовался в качестве стандартизированной базовой линии. [7]
Сравнение методов машинного обучения [ править ]
Изучение | Методика | Точность (%) |
---|---|---|
Цао и Фань [8] | КИРФ | 93,1 |
Bird et al. [9] | DEvo MLP | 92,85 |
Цао и Фань [8] | NPCD / MPLSR | 92,8 |
Цао и Фань [8] | NPCD / PCA | 92,1 |
Цао и Фань [8] | МПЛСР | 91,1 |
Цао и Фань [8] | КПК / Ридж | 91,1 |
Ли и Госал | UMP | 89,25 |
Ли и Госал | MLO | 85,25 |
Ли и Госал | QDA | 83,75 |
Ager et al. | GMM | 81,5 |
Ли и Ю [10] | FSDA | 81,5 |
Ли и Ю [10] | FSVM | 78 |
См. Также [ править ]
Ссылки [ править ]
- ^ Фишер, Уильям М .; Доддингтон, Джордж Р .; Гоуди-Маршалл, Кэтлин М. (1986). База данных исследования распознавания речи DARPA: спецификации и статус . С. 93–99.
- ^ Моралес, Николас и Техедор, Хавьер и Гарридо, Хавьер и Колас, Хосе и Толедано, Доротео Т (2008). «НТЦ-ТИМИТ Генерация одноканального телефонного корпуса». Труды Шестых международных языковых ресурсов и оценки (LREC'08) : 391–395.CS1 maint: несколько имен: список авторов ( ссылка )
- ^ Лори Ф. Ламель и Роберт Х. Кассель и Стефани Сенефф (1986). Разработка речевой базы данных: дизайн и анализ акустико-фонетического корпуса (Технический отчет). DARPA (SAIC-86/1546).
- ^ Джон С. Гарофоло и Лори Ф. Ламель и Уильям М. Фишер и Джонатан Г. Фискус, Дэвид С. Паллетт и Нэнси Л. Дальгрен (1993). DARPA TIMIT: (Технический отчет). Национальный институт стандартов и технологий. DOI : 10.6028 / nist.ir.4930 .
- ^ Nattanun Chanchaochai и Кристофер Cieri и Japhet Debrah и Hongwei Дин и Yue Jiang и Сиши Ляо и Марк Либермана и Джонатан Райт и Jiahong Юань и Juhong Чжань и Юйцин Zhan (2018). GlobalTIMIT: акустико-фонетические наборы данных для языков мира . Interspeech 2018. ISCA. DOI : 10.21437 / interspeech.2018-1185 .
- ^ Бауэр, Патрик и Шелер, Дэвид и Фингшайдт, Тим (2010). WTIMIT: Корпус речи TIMIT, передаваемый по широкополосной мобильной сети 3G AMR . LREC.CS1 maint: несколько имен: список авторов ( ссылка )
- ^ Sawada, Kei и Асаи, Чиаки и Хасимото, Kei и Ор, Keiichiro и Tokuda, Кейти (2016). Система преобразования текста в речь NITech для Blizzard Challenge 2016 . Мастерская Blizzard Challenge 2016.CS1 maint: несколько имен: список авторов ( ссылка )
- ^ a b c d e Цао, Цзиго; Вентилятор, Гуанчжэ (2010). Классификация сигналов с использованием случайного леса с ядрами . IEEE. DOI : 10,1109 / aict.2010.81 . ISBN 978-1-4244-6748-8.
- ^ Берд, Джордан Дж .; Ваннер, Элизабет; Экарт, Анико; Фариа, Диего Р. (2020). «Оптимизация фонетического распознавания речи с помощью многоцелевых эволюционных алгоритмов». Экспертные системы с приложениями . Elsevier BV. 153 : 113402. DOI : 10.1016 / j.eswa.2020.113402 . ISSN 0957-4174 .
- ^ а б Ли, Бин; Ю, Цинчжао (2008). «Классификация функциональных данных: подход сегментации». Вычислительная статистика и анализ данных . Elsevier BV. 52 (10): 4790–4800. DOI : 10.1016 / j.csda.2008.03.024 . ISSN 0167-9473 .
Внешние ссылки [ править ]
- Корпус акустико-фонетической непрерывной речи TIMIT