Частота ошибок в словах

Коэффициент ошибок в словах ( WER ) - это общий показатель производительности системы распознавания речи или машинного перевода .

Общая трудность измерения производительности заключается в том, что распознанная последовательность слов может иметь длину, отличную от длины контрольной последовательности слов (предположительно правильной). WER происходит от расстояния Левенштейна , работая на уровне слов, а не на уровне фонем . WER - ценный инструмент для сравнения различных систем, а также для оценки улучшений в рамках одной системы. Этот вид измерения, однако, не дает подробностей о природе ошибок перевода, и поэтому требуется дальнейшая работа для определения основного источника (источников) ошибки и сосредоточения любых исследовательских усилий.

Эта проблема решается путем первого выравнивания распознанной последовательности слов с эталонной (произносимой) последовательностью слов с помощью динамического выравнивания строк. Изучение этого вопроса рассматривается с помощью теории, называемой степенным законом, которая устанавливает корреляцию между недоумением и частотой ошибок в словах. ^[1]

Затем коэффициент ошибок в словах можно рассчитать как:

{\ displaystyle {\ mathit {WER}} = {\ frac {S + D + I} {N}} = {\ frac {S + D + I} {S + D + C}}}

где

S - количество замен,
D - количество удалений,
I - количество прошивок,
C - количество правильных слов,
N - количество слов в справочнике (N = S + D + C)

Интуиция за «удалением» и «вставкой» заключается в том, как перейти от ссылки к гипотезе. Итак, если у нас есть ссылка «Это википедия» и гипотеза «Эта _ википедия», мы называем это удалением.

При сообщении о производительности системы распознавания речи иногда вместо этого используется точность слов (WAcc) :

{\ displaystyle {\ mathit {WAcc}} = 1 - {\ mathit {WER}} = {\ frac {NSDI} {N}} = {\ frac {CI} {N}}}

Обратите внимание, что, поскольку N - это количество слов в ссылке, частота ошибок по словам может быть больше 1,0, и, таким образом, точность слова может быть меньше 0,0.

Эксперименты [ править ]

Обычно считается, что более низкая частота ошибок в словах показывает более высокую точность распознавания речи по сравнению с более высокой частотой ошибок в словах. Однако по крайней мере одно исследование показало, что это может быть неправдой. В ходе эксперимента Microsoft Research было показано, что, если бы люди обучались по принципу «что соответствует цели оптимизации для понимания» (Wang, Acero and Chelba, 2003), они показали бы более высокую точность понимания языка, чем другие люди, продемонстрировавшие более низкий уровень ошибок в словах, что показывает, что истинное понимание разговорной речи зависит не только от высокой точности распознавания слов. ^[2]

Другие показатели [ править ]

Однако одна проблема с использованием общей формулы, такой как приведенная выше, заключается в том, что не учитывается влияние, которое различные типы ошибок могут иметь на вероятность успешного результата, например, некоторые ошибки могут быть более разрушительными, чем другие, а некоторые могут исправляться легче, чем другие. Эти факторы, вероятно, будут специфичными для тестируемого синтаксиса . Еще одна проблема заключается в том, что даже при наилучшем выравнивании формула не может отличить ошибку замены от комбинированной ошибки удаления и вставки.

Хант (1990) предложил использовать взвешенную меру точности производительности, при которой ошибки подстановки взвешиваются на единицу, а ошибки удаления и вставки взвешиваются только на 0,5, таким образом:

{\ displaystyle {\ mathit {WER}} = {\ frac {S + 0,5D + 0,5I} {N}}}

Однако ведутся споры о том, можно ли правильно использовать формулу Ханта для оценки производительности одной системы, поскольку она была разработана как средство сравнения более справедливо конкурирующих систем-кандидатов. Еще одна сложность заключается в том, позволяет ли данный синтаксис исправлять ошибки и, если да, то насколько легко этот процесс для пользователя. Таким образом, есть некоторые достоинства аргумента о том, что показатели производительности должны разрабатываться в соответствии с конкретной измеряемой системой.

Однако какая бы метрика ни использовалась, одна из основных теоретических проблем при оценке производительности системы состоит в том, чтобы решить, было ли слово «неправильно произнесено», т. Е. Виноват пользователь или распознаватель. Это может быть особенно актуально в системе, которая предназначена для работы с людьми, для которых данный язык не является родным, или с сильными региональными акцентами.

Темп, с которым следует произносить слова во время процесса измерения, также является источником различий между испытуемыми, как и потребность испытуемых в отдыхе или вдохе. Все эти факторы, возможно, нужно каким-то образом контролировать.

Для текстового диктовки обычно считается, что точность производительности ниже 95% неприемлема, но это опять же может зависеть от синтаксиса и / или предметной области, например, есть ли у пользователей временное давление для выполнения задачи, есть ли альтернативные методы завершения и так далее.

Термин «частота ошибок одного слова» иногда называют процентом неправильных распознаваний для каждого отдельного слова в системном словаре.

Изменить расстояние [ править ]

Частота ошибок по словам также может называться нормализованным расстоянием редактирования по длине . ^[3] Нормализованное расстояние редактирования между X и Y, d (X, Y) определяется как минимум W (P) / L (P), где P - путь редактирования между X и Y, W (P) - сумма весов элементарных операций редактирования P, а L (P) - количество этих операций (длина P). ^[4]

См. Также [ править ]

Ссылки [ править ]

Заметки [ править ]

^ Клаков, Дитрих; Йохен Петерс (сентябрь 2002 г.). «Тестирование корреляции количества ошибок в словах и недоумения». Речевое общение . 38 (1-2): 19-28. DOI : 10.1016 / S0167-6393 (01) 00041-3 . ISSN 0167-6393 .
^ Wang, Y .; Acero, A .; Челба, К. (2003). Является ли коэффициент ошибок в словах хорошим показателем точности понимания разговорной речи . Семинар IEEE по автоматическому распознаванию и пониманию речи. Сент-Томас, Виргинские острова США. CiteSeerX 10.1.1.89.424 .
^ Нейссендр. (2000)
^ Вычисление нормализованного расстояния редактирования и приложения: AndrCs Marzal и Enrique Vidal

Другие источники [ править ]

McCowan et al. 2005: Об использовании средств поиска информации для оценки распознавания речи
Хант, М.Дж., 1990: Заслуги для оценки распознавателей связанных слов (Speech Communication, 9, 1990, стр. 239-336)
Зехнер, К., Вайбель, А. Минимизация количества ошибок в словах в текстовых обзорах разговорной речи

[1] Клаков, Дитрих; Йохен Петерс (сентябрь 2002 г.). «Тестирование корреляции количества ошибок в словах и недоумения». Речевое общение . 38 (1-2): 19-28. DOI : 10.1016 / S0167-6393 (01) 00041-3 . ISSN 0167-6393 .

[2] Wang, Y .; Acero, A .; Челба, К. (2003). Является ли коэффициент ошибок в словах хорошим показателем точности понимания разговорной речи . Семинар IEEE по автоматическому распознаванию и пониманию речи. Сент-Томас, Виргинские острова США. CiteSeerX 10.1.1.89.424 .

[3] Нейссендр. (2000)

[4] Вычисление нормализованного расстояния редактирования и приложения: AndrCs Marzal и Enrique Vidal

[1]