MedSLT - это устный переводчик среднего уровня с открытым исходным кодом, разработанный Женевским университетом . Он финансируется Швейцарским национальным научным фондом . Система разработана для медицинской сферы. В настоящее время он охватывает диалоги между врачом и пациентом по диагностике головной боли, боли в груди и животе на английском, французском, японском, испанском, каталонском и арабском языках. Используемый словарный запас составляет от 350 до 1000 слов в зависимости от домена и языковой пары. [1]
Мотивация для создания MedSLT
В мире более 6000 языков, языковые барьеры становятся все более серьезной проблемой для здравоохранения. Отсутствие медицинских переводчиков может привести к плачевным последствиям. Они варьируются от длительного пребывания в больнице до неправильного диагноза и приема лекарств. Исследование показало, что только около половины из 23 миллионов человек с ограниченным знанием английского языка в Соединенных Штатах были обеспечены медицинским переводчиком. Миллионы беженцев и иммигрантов во всем мире сталкиваются с аналогичными проблемами, хотя и не всегда такими серьезными. Разрыв между необходимостью и доступностью языковых услуг может быть устранен с помощью систем перевода речи . [2]
Вызовы
Самая большая проблема заключалась в том, чтобы разработать идеальную систему, хотя в настоящий момент это невозможно. Эта система соответствовала бы потребностям врачей и пациентов и обеспечивала бы точный и гибкий перевод. Создание идеального средства перевода невозможно без использования неограниченного языка и большого словарного запаса.
Медицинские работники требуют от перевода высокой надежности. Это отдает предпочтение архитектуре, основанной на правилах, а не управляемой данными. Последние больше подходят неопытным пользователям. Архитектура на основе правил обеспечивает более высокую точность, особенно если используется экспертами.
Хотя очень желательно создать двунаправленную систему, поддерживающую двусторонний диалог, которая концентрируется на коммуникации, ориентированной на пациента, пациенты будут иметь трудный доступ к системе. Большинство пациентов не имеют опыта работы с такими системами. Результатом являются менее надежные результаты для перевода от пациента к врачу. Чтобы преодолеть это, система должна предоставить либо легкий доступ, либо интегрированный инструмент справки, чтобы направлять пользователей через процесс.
Хотя контролируемые системы, основанные на правилах, достигают хороших результатов, они непрочны. Чтобы получать хорошие переводы, пользователь должен быть знаком с системой и знать, что охватывается грамматикой.
Дополнительные проблемы возникают при охвате различных поддоменов (головная боль, боль в груди и животе) и языковых пар. Общая структура и грамматика для всех поддоменов и языковых пар сводят к минимуму затраты на разработку и обслуживание. Интеграция новых языков врача и пациента также является ключевой задачей. Добавление новых языков должно быть быстрым и довольно простым, потому что система должна использоваться во многих странах для охвата нескольких языковых пар. Прямой перевод с исходного на целевой язык оказывается довольно сложным. Использование интерлингва для однонаправленного перевода вместо двунаправленного подхода помогает упростить процесс перевода.
Кроме того, система должна работать на разных платформах, потому что мобильность является ключевой проблемой для многих лечащих врачей. Переносимая версия решает эти проблемы, но имеет дело с большой нагрузкой процесса перевода. [2] [3] [4] [5] [6]
Система MedSLT
Система распознавания речи основана на платформе Nuance 8.5, которая поддерживает языковые модели на основе грамматики. Все грамматики, используемые для распознавания, анализа и генерации, составлены из небольшого набора унифицирующих грамматик.
Эти базовые грамматики создаются компилятором Regulus Grammar с открытым исходным кодом и автоматически специализируются с использованием методов, управляемых корпусом. Специализация учитывает как задачу (распознавание, анализ и генерацию), так и поддомен (головная боль, боль в груди и животе).
Специализация использует алгоритм обучения на основе объяснений для создания банка дерева из корпуса обучения. Эти примеры разделены на наборы поддеревьев с использованием правил, специфичных для предметной области и грамматики (также известных как «критерии функциональности» в машинном переводе ).
Правила поддерева объединяются в одно правило, создавая специализированную грамматику объединения. Грамматика составляется в исполняемую форму для анализа и генерации парсером или генератором, а также для распознавания грамматики CFG . Для движка Nuance требуется грамматика CFG.
Компиляция по специфическим критериям Nuance превращает грамматику в пакеты распознавания речи. На последнем этапе корпус обучения снова используется для статистической настройки языковой модели.
Процессы перевода MedSLT основаны на интерлингвае, основанном на правилах . Интерлингва считается реальным языком (это очень простая версия английского языка) и определяется грамматикой Regulus. Эта грамматика не принимает во внимание сложные поверхностные синтаксические явления реальных языков, такие как движение или согласование. Набор правил является основой для перевода семантического представления исходного языка на интерлингва.
Другой набор правил касается перевода с интерлингва на целевой язык. Семантические представления преобразуются в поверхностные слова с использованием грамматики целевого языка.
Определение семантики для конкретной области позволяет разработчикам указывать интерлингва с небольшой семантической грамматикой с жесткими ограничениями. Переводы, основанные на интерлингвах, почти идеально совпадают с прямыми переводами, потому что разработка переходит на несвязанную одноязычную архитектуру.
Набор комбинированных корпусов интерлингва с одним корпусом на субдомен является ядром этой архитектуры. Все разработки на исходном языке переведены на интерлингва. Они сортируются и группируются вместе с соответствующими примерами исходного языка.
Затем формы интерлингва переводятся на каждый целевой язык, а результаты прилагаются. Эта организация улучшает процесс перевода. При многоязычном регрессионном тестировании нет дублирования усилий, поскольку каждый этап синтаксического анализа и генерации выполняется один раз. Это позволяет проводить более частые проверки.
Язык представления, используемый для всех форм, - это почти плоская функциональная семантика. AFF происходит от переводчика разговорного языка , предшественника MEdSLT.
SLT использует квази-логическую форму , язык представления, основанный на логике. QLF - выразительный, но очень сложный язык, требующий высоких затрат на разработку и обслуживание.
Для медицинского переводчика планировалось минимальное решение. В ранних версиях системы использовался язык с использованием простых списков значений функций. Эти списки были дополнены дополнительным уровнем вложенности для представления подчиненных предложений (т. Е. Встроенных предложений).
Определители не были включены, потому что их трудно перевести, и их трудно надежно различить и распознать. Таким образом, правила трансляции стали намного проще, потому что только список пар функция-значение нужно было сопоставить с другим списком пар. Язык оказался недостаточно ограниченным.
Добавление естественных ограничений сортировки к грамматике решило эту проблему, но также вернуло язык к более выразительному формализму. Недавно созданный AFF сочетает в себе элементы QLF и семантику списка значений характеристик. Эта версия плоской семантики дополнена дополнительной функциональной разметкой. Вместе с относительно небольшим словарным запасом это решило проблему неоднозначности исходного языка плоских представлений без создания чрезмерно сложных правил.
Кроме того, синтаксические структуры тщательно обрабатываются путем компромисса лингвистических и инженерных традиций.
Грамматики фактически извлекаются из лингвистически мотивированного ресурса с использованием методов, основанных на корпусе. Они руководствуются небольшими наборами примеров. В результате получаются более простые и плоские предметно-ориентированные грамматики.
Семантика менее сложна и представляет собой минимальный подход в инженерной традиции. Каждый лексический элемент представляет собой набор пар функция-значение.
Это приводит к простым для написания правилам перевода. Есть только списки пар «функция-значение» для сопоставления с другими парами «функция-значение». Однако в результате модель канала машинного перевода становится недооцененной и ослабленной, тогда как модель целевого языка усиливается.
В систему интегрирован интеллектуальный справочный модуль, который помогает пользователям полностью использовать грамматику. Этот инструмент предоставляет пользователю примеры, максимально приближенные к исходному высказыванию пользователя.
Вывод основан на библиотеке. Каждая поддомен и языковая пара имеют свою собственную библиотеку. Содержимое извлекается из объединенных корпусов interlingua. Модуль справки сканирует корпус в поисках помеченной формы исходного языка, сопоставленной с соответствующей формой на целевом языке.
Дополнительно в качестве резервного используется второй статистический распознаватель. Результаты используются для отбора похожих примеров из библиотеки.
В соответствии с предпочтениями генерации выбирается одна из производных строк, и строка целевого языка реализуется как разговорный язык.
Некоторые методы на основе статистического корпуса используются для дальнейшей настройки системы. [1] [2] [3] [4] [5] [6]
MedSLT на КПК
В ответ на запросы специалистов здравоохранения была разработана мобильная версия MedSLT. Портативная платформа использует ту же архитектуру, что и обычная.
Тяжелая обработка, необходимая для перевода, выполняется на удаленной машине. Помимо беспроводного подключения, необходим хороший микрофон для достижения тех же результатов, что и в оригинальной версии. [1] [2]
Рекомендации
- ^ a b c «MedSLT - медицинский переводчик речи» .
- ^ a b c d «Многоязычный медицинский перевод речи на КПК» П. Буйона, Г. Флореса, М. Жоржескула, С. Халими, Б. А. Хоккей, Х. Исахара, К. Канзаки, Ю. Накао , М. Райнер, М. Сантахолма, М. Старлендер, Н. Цуракис на Восьмой конференции Американской ассоциации машинного перевода. Вайкики, Гавайи. 2008 г.
- ^ a b «Многоязычные грамматические ресурсы в разработке многоязычных приложений» М. Сантахолма в материалах семинара по грамматической инженерии в разных структурах, GEAF. Манчестер, Великобритания. 2008 г.
- ^ a b "Совместное задание с небольшим словарным запасом для перевода медицинской речи" М. Райнера, П. Буйона, Г. Флореса, Ф. Эхсани, М. Старлендера, Б. А. Хоккея, Дж. Бротанека и Л. Бевальда в трудах Колинга 2008 г. Семинар по обработке речи для критически важного для безопасности перевода и повсеместных приложений, Манчестер, Великобритания. 2008 г.
- ^ a b «Система MedSLT 2008 года» М. Райнера, П. Буйона, Дж. Бротанека, Г. Флореса, С. Халими, Б. А. Хоккей, Х. Исахара, К. Канзаки, Э. Крона, Ю. Накао, М. Сантахолма, М. Старлендер, Н. Цуракис в материалах семинара Coling 2008 по обработке речи для критически важного для безопасности перевода и повсеместных приложений, Манчестер, Великобритания. 2008 г.
- ^ a b «Почти плоская функциональная семантика для речевого перевода» М. Райнера, П. Буйона, Б. А. Хоккея и Ю. Накао в Proceedings of Coling 2008, Манчестер, Великобритания. 2008 г.
Внешние ссылки
- MedSLT на Sourceforge.net