Нормализация текста

Нормализация текста - это процесс преобразования текста в единую каноническую форму, которой он, возможно, не имел раньше. Нормализация текста перед сохранением или обработкой позволяет разделить задачи , поскольку гарантируется согласованность ввода до того, как над ним будут выполняться операции. Нормализация текста требует понимания того, какой тип текста нужно нормализовать и как он будет обрабатываться впоследствии; не существует универсальной процедуры нормализации. ^[1]

Приложения

Нормализация текста часто используется при преобразовании текста в речь . Числа , даты , акронимы и сокращения - это нестандартные «слова», которые необходимо произносить по-разному в зависимости от контекста. ^[2] Например:

«200 долларов» будет произноситься как «двести долларов» на английском языке, но как «lua selau tālā» на самоанском языке. ^[3]
«vi» может произноситься как « vie », « vee » или « шестой » в зависимости от окружающих слов. ^[4]

Текст также можно нормализовать для хранения и поиска в базе данных. Например, если поиск по запросу «резюме» должен соответствовать слову «резюме», тогда текст будет нормализован путем удаления диакритических знаков ; и если «john» соответствует «John», текст будет преобразован в единственный регистр . Чтобы подготовить текст к поиску, его также можно остановить (например, преобразовать слова «полетел» и «полет» в слово «летать»), канонизировать (например, последовательно использовать написание американского или британского английского ) или удалить стоп-слова .

Методы

Для простой, независимой от контекста нормализации, такой как удаление не буквенно-цифровых символов или диакритических знаков , будет достаточно регулярных выражений . Например, сценарий sed нормализует пробелы в пробелах в один пробел. Более сложная нормализация требует соответственно сложных алгоритмов, включая знание предметной области языка и нормализуемого словаря. Среди других подходов нормализация текста была смоделирована как проблема токенизации и маркировки потоков текста ^[5] и как частный случай машинного перевода. ^[6]^[7]sed ‑e "s/\s+/ /g" inputfile

Текстовая стипендия

В области изучения текстов и редактирования исторических текстов термин «нормализация» подразумевает определенную степень модернизации и стандартизации - например, в расширении писцовых сокращений и транслитерации архаических глифов, которые обычно встречаются в рукописях и ранних печатных источниках. Нормализуется издание поэтому отличается от дипломатического издания (или полудипломатическая издание ), в которой сделана некоторая попытка сохранить эти функции. Цель состоит в том, чтобы найти соответствующий баланс между, с одной стороны, строгой верностью исходному тексту (включая, например, сохранение загадочных и двусмысленных элементов); а с другой - создание нового текста, понятного и доступного современному читателю. Таким образом, степень нормализации остается на усмотрение редактора и может варьироваться. Некоторые редакторы, например, предпочитают модернизировать устаревшее написание и пунктуацию, а другие нет. ^[8]

Смотрите также

Рекомендации

^ Ричард Спроут и Стивен Бедрик (сентябрь 2011 г.). «CS506 / 606: Txt Nrmlztn» . Проверено 2 октября 2012 года .
^ Sproat, R .; Черный, А .; Chen, S .; Kumar, S .; Остендорфк, М .; Ричардс, К. (2001). «Нормализация нестандартных слов». Компьютерная речь и язык 15 ; 287–333. DOI : 10,1006 / csla.2001.0169 .
^ «Самоанские числа» . MyLanguages.org . Проверено 2 октября 2012 года .
^ «Нормализация текста в машинах преобразования текста в речь» . MSDN . Проверено 2 октября 2012 года .
^ Чжу, C .; Tang, J .; Li, H .; Ng, H .; Чжао, Т. (2007). «Единый подход к нормализации текста с помощью тегов». Материалы 45-го ежегодного собрания Ассоциации компьютерной лингвистики ; 688–695. DOI : 10.1.1.72.8138 .
^ Филип, G .; Krzysztof, J .; Agnieszka, W .; Миколай, В. (2006). «Нормализация текста как частный случай машинного перевода». Материалы Международной мультиконференции по компьютерным наукам и информационным технологиям 1 ; 51–56.
^ Mosquera, A .; Lloret, E .; Мореда, П. (2012). «На пути к облегчению доступности текстов Web 2.0 посредством нормализации текста» Труды семинара LREC: Обработка естественного языка для улучшения текстовой доступности (NLP4ITA) ; 9–14
^ Харви, КПК (2001). Редактирование исторических записей . Лондон: Британская библиотека. С. 40–46. ISBN 0-7123-4684-8.

[cs506-1] Ричард Спроут и Стивен Бедрик (сентябрь 2011 г.). «CS506 / 606: Txt Nrmlztn» . Проверено 2 октября 2012 года .

[sproate-2] Sproat, R .; Черный, А .; Chen, S .; Kumar, S .; Остендорфк, М .; Ричардс, К. (2001). «Нормализация нестандартных слов». Компьютерная речь и язык 15 ; 287–333. DOI : 10,1006 / csla.2001.0169 .

[3] «Самоанские числа» . MyLanguages.org . Проверено 2 октября 2012 года .

[msdn-4] «Нормализация текста в машинах преобразования текста в речь» . MSDN . Проверено 2 октября 2012 года .

[tagging-5] Чжу, C .; Tang, J .; Li, H .; Ng, H .; Чжао, Т. (2007). «Единый подход к нормализации текста с помощью тегов». Материалы 45-го ежегодного собрания Ассоциации компьютерной лингвистики ; 688–695. DOI : 10.1.1.72.8138 .

[mt-6] Филип, G .; Krzysztof, J .; Agnieszka, W .; Миколай, В. (2006). «Нормализация текста как частный случай машинного перевода». Материалы Международной мультиконференции по компьютерным наукам и информационным технологиям 1 ; 51–56.

[sm-7] Mosquera, A .; Lloret, E .; Мореда, П. (2012). «На пути к облегчению доступности текстов Web 2.0 посредством нормализации текста» Труды семинара LREC: Обработка естественного языка для улучшения текстовой доступности (NLP4ITA) ; 9–14

[8] Харви, КПК (2001). Редактирование исторических записей . Лондон: Британская библиотека. С. 40–46. ISBN 0-7123-4684-8.

[1]