Нормализация текста - это процесс преобразования текста в единую каноническую форму, которой он, возможно, не имел раньше. Нормализация текста перед сохранением или обработкой позволяет разделить задачи , поскольку гарантируется согласованность ввода до того, как над ним будут выполняться операции. Нормализация текста требует понимания того, какой тип текста нужно нормализовать и как он будет обрабатываться впоследствии; не существует универсальной процедуры нормализации. [1]
Приложения
Нормализация текста часто используется при преобразовании текста в речь . Числа , даты , акронимы и сокращения - это нестандартные «слова», которые необходимо произносить по-разному в зависимости от контекста. [2] Например:
- «200 долларов» будет произноситься как «двести долларов» на английском языке, но как «lua selau tālā» на самоанском языке. [3]
- «vi» может произноситься как « vie », « vee » или « шестой » в зависимости от окружающих слов. [4]
Текст также можно нормализовать для хранения и поиска в базе данных. Например, если поиск по запросу «резюме» должен соответствовать слову «резюме», тогда текст будет нормализован путем удаления диакритических знаков ; и если «john» соответствует «John», текст будет преобразован в единственный регистр . Чтобы подготовить текст к поиску, его также можно остановить (например, преобразовать слова «полетел» и «полет» в слово «летать»), канонизировать (например, последовательно использовать написание американского или британского английского ) или удалить стоп-слова .
Методы
Для простой, независимой от контекста нормализации, такой как удаление не буквенно-цифровых символов или диакритических знаков , будет достаточно регулярных выражений . Например, сценарий sed нормализует пробелы в пробелах в один пробел. Более сложная нормализация требует соответственно сложных алгоритмов, включая знание предметной области языка и нормализуемого словаря. Среди других подходов нормализация текста была смоделирована как проблема токенизации и маркировки потоков текста [5] и как частный случай машинного перевода. [6] [7]sed ‑e "s/\s+/ /g" inputfile
Текстовая стипендия
В области изучения текстов и редактирования исторических текстов термин «нормализация» подразумевает определенную степень модернизации и стандартизации - например, в расширении писцовых сокращений и транслитерации архаических глифов, которые обычно встречаются в рукописях и ранних печатных источниках. Нормализуется издание поэтому отличается от дипломатического издания (или полудипломатическая издание ), в которой сделана некоторая попытка сохранить эти функции. Цель состоит в том, чтобы найти соответствующий баланс между, с одной стороны, строгой верностью исходному тексту (включая, например, сохранение загадочных и двусмысленных элементов); а с другой - создание нового текста, понятного и доступного современному читателю. Таким образом, степень нормализации остается на усмотрение редактора и может варьироваться. Некоторые редакторы, например, предпочитают модернизировать устаревшее написание и пунктуацию, а другие нет. [8]
Смотрите также
Рекомендации
- ^ Ричард Спроут и Стивен Бедрик (сентябрь 2011 г.). «CS506 / 606: Txt Nrmlztn» . Проверено 2 октября 2012 года .
- ^ Sproat, R .; Черный, А .; Chen, S .; Kumar, S .; Остендорфк, М .; Ричардс, К. (2001). «Нормализация нестандартных слов». Компьютерная речь и язык 15 ; 287–333. DOI : 10,1006 / csla.2001.0169 .
- ^ «Самоанские числа» . MyLanguages.org . Проверено 2 октября 2012 года .
- ^ «Нормализация текста в машинах преобразования текста в речь» . MSDN . Проверено 2 октября 2012 года .
- ^ Чжу, C .; Tang, J .; Li, H .; Ng, H .; Чжао, Т. (2007). «Единый подход к нормализации текста с помощью тегов». Материалы 45-го ежегодного собрания Ассоциации компьютерной лингвистики ; 688–695. DOI : 10.1.1.72.8138 .
- ^ Филип, G .; Krzysztof, J .; Agnieszka, W .; Миколай, В. (2006). «Нормализация текста как частный случай машинного перевода». Материалы Международной мультиконференции по компьютерным наукам и информационным технологиям 1 ; 51–56.
- ^ Mosquera, A .; Lloret, E .; Мореда, П. (2012). «На пути к облегчению доступности текстов Web 2.0 посредством нормализации текста» Труды семинара LREC: Обработка естественного языка для улучшения текстовой доступности (NLP4ITA) ; 9–14
- ^ Харви, КПК (2001). Редактирование исторических записей . Лондон: Британская библиотека. С. 40–46. ISBN 0-7123-4684-8.