Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Truecasing - это проблема при обработке естественного языка (NLP) для определения правильного написания заглавных букв в словах, где такая информация недоступна. Обычно это происходит из-за стандартной практики (в английском и многих других языках) автоматического написания первого слова предложения с заглавной буквы. Он также может возникать в тексте с плохим регистром или без него (например, в текстовых сообщениях, написанных только строчными или прописными буквами ).

Истинный регистр не требуется в языках, в сценариях которых нет различия между прописными и строчными буквами. Сюда входят все языки, написанные не на латинском , греческом , кириллическом или армянском алфавитах , например японский , китайский , тайский , иврит , арабский , хинди и грузинский .

Методы [ править ]

  • Сегментация предложений может использоваться для определения того, где начинаются предложения, для реализации правила, согласно которому первое слово каждого предложения должно быть написано с заглавной буквы.
  • Тегирование части речи может использоваться для определения имен собственных, которые должны быть написаны с заглавной буквы. В некоторых случаях одно и то же слово может использоваться в разных частях речи и пишется по-разному с заглавной буквы. Например, Xerox the company, как существительное, пишется с заглавной буквы, но для ксерокопирования документа, как глагол, не пишется с заглавной буквы. Ксерокопию, как и в копии документа, можно распознать по наличию определителя , который не используется для имен собственных.
  • Распознавание именованных сущностей может использоваться для определения имен собственных, которые должны быть написаны с заглавной буквы.
  • Средство проверки орфографии можно использовать для определения слов, которые всегда пишутся с заглавной буквы.

Приложения [ править ]

Truecasing помогает в других задачах НЛП, таких как распознавание именованных сущностей , автоматическое извлечение контента и машинный перевод . [1] Правильное использование заглавных букв позволяет легче определять имена собственные, которые являются отправными точками NER и ACE. Некоторые системы перевода используют методы статистического машинного обучения , которые могут использовать информацию, содержащуюся в заглавных буквах, для повышения точности.

Ссылки [ править ]

  1. ^ Lita, LV; Иттихерия, А .; Roukos, S .; Камбхатла, Н. (2003). "ПЕРЕДАЧА" . Труды 41-го ежегодного собрания Ассоциации компьютерной лингвистики . Саппоро, Япония. С. 152–159.