Truecasing

Эта статья требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален.
Найти источники: Truecasing - новости · газеты · книги · ученый · JSTOR ( октябрь 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Truecasing - это проблема при обработке естественного языка (NLP) для определения правильного написания заглавных букв в словах, где такая информация недоступна. Обычно это происходит из-за стандартной практики (в английском и многих других языках) автоматического написания первого слова предложения с заглавной буквы. Он также может возникать в тексте с плохим регистром или без него (например, в текстовых сообщениях, написанных только строчными или прописными буквами ).

Истинный регистр не требуется в языках, в сценариях которых нет различия между прописными и строчными буквами. Сюда входят все языки, написанные не на латинском , греческом , кириллическом или армянском алфавитах , например японский , китайский , тайский , иврит , арабский , хинди и грузинский .

Методы [ править ]

Сегментация предложений может использоваться для определения того, где начинаются предложения, для реализации правила, согласно которому первое слово каждого предложения должно быть написано с заглавной буквы.
Тегирование части речи может использоваться для определения имен собственных, которые должны быть написаны с заглавной буквы. В некоторых случаях одно и то же слово может использоваться в разных частях речи и пишется по-разному с заглавной буквы. Например, Xerox the company, как существительное, пишется с заглавной буквы, но для ксерокопирования документа, как глагол, не пишется с заглавной буквы. Ксерокопию, как и в копии документа, можно распознать по наличию определителя , который не используется для имен собственных.
Распознавание именованных сущностей может использоваться для определения имен собственных, которые должны быть написаны с заглавной буквы.
Средство проверки орфографии можно использовать для определения слов, которые всегда пишутся с заглавной буквы.

Приложения [ править ]

Truecasing помогает в других задачах НЛП, таких как распознавание именованных сущностей , автоматическое извлечение контента и машинный перевод . ^[1] Правильное использование заглавных букв позволяет легче определять имена собственные, которые являются отправными точками NER и ACE. Некоторые системы перевода используют методы статистического машинного обучения , которые могут использовать информацию, содержащуюся в заглавных буквах, для повышения точности.

Ссылки [ править ]

^ Lita, LV; Иттихерия, А .; Roukos, S .; Камбхатла, Н. (2003). "ПЕРЕДАЧА" . Труды 41-го ежегодного собрания Ассоциации компьютерной лингвистики . Саппоро, Япония. С. 152–159.

[1] Lita, LV; Иттихерия, А .; Roukos, S .; Камбхатла, Н. (2003). "ПЕРЕДАЧА" . Труды 41-го ежегодного собрания Ассоциации компьютерной лингвистики . Саппоро, Япония. С. 152–159.

[1]

vтеОбработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Изучение онтологий Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерное рецензирование	Автоматическая оценка эссе Конкордансер Проверка грамматики Предсказуемый текст Программа проверки орфографии Угадывание синтаксиса
Пользовательский интерфейс на естественном языке	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс