Упрощение текста

Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Июнь 2012 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Упрощение текста - это операция, используемая при обработке естественного языка для изменения, улучшения, классификации или иной обработки существующего корпуса читаемого человеком текста таким образом, что грамматика и структура прозы значительно упрощаются, в то время как основное значение и информация остаются тоже самое. Упрощение текста - важная область исследований, поскольку естественные человеческие языки обычно содержат большие словари и сложные составные конструкции, которые нелегко обработать с помощью автоматизации . Что касается уменьшения языкового разнообразия, семантическое сжатие может использоваться для ограничения и упрощения набора слов, используемых в данных текстах.

Пример [ править ]

Упрощение текста проиллюстрировано примером из работы Сиддхартхана (2006). ^[1] Первое предложение содержит два относительных придаточных предложения и одну соединенную глагольную фразу. Система упрощения текста призвана упростить первое предложение до второго.

Аналитик отметил, что укреплению меди также способствовал отчет агентов по закупкам в Чикаго, который предшествует полному отчету агентов по закупкам, который должен выйти сегодня, и дает представление о том, что может содержать полный отчет.
Аналитик отметил, что укреплению меди также способствовал отчет агентов по закупкам из Чикаго. Отчет по Чикаго предшествует полному отчету агентов по закупкам. Отчет Чикаго дает представление о том, что может содержать полный отчет. Полный отчет должен быть опубликован сегодня.

Один из подходов к упрощению текста - это лексическое упрощение с помощью лексической замены , двухэтапный процесс, состоящий из определения сложных слов и замены их более простыми синонимами. Ключевой задачей здесь является определение сложных слов, что выполняется классификатором машинного обучения, обученным на помеченных данных. Усовершенствованием по сравнению с классическими методами применения двоичных меток к словам, как простым, так и сложным, является требование, чтобы специалисты по меткам сортировали слова в порядке сложности; это приводит к более высокой согласованности получаемых этикеток. ^[2]

См. Также [ править ]

Ссылки [ править ]

^ Siddharthan, Advaith (28 марта 2006). «Синтаксическое упрощение и целостность текста». Исследования языка и вычислений . 4 (1): 77–109. DOI : 10.1007 / s11168-006-9011-1 . S2CID 14619244 .
^ Гудинг, Сиан; Кочмар, Екатерина; Саркар, Адвайт; Блэквелл, Алан (август 2019 г.). «Сравнительные суждения более последовательны, чем бинарная классификация для определения сложности слов» . Труды 13-го семинара по лингвистической аннотации : 208–214. DOI : 10.18653 / v1 / W19-4024 . Проверено 22 ноября 2019 .

Вэй Сюй, Крис Каллисон-Берч и Кортни Наполс. « Проблемы современных исследований по упрощению текста ». В Трудах Ассоциации компьютерной лингвистики (TACL), том 3, 2015 г., страницы 283–297.
Адвайт Сиддхартхан. « Синтаксическое упрощение и целостность текста ». In Research on Language and Computing, Volume 4, Issue 1, Jun 2006, Pages 77–109, Springer Science, Нидерланды.
Сиддхартха Йонналагадда, Луис Тари, Йорг Хакенберг, Читта Барал и Грасиела Гонсалес. На пути к эффективному упрощению предложений для автоматической обработки биомедицинского текста. В Proc. NAACL-HLT 2009, Боулдер, США, июнь. [1]

Внешние ссылки [ править ]

Автоматический ввод правил для упрощения текста (pdf)
Упрощение текста для информационных приложений

[1] Siddharthan, Advaith (28 марта 2006). «Синтаксическое упрощение и целостность текста». Исследования языка и вычислений . 4 (1): 77–109. DOI : 10.1007 / s11168-006-9011-1 . S2CID 14619244 .

[2] Гудинг, Сиан; Кочмар, Екатерина; Саркар, Адвайт; Блэквелл, Алан (август 2019 г.). «Сравнительные суждения более последовательны, чем бинарная классификация для определения сложности слов» . Труды 13-го семинара по лингвистической аннотации : 208–214. DOI : 10.18653 / v1 / W19-4024 . Проверено 22 ноября 2019 .

[1]

vтеОбработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Изучение онтологий Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Скрытое размещение Дирихле Скрытый семантический анализ Распределение патинко
Компьютерное рецензирование	Автоматическая оценка эссе Конкордансер Проверка грамматики Предсказуемый текст Программа проверки орфографии Угадывание синтаксиса
Пользовательский интерфейс на естественном языке	Чат-бот Интерактивная фантастика Ответ на вопрос Виртуальный помощник Голосовой пользовательский интерфейс