Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

Упрощение текста - это операция, используемая при обработке естественного языка для изменения, улучшения, классификации или иной обработки существующего корпуса читаемого человеком текста таким образом, что грамматика и структура прозы значительно упрощаются, в то время как основное значение и информация остаются тоже самое. Упрощение текста - важная область исследований, поскольку естественные человеческие языки обычно содержат большие словари и сложные составные конструкции, которые нелегко обработать с помощью автоматизации . Что касается уменьшения языкового разнообразия, семантическое сжатие может использоваться для ограничения и упрощения набора слов, используемых в данных текстах.

Пример [ править ]

Упрощение текста проиллюстрировано примером из работы Сиддхартхана (2006). [1] Первое предложение содержит два относительных придаточных предложения и одну соединенную глагольную фразу. Система упрощения текста призвана упростить первое предложение до второго.

  • Аналитик отметил, что укреплению меди также способствовал отчет агентов по закупкам в Чикаго, который предшествует полному отчету агентов по закупкам, который должен выйти сегодня, и дает представление о том, что может содержать полный отчет.
  • Аналитик отметил, что укреплению меди также способствовал отчет агентов по закупкам из Чикаго. Отчет по Чикаго предшествует полному отчету агентов по закупкам. Отчет Чикаго дает представление о том, что может содержать полный отчет. Полный отчет должен быть опубликован сегодня.

Один из подходов к упрощению текста - это лексическое упрощение с помощью лексической замены , двухэтапный процесс, состоящий из определения сложных слов и замены их более простыми синонимами. Ключевой задачей здесь является определение сложных слов, что выполняется классификатором машинного обучения, обученным на помеченных данных. Усовершенствованием по сравнению с классическими методами применения двоичных меток к словам, как простым, так и сложным, является требование, чтобы специалисты по меткам сортировали слова в порядке сложности; это приводит к более высокой согласованности получаемых этикеток. [2]

См. Также [ править ]

Ссылки [ править ]

  1. ^ Siddharthan, Advaith (28 марта 2006). «Синтаксическое упрощение и целостность текста». Исследования языка и вычислений . 4 (1): 77–109. DOI : 10.1007 / s11168-006-9011-1 . S2CID  14619244 .
  2. ^ Гудинг, Сиан; Кочмар, Екатерина; Саркар, Адвайт; Блэквелл, Алан (август 2019 г.). «Сравнительные суждения более последовательны, чем бинарная классификация для определения сложности слов» . Труды 13-го семинара по лингвистической аннотации : 208–214. DOI : 10.18653 / v1 / W19-4024 . Проверено 22 ноября 2019 .
  • Вэй Сюй, Крис Каллисон-Берч и Кортни Наполс. « Проблемы современных исследований по упрощению текста ». В Трудах Ассоциации компьютерной лингвистики (TACL), том 3, 2015 г., страницы 283–297.
  • Адвайт Сиддхартхан. « Синтаксическое упрощение и целостность текста ». In Research on Language and Computing, Volume 4, Issue 1, Jun 2006, Pages 77–109, Springer Science, Нидерланды.
  • Сиддхартха Йонналагадда, Луис Тари, Йорг Хакенберг, Читта Барал и Грасиела Гонсалес. На пути к эффективному упрощению предложений для автоматической обработки биомедицинского текста. В Proc. NAACL-HLT 2009, Боулдер, США, июнь. [1]

Внешние ссылки [ править ]