В обработке естественного языка , семантическая сжатия представляет собой процесс прессования лексикона , используемый для создания текстового документа (или набора документов) путем уменьшения языковой гетерогенности, сохраняя при этом текстовую семантику . В результате одни и те же идеи могут быть представлены меньшим набором слов.
В большинстве приложений семантическое сжатие представляет собой сжатие с потерями, то есть повышенная многословность не компенсирует лексическое сжатие, и исходный документ не может быть восстановлен в обратном процессе.
Путем обобщения
Семантическое сжатие в основном достигается в два этапа с использованием частотных словарей и семантической сети :
- определение совокупной частоты терминов для определения целевой лексики,
- замена менее употребляемых терминов их гиперонимами ( обобщением ) из целевой лексики. [1]
Шаг 1 требует сборки частот слов и информации о семантических отношениях, в частности гипонимии . Двигаясь вверх по иерархии слов, совокупная частота понятий вычисляется путем прибавления суммы частот гипонимов к частоте их гиперонимов: где является гиперонимом . Затем выбирается желаемое количество слов с наибольшей совокупной частотой для построения целевого лексикона.
На втором этапе правила сопоставления сжатия определяются для оставшихся слов, чтобы обрабатывать каждое вхождение менее часто встречающегося гипонима как его гипероним в выходном тексте.
- Пример
Приведенный ниже фрагмент текста обработан семантическим сжатием. Слова, выделенные жирным шрифтом, были заменены их гиперонимами.
Они оба гнезда строительства социальных насекомых , но бумажные осы и мед пчелы организуют свои колонии
очень разными способами . В новом исследовании исследователи сообщают, что, несмотря на свои различия , эти насекомые полагаются на одну и ту же сеть генов для управления своим социальным поведением . Исследование опубликовано в Proceedings of the Royal Society B : Biological Sciences. Медоносных пчел и бумажных ос разделяет более 100 миллионов лет жизни.
эволюция , и есть поразительные различия в том , как они делят работу сохранения в колонии .
Процедура выводит следующий текст:
Они оба объекта строительства насекомых , но насекомые и медоносные насекомые организовать их биологические группы
в совсем другой структуре . В новом исследовании исследователи сообщают, что, несмотря на различие во мнениях , эти насекомые действуют по одной и той же сети генов, чтобы управлять своим поведением на вечеринке . Исследование появляется в процессе работы Института биологических наук о бактериях . Медовых насекомых и насекомых разделяет более ста миллионов лет существования.
органические процессы , и есть набегающее различие мнений в том , как они делят работу подтверждая в биологическую группу .
Неявное семантическое сжатие
Естественная тенденция сохранять лаконичность выражений естественного языка может быть воспринята как форма неявного семантического сжатия путем исключения бессмысленных слов или избыточных значимых слов (особенно во избежание плеоназмов ). [2]
Приложения и преимущества
В модели векторного пространства сжатие словаря приводит к уменьшению размерности , что приводит к меньшей вычислительной сложности и положительному влиянию на эффективность.
Семантическое сжатие полезно в задачах поиска информации , повышая их эффективность (как с точки зрения точности, так и с точки зрения полноты). [3] Это связано с более точными дескрипторами (уменьшение эффекта языкового разнообразия - ограниченная языковая избыточность, шаг к контролируемому словарю).
Как и в приведенном выше примере, можно отображать вывод как естественный текст (повторное применение перегиба, добавление стоп-слов).
Смотрите также
Рекомендации
- ^ Д. Цегларек, К. Ханевич, В. Рутковски, Семантическое сжатие для специализированных систем поиска информации , Достижения в области интеллектуальной информации и систем баз данных, т. 283, стр. 111-121, 2010 г.
- ^ Н. Н. Перцова, О типах семантической компрессии текста , COLING '82 Труды 9-й конференции по компьютерной лингвистике, т. 2, стр. 229-231, 1982
- ^ Д. Цегларек, К. Ханевич, В. Рутковски, Качество семантического сжатия в классификации Труды 2-й Международной конференции по вычислительному коллективному разуму: технологии и приложения, т. 1, стр. 162-171, 2010 г.