Перефразирование (компьютерная лингвистика)

Парафраз или перефразирование в компьютерной лингвистике - это задача обработки естественного языка, заключающаяся в обнаружении и генерации перефразирований . Применения перефразирования разнообразны, включая поиск информации, ответы на вопросы , обобщение текста и обнаружение плагиата . ^[1] Перефразирование также полезно в оценке машинного перевода , ^[2] , а также семантический синтаксический анализ ^[3] и генерация новых образцов расширить существующие корпуса . ^[4]

Генерация перефразирования [ править ]

Выравнивание множественных последовательностей [ править ]

Барзилай и Ли ^[4] предложили метод генерации пересказов с использованием одноязычных параллельных корпусов , а именно новостных статей, освещающих одно и то же событие в один и тот же день. Обучение состоит из использования многопоследовательного выравнивания для генерации перефразирования на уровне предложения из неаннотированного корпуса. Это делается

обнаружение повторяющихся закономерностей в каждом отдельном корпусе, т. е. « $X$ (раненых / раненых) $Y$ человек, $Z$ серьезно», где $X, Y, Z$ - переменные
при нахождении пар между такими образцами представляют собой перефразировки, например: « $X$ (раненые / раненые) $Y$ человек, $Z$ серьезно» и « $Y$ (ранены / ранены) $X$ , среди них $Z$ были в тяжелом состоянии».

Это достигается путем первой кластеризации похожих предложений вместе с использованием n-граммового перекрытия. Повторяющиеся шаблоны обнаруживаются в кластерах с помощью выравнивания нескольких последовательностей. Затем положение аргументных слов определяется путем нахождения областей высокой изменчивости внутри каждого кластера, например, между словами, которые используются более чем в 50% предложений кластера. Затем пары между образцами находят путем сравнения одинаковых переменных слов в разных корпусах. Наконец, можно сгенерировать новые пересказы, выбрав соответствующий кластер для исходного предложения, а затем подставив аргумент исходного предложения в любое количество шаблонов в кластере.

Машинный перевод на основе фраз [ править ]

Перефразирование также может быть произведено с помощью фразового перевода, предложенного Баннардом и Каллисон-Берч. ^[5] Основная концепция состоит в выравнивании фраз на основном языке для создания возможных перефразирований на языке оригинала. Например, фраза «под контролем» в предложении на английском языке совпадает с фразой «unter kontrolle» в ее немецком аналоге. Фраза «unter kontrolle» затем встречается в другом предложении на немецком языке с выровненной английской фразой «in check», перефразируя «под контролем».

Распределение вероятностей можно смоделировать как вероятностная фраза - это перефразирование , что эквивалентно суммированию по всем , потенциального перевода фразы на основной язык. Кроме того, предложение добавляется до добавления контекста к пересказу. Таким образом, оптимальный пересказ можно смоделировать как: ${\ Displaystyle \ Pr (е_ {2} | е_ {1})}$ ${\ displaystyle e_ {2}}$ ${\ displaystyle e_ {1}}$ ${\ Displaystyle \ Pr (е_ {2} | е) \ Pr (е | е_ {1})}$ ${\ displaystyle f}$ ${\ displaystyle e_ {1}}$ ${\ displaystyle {\ hat {е_ {2}}}}$

{\hat {e_{2}}}={\text{arg}}\max _{e_{2}\neq e_{1}}\Pr(e_{2}|e_{1},S)={\text{arg}}\max _{e_{2}\neq e_{1}}\sum _{f}\Pr(e_{2}|f,S)\Pr(f|e_{1},S)

$\Pr(e_{2}|f)$ и могут быть аппроксимированы, просто взяв их частоты. Добавление в качестве предшествующего моделируется путем вычисления вероятности образования когда заменяется на . $\Pr(f|e_{1})$ $S$ $S$ $e_{1}$ $e_{2}$

Кратковременная долговременная память [ править ]

Были успехи в использовании моделей долгой краткосрочной памяти (LSTM) для генерации перефразирований. ^[6] Короче говоря, модель состоит из кодировщика и декодера, которые реализованы с использованием вариаций сложенного остаточного LSTM. Во- первых, кодирование LSTM принимает один горячий кодирование всех слов в предложении в качестве входных данных и производит окончательный скрытый вектор, который можно рассматривать как представление входного предложения. Затем LSTM декодирования принимает скрытый вектор в качестве входных данных и генерирует новое предложение, заканчивающееся маркером конца предложения. Кодер и декодер обучены брать фразу и воспроизводить быстрое распределение соответствующего пересказа, минимизируя недоумение с помощью простыхстохастический градиентный спуск . Новые пересказы генерируются путем ввода новой фразы в кодировщик и передачи вывода в декодер.

Распознавание перефразирования [ править ]

Рекурсивные автоэнкодеры [ править ]

Распознавание парафраз было предпринято Socher et al ^[1] с помощью рекурсивных автоэнкодеров . Основная идея состоит в том, чтобы создать векторное представление предложения вместе с его компонентами рекурсивно с использованием автоэнкодера. Векторные представления перефразирований должны иметь аналогичные векторные представления; они обрабатываются, а затем вводятся в нейронную сеть для классификации.

Для предложения со словами автокодировщик предназначен для приема 2- мерных вложений слов в качестве входных данных и создания -мерного вектора в качестве выходных данных. Один и тот же автоэнкодер применяется к каждой паре слов для создания векторов. Затем автоэнкодер рекурсивно применяется с новыми векторами в качестве входных данных до тех пор, пока не будет получен единственный вектор. При нечетном количестве входов первый вектор перенаправляется на следующий уровень рекурсии. Затем автоэнкодер обучается воспроизводить каждый вектор в полном дереве рекурсии, включая начальные вложения слов. $W$ $m$ $n$ $n$ $S$ $\lfloor m/2\rfloor$

Учитывая два предложения и длину 4 и 3 соответственно, автоэнкодеры будут создавать 7 и 5 векторных представлений, включая начальные вложения слов. Евклидово расстояния затем берется между каждой комбинацией векторов и для получения матрицы подобия . затем подвергается динамическому мини- пулингу для создания матрицы фиксированного размера . Поскольку все потенциальные предложения неодинаковы по размеру, он разбивается на примерно равные части. Затем выходной сигнал нормализуется до среднего значения 0 и стандартного отклонения 1 и подается на полностью связанный слой с softmax. $W_{1}$ $W_{2}$ $W_{1}$ $W_{2}$ $S\in \mathbb {R} ^{7\times 5}$ $S$ $n_{p}\times n_{p}$ $S$ $S$ $n_{p}$ выход. Динамическое объединение в модель softmax обучается с использованием пар известных парафраз.

Пропускные векторы [ править ]

Векторы пропуска мыслей - это попытка создать векторное представление семантического значения предложения аналогично модели пропуска грамматики . ^[7] Векторы пропуска мыслей создаются с помощью модели пропуска мыслей, которая состоит из трех ключевых компонентов, кодировщика и двух декодеров. Учитывая корпус документов, модель пропуска мыслей обучается принимать предложение в качестве входных данных и кодировать его в вектор пропуска мыслей. Вектор пропуска мыслей используется в качестве входных данных для обоих декодеров, один из которых пытается полностью воспроизвести предыдущее предложение, а другой - следующее предложение. Кодер и декодер могут быть реализованы с использованием рекурсивной нейронной сети (RNN) или LSTM .

Поскольку пересказы несут одно и то же семантическое значение друг в друге, они должны иметь одинаковые векторы пропуска мыслей. Таким образом, простая логистическая регрессия может быть обучена с хорошей производительностью с абсолютной разницей и покомпонентным произведением двух векторов пропуска мыслей в качестве входных данных.

Оценка [ править ]

Есть несколько методов, которые можно использовать для оценки перефразирования. Поскольку распознавание перефразирования может быть представлено как проблема классификации, большинство стандартных показателей оценки, таких как точность , оценка f1 или кривая ROC, работают относительно хорошо. Однако есть трудности с вычислением f1-score из-за проблем с составлением полного списка перефразирований для данной фразы, а также того факта, что хорошие пересказы зависят от контекста. Метрика, предназначенная для решения этих проблем - ParaMetric. ^[8]ParaMetric стремится вычислить точность и отзывчивость системы автоматического перефразирования путем сравнения автоматического выравнивания перефразирования с выравниванием аналогичных фраз вручную. Поскольку ParaMetric просто оценивает качество выравнивания фраз, его можно использовать для оценки систем генерации перефразирования, а также при условии, что выравнивание фраз используется как часть процесса генерации. Отмеченным недостатком ParaMetric является большой и исчерпывающий набор ручных выравниваний, которые необходимо сначала создать, прежде чем можно будет произвести оценку.

Оценка генерации перефразирования имеет те же трудности, что и оценка машинного перевода . Часто качество пересказа зависит от его контекста, от того, используется ли он в качестве резюме и от того, как он создается, среди других факторов. Кроме того, хороший пересказ обычно лексически не похож на исходную фразу. Самый простой метод, используемый для оценки генерации перефразирования, - это использование людей-судей. К сожалению, оценка, проводимая человеческими судьями, обычно занимает много времени. Автоматизированные подходы к оценке оказываются сложной задачей, поскольку по сути это такая же сложная проблема, как распознавание перефразирования. Первоначально использовавшийся для оценки машинных переводов, дублер двуязычной оценки ( BLEU) также успешно использовался для оценки моделей генерации перефразирования. Однако перефразирование часто имеет несколько лексически различных, но одинаково действенных решений, что вредит BLEU и другим аналогичным метрикам оценки. ^[9]

Метрики, специально разработанные для оценки генерации перефразирования, включают парафраз в изменении n-граммы (PINC) ^[9] и метрику оценки перефразирования (PEM) ^[10] вместе с вышеупомянутым ParaMetric. PINC разработан для использования вместе с BLEU и помогает скрыть его недостатки. Поскольку BLEU испытывает трудности с измерением лексического несходства, PINC - это измерение отсутствия n-граммового перекрытия между исходным предложением и потенциальным перефразированием. По сути, это расстояние Жаккара между предложениями, исключая n-граммы, которые появляются в исходном предложении для поддержания некоторой семантической эквивалентности. PEM, с другой стороны, пытается оценить «адекватность, беглость и лексическое несходство» перефразирований, возвращая эвристику одного значения, рассчитанную с использованиемN-граммы перекрываются в сводном языке. Однако большой недостаток PEM заключается в том, что его необходимо обучать с использованием больших параллельных корпусов в домене, а также людей-судей. ^[9] Другими словами, это равносильно обучению системы распознавания пересказа, чтобы оценить систему генерации пересказа.

См. Также [ править ]

Перевод в оба конца
Упрощение текста
Нормализация текста

Ссылки [ править ]

^ a b Socher, Ричард; Хуанг, Эрик; Пеннингтон, Джеффри; Нг, Эндрю; Маннинг, Кристофер (2011), Рекурсивные автоэнкодеры с динамическим объединением и развертыванием для обнаружения парафраз
^ Callison-Burch, Крис (25-27 октября 2008). «Синтаксические ограничения на парафраз, извлеченные из параллельных корпусов» . EMNLP '08 Труды конференции по эмпирическим методам обработки естественного языка . Гонолулу, Гавайи. С. 196–205.
^ Berant, Джонатан, и Перси Лян. « Семантический разбор через перефразирование ». Материалы 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). Vol. 1. 2014.
^ a b Барзилай, Регина; Ли, Лилиан (май – июнь 2003 г.). «Обучение перефразированию: неконтролируемый подход с использованием множественного выравнивания» . Материалы HLT-NAACL 2003 .
^ Баннард, Колин; Каллисон-Берч, Крис (2005). «Перефразирование двуязычных параллельных корпусов» . Материалы 43-го ежегодного собрания ACL . Анн-Арбор, Мичиган. С. 597–604.
^ Пракаш, Аадитья; Hasan, Sadid A .; Ли, Кэти; Датла, Вивек; Кадир, Ашекул; Лю, Джоуи; Фарри, Оладимеджи (2016), Генерация нейронного парафраза с разбивкой остаточных сетей LSTM , arXiv : 1610.03098 , Bibcode : 2016arXiv161003098P
^ Кирос, Райан; Чжу, Юкун; Салахутдинов Руслан; Земель, Ричард; Торральба, Антонио; Уртасун, Ракель; Фидлер, Саня (2015), Векторы пропуска мыслей , arXiv : 1506.06726 , Bibcode : 2015arXiv150606726K
^ Каллисон-Берч, Крис; Кон, Тревор; Лапата, Мирелла (2008). «ParaMetric: метрика автоматической оценки для перефразирования» (PDF) . Материалы 22-й Международной конференции по компьютерной лингвистике . Манчестер. С. 97–104. DOI : 10.3115 / 1599081.1599094 . S2CID 837398 .
^ a b c Чен, Дэвид; Долан, Уильям (2008). «Сбор высокопараллельных данных для оценки перефразирования» . Материалы 49-го ежегодного собрания Ассоциации компьютерной лингвистики: технологии человеческого языка . Портланд, штат Орегон. С. 190–200.
^ Лю, Чанг; Дальмайер, Даниэль; Нг, Хви Тоу (2010). «PEM: парафразная метрика оценки с использованием параллельных текстов» . Материалы конференции 2010 г. по эмприциалистическим методам обработки естественного языка . Массачусетский технологический институт, Массачусетс. С. 923–932.

Внешние ссылки [ править ]

Microsoft Research Paraphrase Corpus - набор данных, состоящий из 5800 пар предложений, извлеченных из новостных статей, с аннотациями, чтобы отметить, фиксирует ли пара семантическую эквивалентность.
База данных перефразирования (PPDB) - база данных с возможностью поиска, содержащая миллионы перефразирований на 16 различных языках.

[Socher-1] Socher, Ричард; Хуанг, Эрик; Пеннингтон, Джеффри; Нг, Эндрю; Маннинг, Кристофер (2011), Рекурсивные автоэнкодеры с динамическим объединением и развертыванием для обнаружения парафраз

[Callison-2] Callison-Burch, Крис (25-27 октября 2008). «Синтаксические ограничения на парафраз, извлеченные из параллельных корпусов» . EMNLP '08 Труды конференции по эмпирическим методам обработки естественного языка . Гонолулу, Гавайи. С. 196–205.

[3] Berant, Джонатан, и Перси Лян. « Семантический разбор через перефразирование ». Материалы 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). Vol. 1. 2014.

[Barzilay-4] Барзилай, Регина; Ли, Лилиан (май – июнь 2003 г.). «Обучение перефразированию: неконтролируемый подход с использованием множественного выравнивания» . Материалы HLT-NAACL 2003 .

[Bannard-5] Баннард, Колин; Каллисон-Берч, Крис (2005). «Перефразирование двуязычных параллельных корпусов» . Материалы 43-го ежегодного собрания ACL . Анн-Арбор, Мичиган. С. 597–604.

[Prakash-6] Пракаш, Аадитья; Hasan, Sadid A .; Ли, Кэти; Датла, Вивек; Кадир, Ашекул; Лю, Джоуи; Фарри, Оладимеджи (2016), Генерация нейронного парафраза с разбивкой остаточных сетей LSTM , arXiv : 1610.03098 , Bibcode : 2016arXiv161003098P

[Kiros-7] Кирос, Райан; Чжу, Юкун; Салахутдинов Руслан; Земель, Ричард; Торральба, Антонио; Уртасун, Ракель; Фидлер, Саня (2015), Векторы пропуска мыслей , arXiv : 1506.06726 , Bibcode : 2015arXiv150606726K

[Burch2-8] Каллисон-Берч, Крис; Кон, Тревор; Лапата, Мирелла (2008). «ParaMetric: метрика автоматической оценки для перефразирования» (PDF) . Материалы 22-й Международной конференции по компьютерной лингвистике . Манчестер. С. 97–104. DOI : 10.3115 / 1599081.1599094 . S2CID 837398 .

[Chen-9] Чен, Дэвид; Долан, Уильям (2008). «Сбор высокопараллельных данных для оценки перефразирования» . Материалы 49-го ежегодного собрания Ассоциации компьютерной лингвистики: технологии человеческого языка . Портланд, штат Орегон. С. 190–200.

[Liu-10] Лю, Чанг; Дальмайер, Даниэль; Нг, Хви Тоу (2010). «PEM: парафразная метрика оценки с использованием параллельных текстов» . Материалы конференции 2010 г. по эмприциалистическим методам обработки естественного языка . Массачусетский технологический институт, Массачусетс. С. 923–932.

[1]