В лингвистике , кореферентность , иногда пишутся кореферентность , происходит , когда два или более выражений в тексте относятся к одному человеку или вещам; у них один и тот же референт , например, Билл сказал, что придет ; имя собственное Билл и местоимение он относятся к одному и тому же человеку, а именно к Биллу. [1] Coreference - это основная концепция, лежащая в основе явлений связывания в области синтаксиса. Теория связывания исследует синтаксические отношения, существующие между коререферентными выражениями в предложениях и текстах. Когда два выражения являются кореференциальными, одно обычно является полной формой ( антецедент), а другой - сокращенная форма ( проформа или анафора). Лингвисты использовать индексы , чтобы показать кореферентности, как и с индексом я в примере Билл я сказал , что я бы пришел . Два выражения с одной и той же ссылкой коиндексированы , следовательно, в этом примере Билл и он коиндексированы, что указывает на то, что они должны интерпретироваться как кореференциальные.
Типы
При изучении кореферентности, существуют многочисленные различия , которые могут быть сделаны, например , анафора , Катафора , сплит Предшественники, coreferring существительное фразы и т.д. [2] При работе с proforms ( местоимения , про-глаголы , про-прилагательных и т.д.), один различает анафору и катафору. Когда проформа следует за выражением, к которому она относится, присутствует анафора (проформа - это анафора), а когда она предшествует выражению, к которому она относится, присутствует катафора (проформа - это катафора). Эти понятия иллюстрируются следующим образом:
- Анафора
- а. Музыка я был настолько громким , что ему я не мог быть подан. -The анафора это следует выражение , к которому оно относится (его предшествующее).
- б. Наши соседи я не люблю музыку. Если они я злится, полицейские будут появляться в ближайшее время . - Анафора, которую они следует за выражением, к которому она относится (его антецедент).
- Катафора
- а. Если они я злятся о музыке, соседи я позову полицию. - Катафора они предшествует выражению, к которому она относится (его постцедент).
- б. Несмотря на ее я трудность, Вильма я пришел , чтобы понять точку. - Катафора ее предшествует выражению, к которому она относится (его постцедент)
- Разделение антецедентов
- а. Кэрол, я сказала Бобу, что я должен присутствовать на вечеринке. Они я прибыл вместе. - Анафора, у них есть раздвоение предшественников, относящееся как к Кэрол, так и к Бобу .
- б. Когда Кэрол я помогает Бобу я и Боб я помогает Кэрол я , они я могу выполнить любую задачу. - Анафора, у них есть раздвоение предшественников, относящееся как к Кэрол, так и к Бобу .
- Coreferring существительные фразы
- а. Руководитель проекта i отказывается помочь. Рывок я думаю только о себе. - Coreferring именных фраз, при этом вторая именная фраза является предикативной по отношению к первой.
- б. Некоторые из наших коллег 1 намереваются поддержать меня. Такие люди 1 заработают нашу благодарность. - Coreferring именных фраз, при этом вторая именная фраза является предикативной по отношению к первой.
По сравнению со связанными переменными
Семантики и логики иногда проводят различие между кореферентностью и тем, что известно как связанная переменная . [3] Пример связанной переменной может выглядеть как кореферент, но с технической точки зрения можно утверждать, что на самом деле это не так. Связанные переменные возникают, когда антецедентом проформы является неопределенное количественное выражение, например [4]
- а. Каждый ученик i получил свою i-ю оценку. - Местоимение его является примером связанной переменной
- б. Нет ученика, которого я расстроила своей первой оценкой. - Местоимение его является примером связанной переменной
Количественные выражения, такие как « каждый студент и ни один студент» , с технической точки зрения не являются справочными. Предметы, которые каждый ученик и ни один ученик грамматически уникальны, но они не выделяют единичных референтов в мире дискурса. Таким образом, поскольку антецеденты притяжательного прилагательного his не являются референциальными, нельзя также сказать, что his является референциальным. Вместо этого говорят, что это переменная , связанная со своим антецедентом. Его ссылка варьируется в зависимости от того, о каком из учеников в мире дискурса думают. Если Джек, Джон и Джерри являются тремя учениками в мире дискурса, то значение его слов варьируется в зависимости от того, находится ли в центре внимания Джек, Джон или Джерри. Существование связанных переменных, возможно, более очевидно на следующем примере:
- c. Только Джек я люблю его я класс. - Местоимение его может быть связанной переменной.
Это предложение неоднозначное. Это может означать, что Джеку нравится его оценка, но всем остальным не нравится оценка Джека, или, что более вероятно, это означает, что Джеку нравится его оценка, но Джону не нравится его (Джона) оценка, а Джерри не нравится его (Джерри) оценка. Второе, более естественное чтение - это чтение связанной переменной. Хотя различие между кореферентными и связанными переменными может быть реальным, коиндексация может быть истолкована как согласование обеих. То есть, когда два или более выражений коиндексированы, это указывает на то, что одно имеет дело с кореферентностью или связанной переменной.
Разрешение Coreference
В компьютерной лингвистике разрешение кореферентности - хорошо изученная проблема дискурса . Чтобы получить правильную интерпретацию текста или даже оценить относительную важность различных упомянутых предметов, местоимения и другие ссылающиеся выражения должны быть связаны с правильными людьми. Алгоритмы, предназначенные для разрешения кореференций, обычно сначала ищут ближайшего предыдущего человека, совместимого с ссылающимся выражением. Например, она может присоединиться к предыдущему выражению, например, женщина или Анна , но не к Биллу . Такие местоимения, как он, имеют гораздо более строгие ограничения. Как и во многих лингвистических задачах, существует компромисс между точностью и отзывом , расчет которого может варьироваться, поскольку не существует единого алгоритма для измерения качества цепочек кореферентности. Метрики качества кластера, обычно используемые для оценки алгоритмов разрешения кореферентности, - это индекс Рэнда , скорректированный индекс Рэнда или различные методы, основанные на взаимной информации .
Классическая проблема разрешения кореферентности в английском языке - это местоимение it , которое имеет множество применений. Он может относиться во многом так же, как он и она , за исключением того, что обычно относится к неодушевленным объектам (правила на самом деле более сложные: животные могут быть любыми из них , он или она ; корабли - это традиционно она ; ураганы обычно это, несмотря на гендерные имена ). Это также может относиться к абстракциям, а не к существам, например, ему платили минимальную заработную плату, но, похоже, это не возражало. Наконец, у него также есть плеонастическое использование, которое не относится ни к чему конкретному:
- а. Это идет дождь.
- б. Это действительно обидно.
- c. Это занимает много работы , чтобы добиться успеха.
- d. Иногда это S громче всех , кто имеет наибольшее влияние.
Плеонастические употребления не считаются референтными и, следовательно, не являются частью кореферентности. [5]
Подходы к разрешению кореферентности можно в целом разделить на алгоритмы пар упоминаний, ранжирования упоминаний или алгоритмы на основе сущностей. Алгоритмы пар упоминаний включают бинарные решения, если пара из двух упомянутых упоминаний принадлежит одному и тому же объекту. Ограничения для всей сущности, такие как пол , не рассматриваются, что приводит к распространению ошибок . Например, местоимения он или она могут иметь высокую вероятность кореферентности с учителем , но не могут быть кореферентны друг другу. Алгоритмы ранжирования упоминаний расширяют эту идею, но вместо этого оговаривают, что одно упоминание может быть сопряжено только с одним (предыдущим) упоминанием. В результате каждому предыдущему упоминанию должна быть присвоена оценка, а упоминание с наивысшей оценкой (или отсутствие упоминания) должно быть связано. Наконец, в методах на основе сущностей упоминания связаны на основе информации всей цепочки кореференции, а не отдельных упоминаний. Представление цепочки переменной ширины является более сложным и затратным с точки зрения вычислений, чем методы, основанные на упоминаниях, что приводит к тому, что эти алгоритмы в основном основаны на архитектурах нейронных сетей .
Смотрите также
- Анафора (лингвистика) - использование выражения, интерпретация которого зависит от контекста.
- Антецедент - выражение, придающее значение проформе в грамматике.
- Связывание - Распределение анафорических элементов
- Катафора - использование выражения или слова, которое соотносится с более поздним, более конкретным выражением.
- Ближайший референт
- Ссылка на переключатель - любая морфема на уровне предложения, которая сигнализирует, являются ли определенные важные аргументы в «смежных» предложениях коререференциальными.
- Устранение смысловой неоднозначности - определение значения слова, которое используется
Заметки
- ^ Определения кореферентности см., Например, в Crystal (1997: 94) и Radford (2004: 332).
- ^ Эти различия (анафора, катафора, расщепленные антецеденты, сопоставление именных фраз и т. Д.) Обсуждаются в Jurafsky and Martin (2000: 669 и далее).
- ^ Обсуждение связанных переменных см., Например, в Portner (2005: 102 и сл.).
- ^ См. Джурафски и Мартин (2000: 701) для примера связанной переменной, подобной приведенным здесь.
- ^ Ли и др. (2009) показали высокую точность сортировки излишнего это , и этот успех обещает повысить точность разрешения кореферентностицелом.
Рекомендации
- Кристалл, Д. 1997. Словарь лингвистики и фонетики. 4-е издание. Кембридж, Массачусетс: издательство Blackwell Publishing.
- Джурафски, Д. и Х. Мартин, 2000. Обработка речи и языка: Введение в обработку естественного языка, компьютерную лингвистику и распознавание речи. Нью-Дели, Индия: Pearson Education.
- Портнер, П. 2005. Что такое семантика ?: Основы формальной семантики. Мальден, Массачусетс: издательство Blackwell Publishing.
- Рэдфорд, А. 2004. Английский синтаксис: введение . Кембридж, Великобритания: Издательство Кембриджского университета.
- Ифань, Л. П. Musilek, М. переформатирование и Л. Wyard-Скотт 2009. Идентификация излишний это с помощью веб . Журнал исследований искусственного интеллекта 34, 339–389.