Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В извлечении информации , именованный объект является реальным объектом, например, лица, мест, организаций, продуктов и т.д., которые могут быть обозначены с собственным именем. Он может быть абстрактным или иметь физическое существование. Примеры названных сущностей включают Барака Обаму , Нью-Йорк , Volkswagen Golf или все, что может быть названо. Именованные сущности можно просто рассматривать как экземпляры сущностей (например, Нью-Йорк является экземпляром города ).

С исторической точки зрения, термин « именованная сущность» был придуман во время оценочной кампании MUC-6 [1] и содержал ENAMEX (выражения имени сущности, например, лица, местоположения и организации) и NUMEX (числовое выражение).

Более формальное определение может быть получено из жесткого целеуказателя по Солу Крипка . В выражении «Именованная сущность» слово «Именованная сущность» направлено на ограничение возможного набора сущностей только теми, для которых один или несколько жестких указателей обозначают референт. [2] Обозначение жесткое, когда оно обозначает одно и то же во всех возможных мирах. Напротив, вялые указатели могут обозначать разные вещи в разных возможных мирах.

В качестве примера рассмотрим предложение «Трамп - президент Соединенных Штатов». И «Трамп», и «Соединенные Штаты» являются именованными объектами, поскольку относятся к конкретным объектам ( Дональд Трамп и Соединенные Штаты ). Однако «президент» не является именованной сущностью, поскольку его можно использовать для обозначения множества различных объектов в разных мирах (в разные президентские периоды, относящиеся к разным людям, или даже в разных странах или организациях, относящихся к разным людям). Жесткие обозначения обычно включают имена собственные, а также определенные природные термины, такие как биологические виды и вещества.

В сообществе по распознаванию именованных сущностей также существует общее соглашение о том, чтобы рассматривать в качестве именованных сущностей временные и числовые выражения, такие как суммы денег и другие типы единиц, которые могут нарушать жесткую перспективу обозначения.

Задача распознавания именованных сущностей в тексте Названный Entity Recognition , а задача определения идентичности названных лиц , упомянутых в тексте называется Названный Entity Disambiguation . Для решения обеих задач требуются выделенные алгоритмы и ресурсы. [3]

См. Также [ править ]

Ссылки [ править ]

  1. ^ Гришман, Ральф; Сундхейм, Бет (1996). Дизайн оценки MUC-6 (PDF) . TIPSTER '96 Извещения.
  2. ^ Надо, Дэвид; Секин, Сатоши (2007). Обзор признания и классификации именованных сущностей (PDF) . Lingvisticae Investigationes.
  3. ^ Нувель, Дэмиен; Эрманн, Мод; Россет, Софи (2015). Wiley (ред.). Именованные сущности для компьютерной лингвистики . ISBN 978-1-84821-838-3.