Признание Названного-объект ( НЭК ) (также известное как ( по имени) идентификация субъекта , объект разделения на порции и извлечение объекта ) является подзадачей извлечения информации , которая стремится найти и классифицировать именованные объекты , упомянутые в неструктурированном тексте в заранее определенных категории , такие как лица , имена, организации, местоположения, медицинские коды , выражения времени, количества, денежные значения, проценты и т. д.
Большинство исследований систем NER / NEE было структурировано как взятие неаннотированного блока текста, такого как этот:
Джим купил 300 акций Acme Corp. в 2006 году.
И создание аннотированного блока текста, который выделяет имена объектов:
[Джим] Человек купил 300 акций [Acme Corp.] Организации в [2006] Время .
В этом примере имя человека, состоящее из одного токена, названия компании с двумя токенами и временного выражения, было обнаружено и классифицировано.
Современные системы NER для английского языка обеспечивают производительность, близкую к человеческой. Например, лучшая система, входящая в MUC-7, набрала 93,39% F-меры, в то время как аннотаторы-люди набрали 97,60% и 96,95%. [1] [2]
Платформы распознавания именных сущностей
Известные платформы NER включают:
- GATE « из коробки» поддерживает NER на многих языках и в различных доменах, его можно использовать через графический интерфейс и Java API.
- OpenNLP включает основанное на правилах и статистическое распознавание именованных сущностей.
- SpaCy имеет быстрый статистический NER, а также визуализатор именованных сущностей с открытым исходным кодом.
Определение проблемы
В выражении с именем entity , слово с именем ограничивает задачу теми сущностями, для которых одна или несколько строк, таких как слова или фразы, (справедливо) последовательно обозначают некоторый референт. Это тесно связано с жесткими десигнаторов , как определено Крипке , [3] [4] , хотя на практике NER сделок с большим количеством имен и референтов, которые не философски «жесткой». Например, автомобильная компания, созданная Генри Фордом в 1903 году, может называться Ford или Ford Motor Company , хотя «Ford» может также относиться ко многим другим организациям (см. Ford ). Жесткие обозначения включают имена собственные, а также термины для определенных биологических видов и веществ [5], но исключают местоимения (например, «оно»; см. Разрешение кореферентности ), описания, которые выделяют референт по его свойствам (см. Также De dicto и de re ) и названия видов вещей в отличие от отдельных лиц (например, «Банк»).
Полное распознавание именованных сущностей часто разбивается концептуально и, возможно, также в реализациях [6], как две отдельные проблемы: обнаружение имен и классификация имен по типу сущности, к которой они относятся (например, лицо, организация, местоположение и прочее [7] ). Первый этап обычно упрощается до проблемы сегментации: имена определяются как непрерывные промежутки токенов без вложенности, так что «Bank of America» является одним именем, не учитывая тот факт, что внутри этого имени подстрока «America» само по себе имя. Эта проблема сегментации формально похожа на разбиение на части . Второй этап требует выбора онтологии для организации категорий вещей.
Временные выражения и некоторые числовые выражения (например, деньги, проценты и т. Д.) Также могут рассматриваться как именованные сущности в контексте задачи NER. Хотя некоторые примеры этих типов являются хорошими примерами жестких обозначений (например, 2001 год), существует также много недопустимых (например, я беру отпуск в «июне»). В первом случае 2001 год относится к 2001 году по григорианскому календарю . Во втором случае месяц июнь может относиться к месяцу неопределенного года ( прошедший июнь , следующий июнь , каждый июнь и т. Д.). Можно утверждать, что определение именованного объекта в таких случаях ослаблено по практическим соображениям. Таким образом, определение термина « именованный объект» не является строгим и часто требует объяснения в контексте, в котором он используется. [8]
В литературе были предложены определенные иерархии именованных типов сущностей. Категории BBN , предложенные в 2002 году, используются для ответов на вопросы и состоят из 29 типов и 64 подтипов. [9] Расширенная иерархия Sekine, предложенная в 2002 году, состоит из 200 подтипов. [10] Совсем недавно, в 2011 году, Риттер использовал иерархию, основанную на общих типах сущностей Freebase, в новаторских экспериментах по NER над текстом в социальных сетях . [11]
Формальная оценка
Чтобы оценить качество продукции системы NER, было определено несколько показателей. Обычные меры называются « точность», «отзыв» и « оценка F1» . Однако остается несколько вопросов о том, как рассчитать эти значения.
Эти статистические меры работают достаточно хорошо для очевидных случаев точного обнаружения или отсутствия реального объекта; и для поиска не-сущности. Однако NER может потерпеть неудачу по многим другим причинам, многие из которых, возможно, являются «частично правильными» и не должны считаться полным успехом или неудачей. Например, идентификация реального объекта, но:
- с меньшим количеством токенов, чем желательно (например, пропущен последний токен "John Smith, MD")
- с большим количеством жетонов, чем нужно (например, включая первое слово «Университет доктора медицины»)
- разделение смежных объектов по-разному (например, обработка "Смита, Джонса Робинсона" как 2-х против 3-х сущностей)
- присвоение ему совершенно неправильного типа (например, присвоение личного имени организации)
- присвоение ему родственного, но неточного типа (например, «вещество» против «наркотика» или «школа» против «организации»)
- правильная идентификация объекта, когда то, что хотел пользователь, было объектом меньшего или большего размера (например, определение «Джеймс Мэдисон» как личное имя, когда оно является частью «Университета Джеймса Мэдисона». Некоторые системы NER налагают ограничение, что объекты никогда не могут перекрываться или вкладываться, что означает, что в некоторых случаях нужно делать произвольный выбор или выбор для конкретной задачи.
Один слишком простой метод измерения точности - просто подсчитать, какая часть всех токенов в тексте была правильно или неправильно идентифицирована как часть ссылок на сущности (или как сущности правильного типа). Это страдает как минимум двумя проблемами: во-первых, подавляющее большинство токенов в реальном тексте не являются частью имен сущностей, поэтому базовая точность (всегда предсказывающая «не сущность») чрезвычайно высока, обычно> 90%; и, во-вторых, неправильное предсказание полного диапазона имени объекта не наказывается должным образом (обнаружение только имени человека, когда следует его фамилия, может быть оценено как точность ½).
На научных конференциях, таких как CoNLL, вариант оценки F1 был определен следующим образом: [7]
- Точность - это количество спрогнозированных интервалов имен сущностей, которые точно совпадают с интервалами в данных оценки золотого стандарта . То есть, когда [ Person Hans] [ Person Blick] предсказано, но требуется [ Person Hans Blick], точность предсказанного имени равна нулю. Затем точность усредняется по всем прогнозируемым именам объектов.
- Напоминание - это точно так же количество имен в золотом стандарте, которые появляются в одном и том же месте в предсказаниях.
- Оценка F1 - это среднее гармоническое из этих двух.
Из приведенного выше определения следует, что любое предсказание, которое пропускает один токен, включает ложный токен или имеет неправильный класс, является серьезной ошибкой и не влияет положительно ни на точность, ни на отзыв. Таким образом, эту меру можно назвать пессимистической: может случиться так, что многие «ошибки» близки к исправлению и могут быть адекватными для данной цели. Например, одна система может всегда пропускать такие заголовки, как «Мисс». или «доктор философии», но сравнивать с системой или достоверными данными, которые ожидают включения заголовков. В этом случае каждое такое имя считается ошибкой. Из-за таких проблем важно действительно изучить типы ошибок и решить, насколько они важны с учетом целей и требований.
Были предложены модели оценки, основанные на сопоставлении токенов. [12] Таким моделям может быть дана частичная заслуга в совпадении совпадений (например, с использованием критерия пересечения по объединению . Они позволяют более детально оценивать и сравнивать системы извлечения.
Подходы
Были созданы системы NER, в которых используются методы на основе лингвистической грамматики , а также статистические модели, такие как машинное обучение . Созданные вручную системы на основе грамматики обычно обеспечивают более высокую точность, но за счет меньшего количества запоминаний и месяцев работы опытных компьютерных лингвистов . [13] Статистические системы NER обычно требуют большого количества вручную аннотированных обучающих данных. Были предложены полууправляемые подходы, чтобы избежать части усилий по аннотации. [14] [15]
Для выполнения NER с машинным обучением использовалось множество различных типов классификаторов, причем условные случайные поля были типичным выбором. [16]
Проблемные домены
В 2001 году исследование показало, что даже современные системы NER были хрупкими, а это означало, что системы NER, разработанные для одной области, обычно не работали хорошо в других областях. [17] Значительные усилия требуются для настройки систем NER для хорошей работы в новой области; это верно как для основанных на правилах, так и для обучаемых статистических систем.
Ранняя работа над системами NER в 1990-х годах была направлена в основном на извлечение из журналистских статей. Затем внимание переключилось на обработку военных донесений и отчетов. Более поздние этапы оценки автоматического извлечения контента (ACE) также включали несколько типов неформальных текстовых стилей, таких как веб-журналы и текстовые расшифровки разговоров по телефону. Примерно с 1998 года существует большой интерес к идентификации сущностей в сообществах молекулярной биологии , биоинформатики и медицинской обработки естественного языка . Наиболее частым объектом интереса в этой области были названия генов и генных продуктов. Также был проявлен значительный интерес к распознаванию химических веществ и лекарств в контексте конкурса CHEMDNER, в котором участвовали 27 команд. [18]
Текущие проблемы и исследования
Несмотря на высокие числа F1, указанные в наборе данных MUC-7, проблема распознавания именованных сущностей далека от решения. Основные усилия направлены на уменьшение аннотаций труда за счет использования полуобучаемой обучения , [14] [19] надежной производительности между доменами [20] [21] и масштабирование до мелкозернистых типов сущностей. [10] [22] В последние годы многие проекты обратились к краудсорсингу , который является многообещающим решением для получения высококачественных агрегированных человеческих оценок для контролируемых и частично контролируемых подходов машинного обучения к NER. [23] Другой сложной задачей является разработка моделей для работы с лингвистически сложными контекстами, такими как Twitter и поисковые запросы. [24]
Есть некоторые исследователи, которые провели некоторые сравнения производительности NER из различных статистических моделей, таких как HMM ( скрытая марковская модель ), ME ( максимальная энтропия ) и CRF ( условные случайные поля ), а также наборов функций. [25] Некоторые исследователи недавно предложили модель обучения с полууправляемым обучением на основе графа для языковых задач NER. [26]
Недавно возникшая задача по идентификации «важных выражений» в тексте и их перекрестной связи с Википедией [27] [28] [29] может рассматриваться как пример чрезвычайно детального распознавания именованных сущностей, где типы являются фактическими Страницы Википедии, описывающие (потенциально неоднозначные) концепции. Ниже приведен пример вывода системы Викификации:
url = "https://en.wikipedia.org/wiki/Michael_I._Jordan" > Майкл Джордан - профессор url = "https://en.wikipedia.org/wiki/University_of_California , _Berkeley " > Беркли
Еще одна область, в которой наблюдается прогресс, но остается сложной задачей, - это применение NER в Twitter и других микроблогах. [30] [ расплывчато ]
Смотрите также
- Разрешение Coreference
- Связывание сущностей (также известное как нормализация именованных сущностей, устранение неоднозначности сущностей)
- Извлечение информации
- Извлечение знаний
- Контролируемая лексика
- Ономастика
- Запись связи
- Смарт-тег (Microsoft)
Рекомендации
- ^ Элейн Марш, Деннис Перзановски, "MUC-7 Evaluation of IE Technology: Overview of Results", 29 апреля 1998 г. PDF
- ^ MUC-07 Ход работы (задачи именованных сущностей)
- Перейти ↑ Kripke, Saul (1971). MK Munitz (ред.). Идентичность и необходимость . Нью-Йорк: Издательство Нью-Йоркского университета. С. 135–64. Неизвестный параметр
|book-title=
игнорируется ( справка ) - ^ ЛаПорте, Джозеф, Жесткие обозначения Неизвестный параметр
|book-title=
игнорируется ( справка ) - ^ Надо, Дэвид; Секин, Сатоши (2007). Обзор признания и классификации именованных сущностей (PDF) . Lingvisticae Investigationes.
- ^ Каррерас, Ксавьер; Маркес, Луис; Падро, Луис (2003). Простой экстрактор именованных сущностей с использованием AdaBoost (PDF) . CoNLL.
- ^ а б Тьонг Ким Санг, Эрик Ф .; Де Мелдер, Файн (2003). Введение в общую задачу CoNLL-2003: независимое от языка распознавание именованных сущностей . CoNLL.
- ^ Определение именованного объекта . Webknox.com. Проверено 21 июля 2013.
- ^ Брунштейн, Ада. «Рекомендации по аннотациям для типов ответов» . Каталог LDC . Консорциум лингвистических данных . Проверено 21 июля 2013 года .
- ^ a b Расширенная иерархия именованных сущностей Sekine . Nlp.cs.nyu.edu. Проверено 21 июля 2013.
- ^ Риттер, А .; Clark, S .; Маусам; Эциони., О. (2011). Распознавание именованных сущностей в твитах: экспериментальное исследование (PDF) . Proc. Эмпирические методы обработки естественного языка.
- ^ Эсули, Андреа; Себастьяни, Фабрицио (2010). Оценка извлечения информации (PDF) . Форум межъязыковой оценки (CLEF). С. 100–111.
- ^ Капетаниос, Эпаминонд; Татарский, дойна; Сакария, Кристиан (2013-11-14). Обработка естественного языка: семантические аспекты . CRC Press. п. 298. ISBN 9781466584969.
- ^ а б Линь, Деканг; У, Сяоюнь (2009). Кластеризация фраз для разборчивого обучения (PDF) . Ежегодное собрание ACL и IJCNLP. С. 1030–1038.
- ^ Нотман, Джоэл; и другие. (2013). «Изучение многоязычного распознавания именованных сущностей из Википедии» . Искусственный интеллект . 194 : 151–175. DOI : 10.1016 / j.artint.2012.03.006 .
- ^ Дженни Роуз Финкель; Тронд Гренагер; Кристофер Мэннинг (2005). Включение нелокальной информации в системы извлечения информации с помощью выборки Гиббса (PDF) . 43-е ежегодное собрание Ассоциации компьютерной лингвистики . С. 363–370.
- ^ Пубо, Тьерри; Коссейм, Лейла (2001). «Извлечение собственного имени из не журналистских текстов» (PDF) . Язык и компьютеры . 37 (1): 144–157. DOI : 10.1163 / 9789004333901_011 . S2CID 12591786 . Архивировано из оригинального (PDF) 30 июля 2019 года.
- ^ Krallinger, M; Leitner, F; Рабал, О; Васкес, М; Оярзабал, Дж; Валенсия, А. "Обзор задачи распознавания химического соединения и названия лекарственного средства (CHEMDNER)". Труды четвертого семинара по оценке BioCreative Challenge vol. 2 . С. 6–37. CiteSeerX 10.1.1.684.4118 .
- ^ Turian J., Ратины, Л., & Bengio, Y. (2010, июль). Представления слов: простой и общий метод обучения без учителя. В материалах 48-го ежегодного собрания Ассоциации компьютерной лингвистики (стр. 384–394). Ассоциация компьютерной лингвистики. PDF
- ^ Ратины, L., & Roth, D. (2009, июнь). Проблемы проектирования и заблуждения при распознавании именованных сущностей. В материалах тринадцатой конференции по компьютерному изучению естественного языка (стр. 147–155). Ассоциация компьютерной лингвистики.
- ^ «Удивительно простая адаптация домена» (PDF) . Архивировано из оригинального (PDF) 13 июня 2010 года . Проверено 5 апреля 2012 .
- ^ Детализированное распознавание именованных сущностей с использованием условных случайных полей для ответа на вопрос.
- ^ Краудсорсинг на основе Web 2.0 для высококачественной разработки золотого стандарта в клинической обработке естественного языка
- ^ Эйзельт, Андреас; Фигероа, Алехандро (2013). Двухэтапный распознаватель именованных сущностей для поисковых запросов открытого домена . IJCNLP. С. 829–833.
- ↑ Хан, Ли-Фэн Аарон, Вонг, Фай, Чао, Лидия Сэм. (2013). Китайское распознавание именованных сущностей с условными случайными полями в свете китайских характеристик. Материалы Международной конференции по обработке языков и интеллектуальным информационным системам. MA Klopotek et al. (Ред.): IIS 2013, LNCS Vol. 7912, стр. 57–68 [1]
- ↑ Хан, Ли-Фэн Аарон, Вонг, Цзэн, Сяодун, Дерек Фай, Чао, Лидия Сэм. (2015). Распознавание именованных сущностей на китайском языке с помощью полууправляемой модели обучения на основе графа. В материалах семинара SIGHAN в ACL-IJCNLP. 2015. [2]
- ^ Связывание документов с энциклопедическими знаниями.
- ^ «Учимся связываться с Википедией» (PDF) . Архивировано из оригинального (PDF) на 2019-01-25 . Проверено 21 июля 2014 .
- ^ Локальные и глобальные алгоритмы устранения неоднозначности в Википедии.
- ^ Derczynski, Леон и Диана Maynard , Джузеппе Риццо, Марике ван Эрп, Женевьева Gorrell, Рафаэль Troncy, Иоганн Petrak и Kalian Botcheva (2014). «Анализ распознавания именованных сущностей и ссылки для твитов». Обработка информации и управление 51 (2): страницы 32–49.