Из Википедии, бесплатной энциклопедии
  (Перенаправлено из Geoparsing )
Перейти к навигации Перейти к поиску

В географических информационных системах , разрешение топонима является процесс отношения между топонимом , т.е. упоминание о месте, и однозначный пространственный след того же место. [1]

Те же географические названия исторически использовались поселенцами-эмигрантами для обозначения своих новых домов, что приводило к неоднозначности названий мест. Иногда оригинальное имя изменяется (например, «Йорк» против «Нью-Йорк»). Во многих случаях имя используется повторно без изменений («Бостон» в Англии, Великобритании против «Бостон» в Массачусетсе, США). Чтобы сопоставить набор географических названий или топонимов, которые встречаются в документе, с их соответствующими координатами широты / долготы , многоугольником или любым другим пространственным следом, необходим шаг устранения неоднозначности. Алгоритм разрешения топонима - это автоматический метод, который выполняет сопоставление топонима с пространственным следом.

Большинство методов разрешения топонимов используют географический справочник возможных сопоставлений между именами и пространственными следами. [2]

Процесс разрешения [ править ]

Определение «однозначный пространственный след одного и того же места» [1] может быть на самом деле однозначным или «не столь однозначным». Существует несколько различных контекстов неопределенности, в которых может происходить процесс разрешения:

  • Когда доказательства географические и не вызывают сомнений. Например, чтобы получить название страны для места фотографии, когда это место является местоположением GPS (ошибка 10 метров), на расстоянии 1000 км от границ страны.
  • Когда доказательства географические, но со значительной неопределенностью. Представьте себе аналогичный сценарий, где ошибка GPS составляет 100 метров, а место находится недалеко от границы страны, примерно на 100 метров.
  • Когда доказательства только текстовые. Представьте себе письмо, в котором рассказчик - турист, рассказывающий о своей поездке после возвращения из отпуска. Единственные свидетельства - текстовые, в повествовании.
  • Смешанные источники доказательств: более одного доказательства, ни одного точного.

Из географических свидетельств [ править ]

Разрешение топонима иногда представляет собой простое преобразование названия в аббревиатуру, особенно когда аббревиатура используется в качестве стандартного геокода . Например, преобразование официального названия страны Афганистана в код ISO страны , AF.

При аннотировании медиа и метаданных преобразование с использованием карты и географических свидетельств (например, GPS) является наиболее обычным подходом для получения топонима или геокода, который представляет топоним.

Из текстовых свидетельств [ править ]

В отличие от геокодирования почтовых адресов, которые обычно хранятся в структурированных записях базы данных, разрешение топонимов обычно применяется к большим коллекциям неструктурированных текстовых документов, чтобы связать упомянутые в них местоположения с картами.

Процесс аннотирования медиа (например, изображения, текста, видео) с использованием пространственных следов известен как Geotagging . Для автоматической геотеги текстового документа обычно предпринимаются следующие шаги: распознавание топонима (т. Е. Определение текстовых ссылок на географические местоположения) и разрешение топонима (т. Е. Выбор соответствующей интерпретации местоположения для каждой географической ссылки).

Распознавание топонимов можно рассматривать как частный случай распознавания именованных объектов, когда цель состоит в том, чтобы просто получить объекты местоположения. Однако результат распознавания именованных сущностей можно улучшить с помощью правил, созданных вручную, или статистических правил. [3]

Для получения интерпретации местоположения в моделях разрешения обычно используются географические справочники (т. Е. Огромные базы данных местоположений), такие как GeoNames и OpenStreetMap . Наивный подход к разрешению топонимов - выбрать наиболее популярную интерпретацию из списка кандидатов. Например, в следующем отрывке:

Мужчина из Торонто, живущий и работающий в Лондоне, `` не уверен в будущем '' в Великобритании после Брексита

-  CBC

Наивный подход кажется жизнеспособным, поскольку топонимы Торонто и Лондон относятся к их наиболее распространенной интерпретации, расположенной в Канаде и Великобритании соответственно, тогда как в следующем фрагменте из новостной статьи:

Высокоскоростная железная дорога между Торонто и Лондоном к 2025 году

-  CBC

Такой подход не позволяет точно определить топоним Лондон как город, расположенный в Онтарио, Канада . Следовательно, выбор самой высокой совокупности не может хорошо работать для топонимов в локализованном контексте.

Кроме того, разрешение топонимов не затрагивает метонимию в целом. Тем не менее, метод разрешения все еще может устранить неоднозначность метонимической ссылки, если она идентифицирована как топоним на этапе распознавания. Например, в следующем отрывке:

Канада также корректирует свои законы о дорожном движении с учетом DUI каннабиса.

Канада указывает на метонимию и относится к «правительству Канады». Однако его можно определить как местоположение с помощью универсального распознавателя именованных сущностей, и, таким образом, преобразователь топонимов может устранить неоднозначность.

Подходы [ править ]

Методы разрешения топонимов в целом можно разделить на контролируемые и неконтролируемые модели. Контролируемые методы обычно рассматривают проблему как задачу обучения, в которой модель сначала извлекает контекстные и неконтекстные функции, а затем классификатор обучается на помеченном наборе данных. Адаптивная модель [4]является одной из выдающихся моделей, предлагаемых при разрешении топонимов. Для каждой интерпретации топонима модель выводит контекстно-зависимые характеристики, основанные на географической близости и родственных отношениях с другими интерпретациями. В дополнение к функциям, связанным с контекстом, модель извлекает выгоду из функций, не зависящих от контекста, включая численность населения и местоположение аудитории. С другой стороны, неконтролируемые модели не требуют аннотированных данных. Они превосходят контролируемые модели, когда аннотированный корпус недостаточно велик, а контролируемые модели могут плохо обобщаться. [5]

Неконтролируемые модели, как правило, лучше используют взаимодействие топонимов, упомянутых в документе. Модель Context-Hierarchy Fusion [5] оценивает географический охват документов и использует связи между ближайшими географическими названиями в качестве свидетельства для определения топонимов. Посредством сопоставления проблемы с проблемой бесконфликтного покрытия эта модель обеспечивает согласованное и надежное решение.

Кроме того, использование Википедии и баз знаний доказало свою эффективность в разрешении топонимов. TopoCluster [6] моделирует географическое значение слов, включая страницы местоположений в Википедии, и устраняет неоднозначность топонимов, используя пространственные значения слов в тексте.

Геопарсинг [ править ]

Геопарсинг - это специальный процесс разрешения топонимов, заключающийся в преобразовании текстовых описаний мест (например, «двадцать миль к северо-востоку от Джелалабада») в однозначные географические идентификаторы, такие как географические координаты, выраженные как широта - долгота . Можно также геоанализировать ссылки на местоположение из других форм мультимедиа, например аудиоконтент, в котором говорящий упоминает место. С помощью географических координат объекты могут быть нанесены на карту и введены в географические информационные системы . Два основных использования географических координат, полученных из неструктурированного контента, - это нанесение частей контента на карты и поиск контента с использованием карты в качестве фильтра.

Геопарсинг выходит за рамки геокодирования . Геокодирование анализирует однозначно структурированные ссылки на местоположения, такие как почтовые адреса и строго отформатированные числовые координаты. Geoparsing обрабатывает неоднозначные ссылки в неструктурированном дискурсе, например «Аль-Хамра», что является названием нескольких мест, включая города в Сирии и Йемене.

Geoparser является частью программного обеспечения или (веб) службы , которая помогает в этом процессе. Несколько примеров:

  • Автоматическая геопривязка GEOLocate
  • BioGeomancer - полуавтоматическая геопривязка
  • Сервер имен GEOnet - свободно доступная ГИС-информация для регионов за пределами США и Антарктиды, ежемесячно обновляемая Национальным агентством геопространственной разведки (NGA) и Советом США по географическим названиям (US BGN)
  • Информационная система географических названий (GNIS) - свободно доступная база данных, содержащая информацию почти о 2 миллионах физических объектов, мест и ориентиров в США.
  • CLAVIN - CLAVIN (Cartographic Location And Vicinity INdexer) - это программный пакет с открытым исходным кодом для геотегирования и геоанализа документов, который использует контекстное разрешение географических объектов.
  • Geoparser.io - Geoparser.io - это веб-сервис, который определяет места, упомянутые в тексте, устраняет неоднозначность этих мест и возвращает GeoJSON с подробными метаданными о местах, найденных в тексте.
  • Geocode.xyz - Geocode.xyz - это веб-сервис, который идентифицирует как названия мест, так и адреса улиц, упомянутые в тексте. [7]
  • geoparsepy - geoparsepy - это бесплатная библиотека геоанализа Python, поддерживающая произвольное определение местоположения текста и устранение неоднозначности с использованием базы данных OpenStreetMap

Ссылки [ править ]

  1. ^ а б ДеЛозье, Йохен Л. (2007). Разрешение топонима в тексте: аннотация, оценка и приложения пространственного заземления (PhD). Эдинбургский университет.
  2. ^ Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации . MIT Press. ISBN 978-0262083546.
  3. ^ Либерман, Майкл Д .; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF) . Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. С. 843–852. DOI : 10.1145 / 2009916.2010029 . CS1 maint: обескураженный параметр ( ссылка )
  4. ^ Либерман, Майкл Д .; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковых новостях (PDF) . Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». С. 731–740. DOI : 10.1145 / 2348283.2348381 . CS1 maint: обескураженный параметр ( ссылка )
  5. ^ a b Камаллоо, Эхсан; Рафией, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов . Материалы конференции World Wide Web 2018. С. 1287–1296. arXiv : 1805.01952 . DOI : 10.1145 / 3178876.3186027 .
  6. ^ ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от географического справочника разрешение топонимов с использованием географических словарных профилей . Труды двадцать девятой конференции AAAI по искусственному интеллекту. С. 2382–2388.
  7. ^ http://perladvent.org/2016/2016-12-16.html

См. Также [ править ]

  • Географическая информационная система
  • Извлечение информации
  • Обработка естественного языка