Разрешение топонима

В географических информационных системах , разрешение топонима является процесс отношения между топонимом , т.е. упоминание о месте, и однозначный пространственный след того же место. ^[1]

Те же географические названия исторически использовались поселенцами-эмигрантами для обозначения своих новых домов, что приводило к неоднозначности названий мест. Иногда оригинальное имя изменяется (например, «Йорк» против «Нью-Йорк»). Во многих случаях имя используется повторно без изменений («Бостон» в Англии, Великобритании против «Бостон» в Массачусетсе, США). Чтобы сопоставить набор географических названий или топонимов, которые встречаются в документе, с их соответствующими координатами широты / долготы , многоугольником или любым другим пространственным следом, необходим шаг устранения неоднозначности. Алгоритм разрешения топонима - это автоматический метод, который выполняет сопоставление топонима с пространственным следом.

Большинство методов разрешения топонимов используют географический справочник возможных сопоставлений между именами и пространственными следами. ^[2]

Процесс разрешения [ править ]

Определение «однозначный пространственный след одного и того же места» ^[1] может быть на самом деле однозначным или «не столь однозначным». Существует несколько различных контекстов неопределенности, в которых может происходить процесс разрешения:

Когда доказательства географические и не вызывают сомнений. Например, чтобы получить название страны для места фотографии, когда это место является местоположением GPS (ошибка 10 метров), на расстоянии 1000 км от границ страны.
Когда доказательства географические, но со значительной неопределенностью. Представьте себе аналогичный сценарий, где ошибка GPS составляет 100 метров, а место находится недалеко от границы страны, примерно на 100 метров.
Когда доказательства только текстовые. Представьте себе письмо, в котором рассказчик - турист, рассказывающий о своей поездке после возвращения из отпуска. Единственные свидетельства - текстовые, в повествовании.
Смешанные источники доказательств: более одного доказательства, ни одного точного.

Из географических свидетельств [ править ]

Разрешение топонима иногда представляет собой простое преобразование названия в аббревиатуру, особенно когда аббревиатура используется в качестве стандартного геокода . Например, преобразование официального названия страны Афганистана в код ISO страны , AF.

При аннотировании медиа и метаданных преобразование с использованием карты и географических свидетельств (например, GPS) является наиболее обычным подходом для получения топонима или геокода, который представляет топоним.

Из текстовых свидетельств [ править ]

В отличие от геокодирования почтовых адресов, которые обычно хранятся в структурированных записях базы данных, разрешение топонимов обычно применяется к большим коллекциям неструктурированных текстовых документов, чтобы связать упомянутые в них местоположения с картами.

Процесс аннотирования медиа (например, изображения, текста, видео) с использованием пространственных следов известен как Geotagging . Для автоматической геотеги текстового документа обычно предпринимаются следующие шаги: распознавание топонима (т. Е. Определение текстовых ссылок на географические местоположения) и разрешение топонима (т. Е. Выбор соответствующей интерпретации местоположения для каждой географической ссылки).

Распознавание топонимов можно рассматривать как частный случай распознавания именованных объектов, когда цель состоит в том, чтобы просто получить объекты местоположения. Однако результат распознавания именованных сущностей можно улучшить с помощью правил, созданных вручную, или статистических правил. ^[3]

Для получения интерпретации местоположения в моделях разрешения обычно используются географические справочники (т. Е. Огромные базы данных местоположений), такие как GeoNames и OpenStreetMap . Наивный подход к разрешению топонимов - выбрать наиболее популярную интерпретацию из списка кандидатов. Например, в следующем отрывке:

Мужчина из Торонто, живущий и работающий в Лондоне, `` не уверен в будущем '' в Великобритании после Брексита
- CBC

Наивный подход кажется жизнеспособным, поскольку топонимы Торонто и Лондон относятся к их наиболее распространенной интерпретации, расположенной в Канаде и Великобритании соответственно, тогда как в следующем фрагменте из новостной статьи:

Высокоскоростная железная дорога между Торонто и Лондоном к 2025 году
- CBC

Такой подход не позволяет точно определить топоним Лондон как город, расположенный в Онтарио, Канада . Следовательно, выбор самой высокой совокупности не может хорошо работать для топонимов в локализованном контексте.

Кроме того, разрешение топонимов не затрагивает метонимию в целом. Тем не менее, метод разрешения все еще может устранить неоднозначность метонимической ссылки, если она идентифицирована как топоним на этапе распознавания. Например, в следующем отрывке:

Канада также корректирует свои законы о дорожном движении с учетом DUI каннабиса.
- Эсквайр

Канада указывает на метонимию и относится к «правительству Канады». Однако его можно определить как местоположение с помощью универсального распознавателя именованных сущностей, и, таким образом, преобразователь топонимов может устранить неоднозначность.

Подходы [ править ]

Методы разрешения топонимов в целом можно разделить на контролируемые и неконтролируемые модели. Контролируемые методы обычно рассматривают проблему как задачу обучения, в которой модель сначала извлекает контекстные и неконтекстные функции, а затем классификатор обучается на помеченном наборе данных. Адаптивная модель ^[4]является одной из выдающихся моделей, предлагаемых при разрешении топонимов. Для каждой интерпретации топонима модель выводит контекстно-зависимые характеристики, основанные на географической близости и родственных отношениях с другими интерпретациями. В дополнение к функциям, связанным с контекстом, модель извлекает выгоду из функций, не зависящих от контекста, включая численность населения и местоположение аудитории. С другой стороны, неконтролируемые модели не требуют аннотированных данных. Они превосходят контролируемые модели, когда аннотированный корпус недостаточно велик, а контролируемые модели могут плохо обобщаться. ^[5]

Неконтролируемые модели, как правило, лучше используют взаимодействие топонимов, упомянутых в документе. Модель Context-Hierarchy Fusion ^[5] оценивает географический охват документов и использует связи между ближайшими географическими названиями в качестве свидетельства для определения топонимов. Посредством сопоставления проблемы с проблемой бесконфликтного покрытия эта модель обеспечивает согласованное и надежное решение.

Кроме того, использование Википедии и баз знаний доказало свою эффективность в разрешении топонимов. TopoCluster ^[6] моделирует географическое значение слов, включая страницы местоположений в Википедии, и устраняет неоднозначность топонимов, используя пространственные значения слов в тексте.

Геопарсинг [ править ]

Геопарсинг - это специальный процесс разрешения топонимов, заключающийся в преобразовании текстовых описаний мест (например, «двадцать миль к северо-востоку от Джелалабада») в однозначные географические идентификаторы, такие как географические координаты, выраженные как широта - долгота . Можно также геоанализировать ссылки на местоположение из других форм мультимедиа, например аудиоконтент, в котором говорящий упоминает место. С помощью географических координат объекты могут быть нанесены на карту и введены в географические информационные системы . Два основных использования географических координат, полученных из неструктурированного контента, - это нанесение частей контента на карты и поиск контента с использованием карты в качестве фильтра.

Геопарсинг выходит за рамки геокодирования . Геокодирование анализирует однозначно структурированные ссылки на местоположения, такие как почтовые адреса и строго отформатированные числовые координаты. Geoparsing обрабатывает неоднозначные ссылки в неструктурированном дискурсе, например «Аль-Хамра», что является названием нескольких мест, включая города в Сирии и Йемене.

Geoparser является частью программного обеспечения или (веб) службы , которая помогает в этом процессе. Несколько примеров:

Автоматическая геопривязка GEOLocate
BioGeomancer - полуавтоматическая геопривязка
Сервер имен GEOnet - свободно доступная ГИС-информация для регионов за пределами США и Антарктиды, ежемесячно обновляемая Национальным агентством геопространственной разведки (NGA) и Советом США по географическим названиям (US BGN)
Информационная система географических названий (GNIS) - свободно доступная база данных, содержащая информацию почти о 2 миллионах физических объектов, мест и ориентиров в США.
CLAVIN - CLAVIN (Cartographic Location And Vicinity INdexer) - это программный пакет с открытым исходным кодом для геотегирования и геоанализа документов, который использует контекстное разрешение географических объектов.
Geoparser.io - Geoparser.io - это веб-сервис, который определяет места, упомянутые в тексте, устраняет неоднозначность этих мест и возвращает GeoJSON с подробными метаданными о местах, найденных в тексте.
Geocode.xyz - Geocode.xyz - это веб-сервис, который идентифицирует как названия мест, так и адреса улиц, упомянутые в тексте. ^[7]
geoparsepy - geoparsepy - это бесплатная библиотека геоанализа Python, поддерживающая произвольное определение местоположения текста и устранение неоднозначности с использованием базы данных OpenStreetMap

Ссылки [ править ]

^ а б ДеЛозье, Йохен Л. (2007). Разрешение топонима в тексте: аннотация, оценка и приложения пространственного заземления (PhD). Эдинбургский университет.
^ Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации . MIT Press. ISBN 978-0262083546.
^ Либерман, Майкл Д .; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF) . Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. С. 843–852. DOI : 10.1145 / 2009916.2010029 . CS1 maint: обескураженный параметр ( ссылка )
^ Либерман, Майкл Д .; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковых новостях (PDF) . Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». С. 731–740. DOI : 10.1145 / 2348283.2348381 . CS1 maint: обескураженный параметр ( ссылка )
^ a b Камаллоо, Эхсан; Рафией, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов . Материалы конференции World Wide Web 2018. С. 1287–1296. arXiv : 1805.01952 . DOI : 10.1145 / 3178876.3186027 .
^ ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от географического справочника разрешение топонимов с использованием географических словарных профилей . Труды двадцать девятой конференции AAAI по искусственному интеллекту. С. 2382–2388.
^ http://perladvent.org/2016/2016-12-16.html

См. Также [ править ]

Географическая информационная система
Извлечение информации
Обработка естественного языка

[leidner2008toponym-1] а б ДеЛозье, Йохен Л. (2007). Разрешение топонима в тексте: аннотация, оценка и приложения пространственного заземления (PhD). Эдинбургский университет.

[hill2009georeferencing-2] Хилл, Линда Л. (2006). Географическая привязка: географические ассоциации информации . MIT Press. ISBN 978-0262083546.

[lieberman2011multifaceted-3] Либерман, Майкл Д .; Самет, Ханан (2011). Многогранное распознавание топонимов для потоковой передачи новостей (PDF) . Материалы 34-й международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. С. 843–852. DOI : 10.1145 / 2009916.2010029 . CS1 maint: обескураженный параметр ( ссылка )

[lieberman2012adaptive-4] Либерман, Майкл Д .; Самет, Ханан (2012). Адаптивные контекстные функции для разрешения топонимов в потоковых новостях (PDF) . Материалы 35-й международной конференции ACM SIGIR «Исследования и разработки в области информационного поиска». С. 731–740. DOI : 10.1145 / 2348283.2348381 . CS1 maint: обескураженный параметр ( ссылка )

[kamalloo2018coherent-5] Камаллоо, Эхсан; Рафией, Давуд (2018). Последовательная неконтролируемая модель разрешения топонимов . Материалы конференции World Wide Web 2018. С. 1287–1296. arXiv : 1805.01952 . DOI : 10.1145 / 3178876.3186027 .

[delozier2015gazetteer-6] ДеЛозье, Грант; Болдридж, Джейсон; Лондон, Лоретта (2015). Независимое от географического справочника разрешение топонимов с использованием географических словарных профилей . Труды двадцать девятой конференции AAAI по искусственному интеллекту. С. 2382–2388.

[7] ttp://perladvent.org/2016/2016-12-16.html

[1]