Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

DBpedia (от «БД» для « база данных ») - это проект, направленный на извлечение структурированного контента из информации, созданной в проекте Википедии . Эта структурированная информация доступна во всемирной паутине . [1] DBpedia позволяет пользователям семантически запрашивать отношения и свойства ресурсов Википедии, включая ссылки на другие связанные наборы данных . [2]

В 2008 году Тим Бернерс-Ли описал DBpedia как одну из самых известных частей децентрализованных связанных данных . [3]

Фон [ править ]

Проект был начат сотрудниками Свободного университета Берлина и Лейпцигского университета [4] в сотрудничестве с OpenLink Software, а сейчас поддерживается людьми из Университета Мангейма и Лейпцигского университета. [5] [6] Первый общедоступный набор данных был опубликован в 2007 году. [4] Данные предоставляются по бесплатным лицензиям ( CC-BY-SA ), что позволяет другим пользователям повторно использовать набор данных; однако он не использует лицензию на открытые данные для отказа от прав на базу данных sui generis .

Статьи Википедии состоят в основном из произвольного текста, но также включают в себя структурированную информацию, встроенную в статьи, например, таблицы « инфобоксов » (выдвижные панели, которые появляются в правом верхнем углу стандартного представления многих статей Википедии или в начале на мобильные версии ), информационные категоризации, изображения, географические координаты и ссылки на внешние веб - страницы . Эта структурированная информация извлекается и помещается в единый набор данных, который можно запрашивать.

Набор данных [ править ]

В выпуске набора данных DBpedia за 2016-04 гг. Описывается 6,0 млн объектов, из которых 5,2 млн классифицированы в единой онтологии , включая 1,5 млн человек, 810 тыс. Мест, 135 тыс. Музыкальных альбомов, 106 тыс. Фильмов, 20 тыс. Видеоигр, 275 тыс. Организаций, 301 тыс. видов и 5к болезней. [7] DBpedia использует структуру описания ресурсов (RDF) для представления извлеченной информации и состоит из 9,5 миллиардов троек RDF, из которых 1,3 миллиарда были извлечены из английской версии Википедии и 5,0 миллиарда из других языковых редакций. [7]

Из этого набора данных можно извлечь информацию, распределенную по нескольким страницам. Например, авторство книги может быть составлено из страниц о произведении или авторе. [ требуется дальнейшее объяснение ]

Одна из проблем при извлечении информации из Википедии заключается в том, что одни и те же концепции могут быть выражены с использованием разных параметров в информационном окне и других шаблонах, таких как |birthplace=и |placeofbirth=. Из-за этого запросы о том, где люди родились, должны будут искать оба этих свойства, чтобы получить более полные результаты. В результате был разработан язык сопоставления DBpedia, который помогает отображать эти свойства в онтологию, сокращая при этом количество синонимов. Из-за большого разнообразия информационных ящиков и свойств, используемых в Википедии, процесс разработки и улучшения этих сопоставлений был открыт для публики. [8]

Версия 2014 была выпущена в сентябре 2014 года. [9] Основным изменением по сравнению с предыдущими версиями стал способ извлечения абстрактных текстов. В частности, запуск локального зеркала Википедии и извлечение из него отрисованных рефератов сделали извлеченные тексты значительно чище. Также был представлен новый набор данных, извлеченный из Wikimedia Commons .

Примеры [ править ]

DBpedia извлекает фактическую информацию со страниц Википедии, позволяя пользователям находить ответы на вопросы, когда информация распределена по нескольким статьям Википедии. Доступ к данным осуществляется с помощью SQL- подобного языка запросов для RDF, называемого SPARQL . Например, представьте, что вас интересует японская серия манги сёдзё Tokyo Mew Mew и вы хотите найти жанры других произведений, написанных ее иллюстратором. DBpedia объединяет информацию из статей Википедии о Tokyo Mew Mew , Mia Ikumi и о таких произведениях, как Super Doll Licca-chan и Koi Cupid.. Поскольку DBpedia нормализует информацию в единую базу данных, следующий запрос может быть задан без необходимости точно знать, какая запись несет каждый фрагмент информации, и будут перечислены связанные жанры:

PREFIX  dbprop :  <http://dbpedia.org/ontology/> PREFIX  дБ :  <http://dbpedia.org/resource/> ВЫБРАТЬ  кто? ,  WORK? ,  Жанр?  ГДЕ  {  дб : Tokyo_Mew_Mew  dbprop : автор  ? Кто  .  ? РАБОТА  dbprop : автор  ? Кто  .  ДОПОЛНИТЕЛЬНО  {  ? WORK  dbprop : genre  ?  Genre }  . }

Сценарии использования [ править ]

DBpedia имеет широкий спектр организаций, охватывающих различные области человеческих знаний. Это делает его естественным центром для подключения наборов данных, где внешние наборы данных могут связываться с его концепциями. [10] Набор данных DBpedia взаимосвязан на уровне RDF с различными другими наборами данных открытых данных в Интернете. Это позволяет приложениям дополнять данные DBpedia данными из этих наборов данных. По состоянию на сентябрь 2013 года существует более 45 миллионов взаимосвязей между DBpedia и внешними наборами данных, включая Freebase , OpenCyc , UMBEL , GeoNames , MusicBrainz , CIA World Fact Book , DBLP , Project Gutenberg., DBtune Jamendo , Eurostat , UniProt , Bio2RDF и данные переписи населения США . [11] [12] Thomson Reuters инициатива OpenCalais , связанный проект Open Data из The New York Times , то API Zemanta и DBpedia Spotlight также включают в себя ссылку на DBpedia. [13] [14] [15] BBC использует DBpedia , чтобы помочь организовать его содержание. [16] [17] Faviki использует DBpedia для семантических тегов. [18] Samsung также включает DBpedia в«Платформа обмена знаниями» .

Такой богатый источник структурированных междоменных знаний является благодатной почвой для систем искусственного интеллекта . DBpedia использовалась как один из источников знаний в IBM Watson 's Jeopardy! выигрышная система [19]

Amazon предоставляет общедоступный набор данных DBpedia, который можно интегрировать в приложения Amazon Web Services . [20]

Данные о создателях из DBpedia можно использовать для обогащения наблюдений за продажами произведений искусства. [21]

Краудсорсинг программного обеспечения компания, Ushahidi , построил прототип своего программного обеспечения , которое использовало DBpedia для выполнения семантических аннотаций на гражданин сгенерированных отчетов. Прототип включал в себя службу «YODIE» (еще одна система извлечения информации из открытых данных) [22], разработанную Университетом Шеффилда , которая использует DBpedia для выполнения аннотаций. Целью Ushahidi было повысить скорость и удобство проверки входящих отчетов. [23]

DBpedia Spotlight [ править ]

DBpedia Spotlight - это инструмент для аннотирования упоминаний ресурсов DBpedia в тексте. Это позволяет связать источники неструктурированной информации с облаком связанных открытых данных через DBpedia. DBpedia Spotlight выполняет извлечение именованных сущностей , включая обнаружение сущностей и разрешение имен (другими словами, устранение неоднозначности). Его также можно использовать для распознавания именованных сущностей и других задач извлечения информации . DBpedia Spotlight стремится быть настраиваемым для многих случаев использования. Вместо того, чтобы сосредоточиться на нескольких типах сущностей, проект стремится поддерживать аннотацию всех 3,5  миллионов сущностей и концепций из более чем 320 классов в DBpedia. Проект стартовал в июне 2010 г.Группа веб-систем в Свободном университете Берлина.

DBpedia Spotlight является общедоступным веб-сервисом для тестирования и API Java / Scala, лицензируемым по лицензии Apache . Дистрибутив DBpedia Spotlight включает плагин jQuery, который позволяет разработчикам аннотировать страницы в любом месте Интернета, добавляя одну строку на свои страницы. [24] Также доступны клиенты на Java или PHP . [25] Инструмент поддерживает различные языки посредством демонстрационной страницы [26] и веб-сервисов. Интернационализация поддерживается для любого языка, на котором есть версия Википедии. [27]

История [ править ]

DBpedia была основана в 2007 году Сереном Ауэром , Кристианом Бизером , Георгием Кобиларовым , Йенсом Леманном , Ричардом Циганиаком и Закари Айвсом . [4]

См. Также [ править ]

  • BabelNet
  • Semantic MediaWiki
  • Викиданные

Ссылки [ править ]

  1. ^ Бизер, Кристиан; Леманн, Йенс; Кобиларов, Георгий; Ауэр, Сорен; Беккер, Кристиан; Cyganiak, Ричард; Хеллманн, Себастьян (сентябрь 2009 г.). «DBpedia - точка кристаллизации Интернета данных» (PDF) . Веб-семантика: наука, услуги и агенты во всемирной паутине . 7 (3): 154–165. CiteSeerX  10.1.1.150.4898 . DOI : 10.1016 / j.websem.2009.07.002 . ISSN  1570-8268 . Архивировано из оригинального (PDF) 10 августа 2017 года . Дата обращения 11 декабря 2015 .
  2. ^ «Komplett verlinkt - Связанные данные» (на немецком языке). 3сб . 19 июня 2009 года Архивировано из оригинала 6 января 2013 года . Проверено 10 ноября 2009 года .
  3. ^ «Сэр Тим Бернерс-Ли беседует с Талис о семантической сети» . Талис. 7 февраля 2008 года Архивировано из оригинала 10 мая 2013 года .
  4. ^ a b c DBpedia: ядро ​​для сети открытых данных , доступно по адресу [1] , [2] или [3]
  5. ^ «Кредиты» . DBpedia. Архивировано из оригинального 21 сентября 2014 года . Проверено 9 сентября 2014 года .
  6. ^ https://wiki.dbpedia.org/about/dbpedia-community
  7. ^ a b «ДА! Мы сделали это снова;) - Новый релиз DBpedia 2016-04» . DBpedia. 19 октября 2016 . Проверено 9 января 2019 .
  8. ^ "Сопоставления DBpedia" . mappings.dbpedia.org . Проверено 3 апреля 2010 года .
  9. ^ "Список изменений" . DBpedia. Сентябрь 2014 . Проверено 9 сентября 2014 года .
  10. ^ E. Карри, А. Фрейтас, С. O'Riáin, «Роль сообщества Driven курирование данных для предприятий,» архивации 23 января 2012 в Wayback Machine в Linking Enterprise Data, Д. Вуд, Ed. Бостон, Массачусетс: Springer US, 2010, стр. 25-47.
  11. ^ «Статистика по связям между наборами данных» , SWEO Community Project: Linking Open Data on the Semantic Web , W3C , получено 24 ноября 2009 г.
  12. ^ "Статистика наборов данных" , SWEO Community Project: Linking Open Data on the Semantic Web , W3C , получено 24 ноября 2009 г.
  13. ^ Сандхаус, Эван; Ларсон, Роб (29 октября 2009 г.). «Первые 5000 тегов выпущены в облако связанных данных» . Блоги New York Times . Проверено 10 ноября 2009 года .
  14. ^ «Жизнь в облаке связанных данных» . opencalais.com. Архивировано из оригинального 24 ноября 2009 года . Проверено 10 ноября 2009 года . В Википедии есть двойник связанных данных под названием DBpedia. DBpedia имеет ту же структурированную информацию, что и Википедия, но переведена в машиночитаемый формат.
  15. ^ «Земанта говорит о связанных данных с SDK и коммерческим API» . ZDNet. Архивировано из оригинального 28 февраля 2010 года . Проверено 10 ноября 2009 года . Земанта полностью поддерживает инициативу Linking Open Data. Это первый API, который возвращает неоднозначные объекты, связанные с dbPedia, Freebase, MusicBrainz и Semantic Crunchbase.
  16. ^ «Европейская конференция семантической паутины 2009 - Георгий Кобиларов, Том Скотт, Ив Раймонд, Сильвер Оливер, Крис Сайзмор, Майкл Сметерст, Кристиан Бизер и Роберт Ли. Медиа встречает семантическую сеть - Как BBC использует DBpedia и связанные данные для установления соединений» . eswc2009.org. Архивировано из оригинала 8 июня 2009 года . Проверено 10 ноября 2009 года .
  17. ^ «BBC Learning - Открытая лаборатория - Справочник» . BBC. Архивировано из оригинального 25 августа 2009 года . Проверено 10 ноября 2009 года . Dbpedia - это версия базы данных Википедии. Он используется во многих проектах по разным причинам. На BBC мы используем его для маркировки контента.
  18. ^ «Семантическая маркировка с помощью Faviki» . readwriteweb.com. Архивировано из оригинального 29 января 2010 года.
  19. Дэвид Ферруччи, Эрик Браун, Дженнифер Чу-Кэрролл, Джеймс Фан, Дэвид Гондек, Адитья А. Калянпур, Адам Лалли, Дж. Уильям Мердок, Эрик Ниберг, Джон Прагер, Нико Шлафер и Крис Велти "Building Watson: Обзор проект DeepQA ". В журнале AI Magazine Fall, 2010. Ассоциация по развитию искусственного интеллекта (AAAI).
  20. ^ «Сообщество разработчиков веб-сервисов Amazon: DBpedia» . developer.amazonwebservices.com. Архивировано из оригинального 13 февраля 2010 года . Проверено 10 ноября 2009 года .
  21. ^ Филипьяк, Доминик; Филиповска, Агата (2 декабря 2015 г.). DBpedia на арт-рынке . Семинары по системам бизнес-информации. BIS 2015 . Конспект лекций по обработке деловой информации. 228 . С. 321–331. DOI : 10.1007 / 978-3-319-26762-3_28 . ISBN 978-3-319-26761-6.
  22. ^ "GATE.ac.uk - приложения / yodie.html" . gate.ac.uk . Дата обращения 11 мая 2020 .
  23. ^ "ушахиди / платформеры товарищи" . GitHub . Дата обращения 9 марта 2020 .
  24. ^ Мендес, Пабло. "Плагин jQuery DBpedia Spotlight" . Плагины jQuery . Проверено 15 сентября 2011 года .
  25. ^ DiCiuccio, Rob (25 сентября 2016). «Клиент PHP для DBpedia Spotlight» . GitHub .
  26. ^ "Демо DBpedia Spotlight" . Проверено 8 сентября 2013 года .
  27. ^ "Интернационализация DBpedia Spotlight" . Проверено 8 сентября 2013 года .

Внешние ссылки [ править ]

  • Официальный веб-сайт