DBpedia


DBpedia (от «DB» для « базы данных ») — это проект, целью которого является извлечение структурированного контента из информации, созданной в проекте Wikipedia . Эта структурированная информация доступна во всемирной паутине . [1] DBpedia позволяет пользователям семантически запрашивать отношения и свойства ресурсов Википедии, включая ссылки на другие связанные наборы данных . [2]

В 2008 году Тим Бернерс-Ли описал DBpedia как одну из самых известных частей децентрализованных усилий по связанным данным . [3]

Проект был начат людьми из Свободного университета Берлина и Лейпцигского университета [4] в сотрудничестве с OpenLink Software, и в настоящее время поддерживается людьми из Университета Мангейма и Лейпцигского университета. [5] [6] Первый общедоступный набор данных был опубликован в 2007 году. [4] Данные доступны по бесплатным лицензиям ( CC-BY-SA ), что позволяет другим повторно использовать набор данных; однако он не использует лицензию на открытые данные для отказа от прав на базу данных sui generis .

Статьи Википедии состоят в основном из произвольного текста, но также включают в себя структурированную информацию, встроенную в статьи, например таблицы « информационные поля » (выдвижные панели, которые появляются в правом верхнем углу экрана по умолчанию во многих статьях Википедии или в начале страницы). мобильные версии ), информацию о категориях, изображения, геокоординаты и ссылки на внешние веб-страницы . Эта структурированная информация извлекается и помещается в единый набор данных, который можно запрашивать.

Выпуск набора данных DBpedia за 2016-04 гг. описывает 6,0 млн сущностей, из которых 5,2 млн классифицированы в последовательной онтологии , включая 1,5 млн человек, 810 тыс. мест, 135 тыс. музыкальных альбомов, 106 тыс. фильмов, 20 тыс. видеоигр, 275 тыс. организаций, 301 тыс. видов и 5к болезней. [7] DBpedia использует структуру описания ресурсов (RDF) для представления извлеченной информации и состоит из 9,5 миллиардов троек RDF , из которых 1,3 миллиарда были извлечены из английской версии Википедии и 5,0 миллиарда из других языковых изданий. [7]

Из этого набора данных можно извлечь информацию, разбросанную по нескольким страницам. Например, авторство книги можно составить из страниц о произведении или авторе. [ требуются дополнительные пояснения ]