Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Викиданные - это совместно редактируемый многоязычный граф знаний, созданный Фондом Викимедиа . Это общий источник открытых данных, которые проекты Викимедиа, такие как Википедия , [2] [3] и все остальные, могут использовать в соответствии с лицензией общественного достояния CC0 . Викиданные работают на программном обеспечении Wikibase . [4]

Концепция [ править ]

На этой диаграмме показаны наиболее важные термины, используемые в Викиданных.

Викиданные - это база данных , ориентированная на документы , ориентированная на элементы, которые представляют темы, концепции или объекты. Каждому элементу присваивается уникальный постоянный идентификатор , положительное целое число с префиксом заглавной буквы Q, известное как « QID ». Это позволяет переводить основную информацию, необходимую для определения темы, охватываемой элементом, без предпочтения какого-либо языка.

Примеры предметов: Летние Олимпийские игры 1988 года (Q8470) , Любовь (Q316) , Элвис Пресли (Q303) и Горилла (Q36611) .

Ярлыки предметов не обязательно должны быть уникальными. Например, есть два объекта с названием «Элвис Пресли»: Элвис Пресли (Q303) представляет американского певца и актера , а Элвис Пресли (Q610926) представляет его одноименный альбом .

Но этикетка и текст описания должны быть уникальными вместе. Итак, Предмет связан с уникальным идентификатором ( QID ). Идентификатор связан с парой: метка и описание, чтобы устранить любую двусмысленность.

Типы элементов - общие и лексемы.

Основные части [ править ]



Макет четырех основных компонентов страницы Викиданных фазы 1: метка, описание, псевдонимы и межъязыковые ссылки.

По сути, предмет состоит из:

  • Обязательно идентификатор (QID), связанный с меткой и описанием.
  • Необязательно, несколько псевдонимов и некоторое количество операторов (а также их свойств и значений).

Заявления [ править ]

Три утверждения из статьи Викиданных о планете Марс (Q111). Значения включают ссылки на другие объекты и на Wikimedia Commons .

Заявления - это то, как любая информация, известная об элементе, записывается в Викиданные. Формально они состоят из пар « ключ-значение» , которые соответствуют свойству (например, «автор» или «дата публикации») с одним или несколькими значениями объекта (например, « Сэр Артур Конан Дойл » или «1902»). Например, неофициальное английское утверждение «молоко белое» будет закодировано утверждением, в котором цвет свойства (P462) сочетается со значением white (Q23444) под элементом « молоко» (Q8495) .

Операторы могут отображать свойство более чем на одно значение. Например, свойство «профессия» для Марии Кюри может быть связано со значениями «физик» и «химик», чтобы отразить тот факт, что она занималась обеими профессиями. [5]

Значения могут принимать разные типы, включая другие элементы Викиданных, строки, числа или мультимедийные файлы. Свойства определяют, с какими типами значений они могут быть связаны. Например, официальный сайт собственности (P856) может быть связан только со значениями типа «URL». [6]

Собственность и стоимость [ править ]

Пример простого оператора, состоящего из одной пары свойство-значение

Метод структурирования данных Викиданных включает в себя два основных элемента: свойства и значения этих свойств (называемых «элементами» в терминологии Викиданных). [7] [8]

Свойство описывает значение данных утверждения и может рассматриваться как категория данных, например, цвет (P462) для значения данных, синий (Q1088) или образование для элемента «человек».

Как уже говорилось, свойства в сочетании со значениями образуют утверждение в Викиданных. Значения могут включать квалификаторы.

Наиболее часто используемым свойством является экземпляр (P31) , который используется на более чем 95 000 000 страниц с элементами. [9]

У свойств есть свои собственные страницы в Викиданных, и поскольку элемент может включать несколько свойств, это приводит к связанной структуре данных страниц в рамках одного и того же утверждения.

Свойства могут также определять более сложные правила их предполагаемого использования, называемые ограничениями . Например, свойство столицы (P36) включает «ограничение единственного значения», отражающее реальность того, что (обычно) территории имеют только одну столицу. Ограничения рассматриваются как предупреждения и подсказки тестирования, а не как незыблемые правила. [10]

Необязательно, квалификаторы могут использоваться для уточнения значения оператора, предоставляя дополнительную информацию, которая применяется к области действия оператора в пределах значений. Например, свойство «совокупность» можно изменить с помощью квалификатора, такого как «по состоянию на 2011 год». Значения в операторах также могут быть аннотированы ссылками , указывающими на источник, поддерживающий содержимое оператора. [11]

Лексемы [ править ]

В лингвистике лексема - это единица лексического значения. Точно так же лексемы Викиданных - это элементы со структурой, которая делает их более подходящими для хранения лексикографических данных. Помимо хранения языка, к которому относится лексема, в них есть раздел для форм и раздел для смыслов . [12]

Развитие [ править ]

Создание проекта финансировалось за счет пожертвований Института искусственного интеллекта Аллена , Фонда Гордона и Бетти Мур и Google Inc. на общую сумму 1,3 миллиона евро . [13] [14] Разработкой проекта в основном занимается Wikimedia Deutschland под управлением Лидии Пинцер , и изначально он был разделен на три этапа: [15]

  1. Централизация межъязыковых ссылок - ссылки между статьями Википедии на одну и ту же тему на разных языках.
  2. Обеспечивает центральное место для данных инфобокса для всех Википедий.
  3. Создание и обновление статей списков на основе данных в Викиданных и ссылки на другие родственные проекты Викимедиа, включая Мета-Вики и собственные Викиданные (межвикилинки).

Первоначальное внедрение [ править ]

Викиданные были запущены 29 октября 2012 года и были первым новым проектом Фонда Викимедиа с 2006 года. [2] [16] [17] В то время была доступна только централизация языковых ссылок. Это позволило создавать элементы и заполнять их основной информацией: метка - имя или заголовок, псевдонимы - альтернативные термины для метки, описание и ссылки на статьи по теме во всех различных языковых редакциях Википедии (ссылки на интервикипедии) .

Исторически статья Википедии должна включать список межъязыковых ссылок , являющихся ссылками на статьи по той же теме в других редакциях Википедии, если они существуют. Изначально Викиданные были автономным хранилищем межъязыковых ссылок. [18] Языковые редакции Википедии все еще не могли получить доступ к Викиданным, поэтому им нужно было продолжать поддерживать свои собственные списки межъязыковых ссылок, в основном в конце страниц статей. [ необходима цитата ]

14 января 2013 года венгерская Википедия стала первой, которая позволила предоставлять межъязыковые ссылки через Викиданные. [19] Эта функциональность была расширена на ивритскую и итальянскую Википедии 30 января, на английскую Википедию 13 февраля и на все остальные Википедии 6 марта. [20] [21] [22] [23] После того, как консенсус не был достигнут по предложению ограничить удаление языковых ссылок из английской Википедии, [24] право удалить их из английской Википедии было предоставлено автоматическим редакторам ( боты ). 23 сентября 2013 г. межъязыковые ссылки были размещены на Wikimedia Commons.[25]

Заявления и доступ к данным [ править ]

4 февраля 2013 г. в записи Викиданных были добавлены утверждения. Возможные значения свойств изначально были ограничены двумя типами данных (элементы и изображения на Wikimedia Commons), а позже появилось больше типов данных (например, координаты и даты). Первый новый тип - струна - был спущен на воду 6 марта. [26]

Возможность доступа к данным из Викиданных для различных языковых редакций Википедии постепенно расширялась с 27 марта по 25 апреля 2013 года. [27] [28]

16 сентября 2015 года Викиданные начали разрешать так называемый произвольный доступ или доступ из определенного элемента Викиданных к свойствам элементов, не связанных напрямую с ним. Например, из берлинской статьи стало возможным читать данные о Германии, что раньше было невозможно. [29] 27 апреля 2016 г. на Викискладе был активирован произвольный доступ . [30]

Согласно исследованию 2020 года, большая часть данных в Викиданных состоит из записей, массово импортируемых из других баз данных интернет-ботами , что помогает «ломать [] стены» хранилищ данных . [31]

Служба запросов и другие улучшения [ править ]

7 сентября 2015 года Фонд Викимедиа объявил о выпуске службы запросов к Викиданным [32], которая позволяет пользователям выполнять запросы к данным, содержащимся в Викиданных. [33] В качестве языка запросов служба использует SPARQL . По состоянию на ноябрь 2018 года существует как минимум 26 различных инструментов, позволяющих запрашивать данные разными способами. [34]

С другой стороны, на боковой панели викисловаря инструменты теперь включают [ когда? ] «элемент Викиданных», помогающий создать новый элемент и ссылки на новые страницы. [ необходима цитата ] Например, это полезно, когда элемент находится только в англоязычном Викисловаре и должен быть связан с другим проектом Викимедиа, а не с Викисловариями на других языках.

Ниже приведен пример SPARQL для поиска экземпляра телесериала (P31) (Q5398426) с основной темой (P921) об острове (Q23442) и авиационной катастрофе (Q744913). Однако аналогичные результаты также можно найти непосредственно в Википедии, используя пересечения категорий, если соответствующие категории существуют и разрешены.

ВЫБЕРИТЕ  ?  Item? ItemLabel WHERE  {  ?  Item wdt : P31  wd : Q5398426 .  ? элемент  wdt : P921  wd : Q23442 .  ? элемент  wdt : P921  wd : Q744913 .  Викибаза СЕРВИСА  : метка { bd : serviceParam wikibase : language "[AUTO_LANGUAGE], en" .} }   

Ниже приведен еще один пример SPARQL, позволяющий найти экземпляр телесериала (P31) (Q5398426), в котором актерский состав (P161) включает Дэниела Дэ Кима (Q299700) и Хорхе Гарсиа (Q264914). Условие телесериала запрещает отображение эпизода телесериала (Q21191270) / эпизода, состоящего из двух частей (Q21664088), и не показывает результатов, которые являются фильмом (Q11424).

ВЫБЕРИТЕ  ?  Item? ItemLabel ГДЕ  {  ?  Item wdt : P31  wd : Q5398426 .  ? Пункт  WDT : P161  Wd : Q299700 .  ? Пункт  WDT : P161  Wd : Q264914 .  Викибаза СЕРВИСА  : метка { bd : serviceParam wikibase : language "[AUTO_LANGUAGE], en" .} }   

[ править ]

Полосы на логотипе содержат слово «WIKI», закодированное азбукой Морзе . [35] Он был создан Аруном Ганешем и выбран по решению сообщества. [36]

Прием [ править ]

В ноябре 2014 года Wikidata получила награду Open Data Publisher Award от Института открытых данных «за масштабность и встроенную открытость». [37]

По состоянию на ноябрь 2018 года информация Викиданных использовалась в 58,4% всех англоязычных статей Википедии , в основном для внешних идентификаторов или координат местоположения. В совокупности, данные из викиданного показаны на 64% всех википедию «страниц, 93% все викигид статей, 34% всех Wikiquotes », 32% всех Wikisources », и 27% Викисклад. Использование в других проектах Фонда Викимедиа является свидетельством. [38]

По состоянию на декабрь 2020 года данные Викиданных визуализировались не менее чем 20 другими внешними инструментами [39], а о Викиданных было опубликовано более 300 статей. [40]

Структурированный набор данных Викиданных использовался виртуальными помощниками, такими как Siri от Apple и Amazon Alexa . [41]

Приложения [ править ]

  • Расширение Mwnci может импортировать данные из Викиданных в электронные таблицы LibreOffice Calc [42]
  • В октябре 2019 года ведутся дискуссии об использовании элементов QID в связи с тем, что называется QID emoji [43]
  • Wiki Explorer - приложение для Android, позволяющее узнавать о том, что вас окружает, и микроредактирование Викиданных [44]
  • KDE Itinerary - помощник по путешествиям с открытым исходным кодом, заботящийся о конфиденциальности и использующий данные из Викиданных [45]

См. Также [ править ]

  • Абстрактная Википедия
  • BabelNet
  • DBpedia
  • Freebase
  • Semantic MediaWiki
  • SPARQL

Ссылки [ править ]

  1. ^ https://blog.wikimedia.org/2013/04/25/the-wikidata-revolution/ ; получено: 14 ноября 2018 г .; цитата: Поскольку Wikidata.org был запущен 30 октября 2012 г. ,.
  2. ^ a b Wikidata ( Архивировано 30 октября 2012 г., на WebCite )
  3. ^ «Data Revolution для Википедии» . Wikimedia Deutschland. 30 марта 2012. Архивировано 11 сентября 2012 года . Проверено 11 сентября 2012 года .
  4. ^ "Wikibase - Home" .
  5. ^ «Справка: Заявления» .
  6. ^ «Справка: тип данных» .
  7. ^ Врандечич, Денни; Крётч, Маркус (октябрь 2014 г.). «Викиданные: бесплатная база знаний для совместной работы» . Коммуникации ACM . 57 (10): 78–85. DOI : 10.1145 / 2629489 . ISSN 0001-0782 . Викиданные Q18507561 .  
  8. ^ Турки, Хусемеддин; Шафи, Томас; Хадж Тайеб, Мохамед Али; Бен Ауича, Мохамед; Врандечич, Денни; Дас, Диптаншу; Хамди, Хельми (23 сентября 2019 г.). «Викиданные: крупномасштабная совместная онтологическая медицинская база данных» . Журнал биомедицинской информатики . 99 : 103292. дои : 10.1016 / J.JBI.2019.103292 . ISSN 1532-0464 . PMID 31557529 . S2CID 203568040 . Викиданные Q68471881 .    
  9. ^ «Викиданные: отчеты по базе данных / Список свойств / Top100» .
  10. ^ «Справка: портал ограничений собственности» .
  11. ^ «Справка: источники» .
  12. ^ "Викиданные - Документация лексикографических данных" .
  13. ^ Dickinson, Boonsri (30 марта 2012). «Пол Аллен инвестирует в масштабный проект по улучшению Википедии» . Business Insider . Проверено 11 сентября 2012 года .
  14. Перес, Сара (30 марта 2012 г.). «Следующая большая вещь Википедии: Викиданные, машиночитаемая и редактируемая пользователем база данных, финансируемая Google, Полом Алленом и другими» . TechCrunch . Архивировано 11 сентября 2012 года . Проверено 11 сентября 2012 года .
  15. ^ «Викиданные - Мета» .
  16. ^ Пинчер, Лидия (30 октября 2012). «wikidata.org работает (с некоторыми оговорками)» . wikidata-l (список рассылки) . Проверено 3 ноября 2012 года .
  17. Рот, Мэтью (30 марта 2012 г.). «Революция данных в Википедии» . Фонд Викимедиа. Архивировано 11 сентября 2012 года . Проверено 11 сентября 2012 года .
  18. ^ Leitch, Томас (1 ноября 2014 г.). Wikipedia U: знания, власть и либеральное образование в эпоху цифровых технологий . Издательство Университета Джона Хопкинса . п. 120 . ISBN 978-1-4214-1550-5.
  19. ^ Пинчер, Лидия (14 января 2013). «Первые шаги Викиданных в венгерской Википедии» . Wikimedia Deutschland . Проверено 17 декабря 2015 года .
  20. ^ Пинчер, Лидия (30 января 2013). «Викиданные появятся в следующих двух Википедиях» . Wikimedia Deutschland . Проверено 31 января 2013 года .
  21. ^ Пинчер, Лидия (13 февраля 2013). «Викиданные живут в английской Википедии» . Wikimedia Deutschland . Проверено 15 февраля 2013 года .
  22. ^ Пинчер, Лидия (6 марта 2013). «Викиданные теперь доступны во всех Википедиях» . Wikimedia Deutschland . Проверено 8 марта 2013 года .
  23. ^ "Wikidata ist für alle Wikipedien da" (на немецком языке). Golem.de . Проверено 29 января 2014 .
  24. ^ "Обсуждение Википедии: Викиданные интервики RFC" . 29 марта 2013 . Проверено 30 марта 2013 года .
  25. ^ Пинчер, Лидия (23 сентября 2013). "Викиданные уже здесь!" . Commons: Деревенский насос .
  26. ^ Пинчер, Лидия. «Викиданные / Обновления статуса / 2013 03 01» . Викимедиа Мета-Вики . Фонд Викимедиа . Проверено 3 марта 2013 года .
  27. ^ Пинчер, Лидия (27 марта 2013). "Вы можете получить все данные!" . Wikimedia Deutschland . Проверено 28 марта 2013 года .
  28. ^ «Викиданные становятся доступными по всему миру» . H. 25 апреля 2013. Архивировано из оригинала на 1 января 2014 года.
  29. Лидия, Пинчер (16 сентября 2015 г.). «Викиданные: здесь есть доступ к данным из произвольных элементов» . Википедия: Деревенский насос (технический) . Проверено 30 августа 2016 .
  30. Лидия, Пинчер (27 апреля 2016 г.). «Поддержка Викиданных: произвольный доступ здесь» . Commons: Деревенский насос . Проверено 30 августа 2016 .
  31. ^ Waagmeester, Андра; Ступп, Грегори; Бургшталлер-Мюльбахер, Себастьян; и другие. (17 марта 2020 г.). «Викиданные как граф знаний для наук о жизни» . eLife . 9 . DOI : 10.7554 / ELIFE.52614 . ISSN 2050-084X . PMC 7077981 . PMID 32180547 . Викиданные Q87830400 .    
  32. ^ https://query.wikidata.org/
  33. ^ «Объявление о выпуске службы запросов Викиданных» .
  34. ^ "Инструменты данных запросов Викиданных" .
  35. ^ Commons: Обсуждение файлов: Wikidata-logo-en.svg # Hybrid . Проверено 6 октября 2016.
  36. ^ https://blog.wikimedia.de/2012/07/13/und-der-gewinner-ist/
  37. ^ "Первая награда ODI Open Data Awards, представленная сэрами Тимом Бернерс-Ли и Найджелом Шедболтом" . Архивировано из оригинального 24 марта 2016 года.
  38. ^ «Процент статей, использующих данные из Викиданных» .
  39. ^ «Инструменты Викиданных - Визуализируйте данные» .
  40. ^ "Схолия - Викиданные" .
  41. ^ Simonite, Том (18 февраля 2019). «Внутри дружественного к Alexa мира Викиданных» . Проводной . ISSN 1059-1028 . Проверено 25 декабря 2020 года . 
  42. ^ Роб Барри / Mwnci - Глубокие таблицы · GitLab
  43. ^ «Вопросы общественного обзора» .
  44. ^ Wiki Explorer в магазине Google Play
  45. Krause, Volker, KDE Itinerary - Privacy by Design Travel Assistant , получено 10 ноября 2020 г.

Дальнейшее чтение [ править ]

  • Марк Грэм (6 апреля 2012 г.), «Проблема с Викиданными» , The Atlantic , США
  • Клаудиа Мюллер-Бирн, Бенджамин Карран, Джанетт Леманн, Маркус Лучак-Рёш: Система взаимного производства или совместная разработка онтологий: что такое Викиданные? In, OpenSym 2015 - Конференция по открытому сотрудничеству, Сан-Франциско, США, 19–21 августа 2015 г. (препринт).

Внешние ссылки [ править ]

  • Официальный сайт ( мобильный )
  • Видео: WikidataCon на media.ccc.de