Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Видео Резюме предложения [ править ]

На YouTube .

Введение [ править ]

Предлагаемый проект направлен на расширение и систематизацию использования идентификаторов авторитетного контроля с использованием шаблона {{ Authority control }} в англоязычных статьях Википедии. Авторитетный контроль - это термин в библиотечном деле, архивной практике и смежных областях для уникальных идентификаторов для устранения неоднозначности объектов (людей, мест, академических предметов и т. Д.). Эти области исследований имеют различные концепции уникальных идентификаторов по сравнению с некоторыми другими областями, потому что многие существующие системы обратно совместимы с системами до компьютеризации. Этот проект направлен на то, чтобы связать английскую Википедию с этим длинным хвостом идентификаторов.

Текущее предложение сосредоточено на биографиях, хотя в будущем оно может быть расширено для охвата других тем, и построено на использовании данных из VIAF , составной системы, объединяющей несколько основных авторитетных файлов. VIAF алгоритмически сопоставляет и группирует записи из отдельных авторитетных файлов и использует данные, извлеченные из Википедии, для облегчения процесса; в результате уже было выявлено большое количество согласованных пар Википедия-VIAF, и это обеспечивает очень эффективный плацдарм для работы.

Предложение было изначально написано здесь и обсуждалось на Village Pump . С тех пор он был обновлен, чтобы включить некоторые отзывы и комментарии, полученные в ходе обсуждений. Хотя обсуждение Village Pump было в целом благоприятным, он был официально внесен в список RFC, чтобы обеспечить четкую поддержку сообщества перед его внедрением в конце 2012 года.

Этот план координируют Макс Кляйн , википедист в резиденции OCLC , и Эндрю Грей , википедист в резиденции Британской библиотеки. OCLC - центральная операционная группа VIAF, предложившая техническую поддержку процесса согласования. Если вы хотите помочь в работе над этим, сообщите нам об этом .

Фон [ править ]

Авторитетный контроль - это система, которая в основном используется в библиотеках и других службах метаданных, где отдельному объекту присваивается канонический уникальный идентификатор. Это обеспечивает четкое устранение неоднозначности между различными объектами с похожими именами, а также позволяет использовать один идентификатор для объектов с несколькими вариантами имен. В Википедии это обрабатывается с помощью шаблона {{ Authority control }}, который помещает идентификаторы в конец статьи и ссылается на каталоги библиотек и центральные авторитетные базы данных.

Помимо этих видимых для читателя ссылок, встроенные данные помогают построить инфраструктуру для будущей работы, например:

  • Надежное связывание с внешними службами - мы можем создать службы поиска, такие как этот инструмент для файлов PND немецкой Википедии: http://toolserver.org/~apper/pd/person/pnd-redirect/de/118768581 - который приведет вас к статья, представленная этим ПНД. Такие инструменты позволяют людям автоматически создавать ссылки на Википедию, не догадываясь о названиях статей, использовать API для извлечения потенциальных клиентов из статей для повторного использования на других сайтах и ​​т. Д.
  • Расширение возможностей проверки метаданных - у нас уже есть методы, такие как проект « Смертельные аномалии» , для сравнения метаданных между языковыми версиями Википедии и выявления несоответствий. В том числе идентификаторы, которые связаны с внешними службами, с надежными API, дают нам много дополнительных данных для перекрестной проверки.
  • Возврат метаданных во внешний мир - работая в обратном направлении, после того, как мы внедрили идентификаторы, кураторам этих метаданных будет намного проще включить информацию из Википедии, воспользовавшись нашим довольно быстрым циклом обновления таких вещей, как даты смерти.
  • Выявление альтернативных имен - особенно для нестандартной транслитерации, альтернативные заголовки в авторитетных файлах дают нам обширную и тщательно подобранную коллекцию вариантов имен. Связь поможет в создании редиректов.
  • Поддержка создания контента - наличие идентификаторов позволяет в будущем работать с инструментами, например, разрабатывать сценарии для создания авторских библиографий для статей.

В настоящее время около 4000 статей в англоязычной Википедии содержат в той или иной форме встроенный идентификатор авторитетного контроля, а в Commons около 45000 статей содержат авторитетный контроль. Для сравнения, в немецкой Википедии около 220 000 статей содержат встроенные идентификаторы.

Предложение [ править ]

Это первоначальное предложение сосредоточено на идентификаторах в биографиях; однако он не предназначен для эксклюзивного использования, и в будущем система может быть расширена для других статей, если это будет поддержано сообществом.

Он построен на использовании виртуального международного авторитетного файла (VIAF), международного проекта по объединению нескольких национальных авторитетных файлов в единую главную систему. Идентификаторы VIAF соответствуют идентификаторам в других системах и могут использоваться параллельно с этими другими идентификаторами или вместо них.

Процесс будет включать определение соответствующего идентификатора VIAF, который будет соответствовать как можно большему количеству статей, с использованием ряда различных методов, ранжированных по вероятной точности. После этого и тестирования данных, чтобы убедиться, что они непротиворечивы и точны, идентификатор VIAF будет добавлен к этим статьям ботом с использованием расширенной версии шаблона {{ Authority control }}. Позже этот инструмент можно повторно использовать для включения других идентификаторов, таких как LCCN , если это необходимо.

Источники данных [ править ]

Доступны три источника данных:

  1. Статьи, уже использующие {{ Authority control }} . Некоторые из них будут иметь номера VIAF. Если это не так, мы можем использовать номера LCCN / GND, чтобы сопоставить номер VIAF и включить его в существующий шаблон.
  2. Переплетенные статьи с идентификаторами . Около 220 000 статей в немецкой Википедии имеют идентификаторы. Там, где существует интервики к немецкой Википедии, мы можем извлечь идентификатор со связанной страницы, выполнив некоторые базовые проверки метаданных, чтобы убедиться, что межвики-ссылки точны.
    Около 145 000 статей в немецкой Википедии в настоящее время имеют идентификаторы VIAF; остальные используют другие идентификаторы, но может быть целесообразно сопоставить их с VIAF.
  3. Ссылки на авторитетные файлы VIAF . В рамках процесса сопоставления Википедия используется как источник информации, помогающий объединить «кластеры» VIAF. OCLC предоставил извлеченный список из более чем 250 000 статей английской Википедии с соответствующими номерами VIAF, хотя их, возможно, придется проверить, чтобы убедиться, что страницы не были перемещены после того, как было выполнено сопоставление.
    (Сопоставление выполняется с помощью этого кода Python, написанного исследователями OCLC Томом Хики и Дженни Товес. Во время алгоритмического создания файла VIAF, если ссылка на Википедию сопоставлена ​​с точностью ~ 98%, она включается в запись. Прямо сейчас там 266 202 ссылки из VIAF на Википедию. Эти ссылки доступны в виде текстового файла, разделенного табуляцией .)

Реализация [ править ]

Реализация будет осуществляться поэтапно.

  1. Создайте списки заголовков страниц и связанных идентификаторов кластеров VIAF из набора данных enwiki, набора данных dewiki и набора данных VIAF. Затем они будут отобраны для проверки точности.
  2. Перед запуском бота {{ Authority control }} будет переработан, чтобы обеспечить его эффективное масштабирование в соответствии с новым использованием, создавая подшаблоны для определенных идентификаторов. Документация для этого шаблона вместе с Wikipedia: Authority control будет проверена и обновлена ​​или переработана при необходимости.
  3. Бот будет разработан и протестирован, а затем утвержден в рамках стандартного процесса утверждения бота, чтобы убедиться в отсутствии технических проблем и его соответствии этому предложению.
  4. Этот бот добавит {{ Authority control }} вместе с кодами VIAF из этого списка после завершения тестирования.
  5. Наконец, этот бот будет запускать периодические отчеты в сочетании с расписанием обновления VIAF, чтобы отражать любые перетасовки, происходящие в файле.


Обсуждение Onwiki для разработки предложения
РФК по доработанному предложению
Создание процессов и ботов; одобрение бота
Развертывание контента
Анализ и обслуживание; возможный второй этап (небиографии)
Фаза I
Фаза II
Фаза III
Фаза IV
Фаза V
июнь
июль
август
сентябрь
Октябрь
Ноябрь
Декабрь
На пути к интеграции глубокого авторитетного контроля
  1. Обсуждение Onwiki для разработки предложения (до конца июня)
  2. РФК по доработанному предложению (до середины июля)
  3. Создание процессов и ботов; утверждение бота (до конца июля)
  4. Развертывание контента (до августа)
  5. Будущее : интеграция Викиданных (часть фазы 2 Викиданных - полностью зависит от этого графика)
  6. Техническое обслуживание (... в настоящее время ...)

Детали шаблона [ править ]

В настоящее время для обработки данных авторитетного контроля используется шаблон {{ Авторитетный контроль }}; он размещается в самом конце статьи, чуть выше категорий, и отображает узкую рамку с идентификаторами. Они ссылаются на внешнюю службу. Для примера см. Федор Достоевский - здесь используются коды GND, LCCN и VIAF, и он вложен в шаблон навигации после внешних ссылок. Он будет использоваться только в «основных» статьях, а не на подстраницах или связанных библиографиях - никакие две статьи не должны иметь общий идентификатор.

В рамках этого проекта нам нужно будет переписать {{ Authority control }}, чтобы сформировать оболочку для ряда вспомогательных шаблонов, каждый из которых обрабатывает определенный идентификатор. Это упростит обслуживание, а также упростит разработку поддержки других идентификаторов без необходимости экспериментировать с шаблоном, используемым на нескольких сотнях тысяч страниц. Документация по {{ Authority control }}, Wikipedia: Authority control и связанным страницам будет обновлена ​​соответствующим образом.

Часто задаваемые вопросы [ править ]

  1. Как мне добавить тему VIAF в статью о ней (или мою на мою пользовательскую страницу)?
    Используйте {{ Authority control }}.
  2. Почему использовать VIAF, а не другой идентификатор?
    VIAF представляет собой составную часть нескольких существующих баз данных авторитетного контроля и, таким образом, включает весь контент из многих других систем. Любой объект, например, с LCCN, также должен иметь соответствующий номер VIAF, но не каждый объект с номером VIAF будет иметь LCCN. Добавление VIAF не исключает включения других идентификаторов (и действительно может упростить задачу); это не стремление навязывать какой-то единый стандарт.
  3. Почему только люди?
    Система авторитетного контроля охватывает и другие вещи, но на данный момент (написано в 2013 году) мы планируем охватить только людей - это делается для упрощения начальной программы, а также для нацеливания на статьи, в которых шаблон, скорее всего, будет полезен.
  4. А как насчет ошибок в VIAF?
    Вы можете сообщить о явных ошибках в VIAF (или его составных каталогах) в Википедии: VIAF / errors . Затем они доступны соответствующему руководящему органу и для исправления связей в Wiki. Для немецкого эквивалента обьявлений см де: WP: PND / F .
  5. А как насчет лицензирования?
    VIAF имеет лицензию ODC-BY , которая совместима с лицензированием Wikipedia; использование VIAF URI является достаточным указанием на условия лицензии.
  6. Передаст ли это какой-либо контроль над содержанием Википедии третьим лицам?
    Нет . Хотя мы будем включать идентификаторы VIAF , содержание Википедии и VIAF останется совершенно отдельным. Метаданные не будут автоматически импортированы из VIAF, и Википедии не потребуется следовать соглашениям об именах VIAF.
  7. Что, если редакторы возражают против шаблона или идентификатора?
    Редакторы определенных страниц во всех случаях могут удалить метаданные, если они неточны или сочтены неуместными с точки зрения редакции. Для целей Википедии: Санкции первый возврат к автоматическому или полуавтоматическому добавлению контрольной информации не считается возвратом.
  8. А как насчет страниц, посвященных двум людям?
    Во многих случаях в одной статье рассматриваются два человека. Если два идентификатора VIAF относятся к одной и той же статье, это будет зарегистрировано, но не добавлено к статье; если он в настоящее время содержит один, но не другой, или смесь идентификаторов, относящихся к обоим, это также будет помечено.
  9. А как насчет Викиданных?
    Викиданные включают идентификаторы авторитетных источников. Однако добавление шаблона теперь позволяет нам получить доступ к этой информации до того, как Википедия включит ее из Викиданных; это также упростит любую будущую работу по добавлению этих идентификаторов в Викиданные.
  10. А как насчет случаев, когда несколько человек носят одно и то же имя?
    Основная цель записей авторитетного контроля - помочь различить людей с одинаковыми (или похожими) именами. Таким образом, идентификаторы обычно не сопоставляются только по имени; программное обеспечение может учитывать другую информацию, такую ​​как даты рождения и смерти.
  11. Написал новую биографическую статью, как узнать идентификатор VIAF?
    Спасибо за вклад в Википедию! Вы можете найти VIAF субъекта на http://viaf.org/. Введите его имя в поле «Условия поиска:», а для других параметров оставьте значения по умолчанию. Если есть две или более записей с одинаковым именем, проверьте перечисленные работы на совпадение. Если вы не уверены, что использовать, вы можете спросить совета на Wikipedia talk: Authority control .
  12. У меня есть еще один вопрос
    Любые комментарии, критические замечания и т. Д. Будут с благодарностью приняты, опять же на Википедии: Контроль авторитета .

- Макс Кляйн , Википедист в резиденции OCLC, и Эндрю Грей , Википедист Британской библиотеки в резиденции.

Прогресс [ править ]

Теперь, когда RFC прошел, работа над ботом продолжается. Код можно посмотреть на github .