Эта страница Википедии была заменена на FAQ по проекту , так как проект сейчас активен и сохранен, прежде всего, для исторического интереса. |
Если вы обнаружили ошибку при добавлении одного из кодов VIAF, укажите ее здесь . |
Видео Резюме предложения [ править ]
На YouTube .
Введение [ править ]
Предлагаемый проект направлен на расширение и систематизацию использования идентификаторов авторитетного контроля с использованием шаблона {{ Authority control }} в англоязычных статьях Википедии. Авторитетный контроль - это термин в библиотечном деле, архивной практике и смежных областях для уникальных идентификаторов для устранения неоднозначности объектов (людей, мест, академических предметов и т. Д.). Эти области исследований имеют различные концепции уникальных идентификаторов по сравнению с некоторыми другими областями, потому что многие существующие системы обратно совместимы с системами до компьютеризации. Этот проект направлен на то, чтобы связать английскую Википедию с этим длинным хвостом идентификаторов.
Текущее предложение сосредоточено на биографиях, хотя в будущем оно может быть расширено для охвата других тем, и построено на использовании данных из VIAF , составной системы, объединяющей несколько основных авторитетных файлов. VIAF алгоритмически сопоставляет и группирует записи из отдельных авторитетных файлов и использует данные, извлеченные из Википедии, для облегчения процесса; в результате уже было выявлено большое количество согласованных пар Википедия-VIAF, и это обеспечивает очень эффективный плацдарм для работы.
Предложение было изначально написано здесь и обсуждалось на Village Pump . С тех пор он был обновлен, чтобы включить некоторые отзывы и комментарии, полученные в ходе обсуждений. Хотя обсуждение Village Pump было в целом благоприятным, он был официально внесен в список RFC, чтобы обеспечить четкую поддержку сообщества перед его внедрением в конце 2012 года.
Этот план координируют Макс Кляйн , википедист в резиденции OCLC , и Эндрю Грей , википедист в резиденции Британской библиотеки. OCLC - центральная операционная группа VIAF, предложившая техническую поддержку процесса согласования. Если вы хотите помочь в работе над этим, сообщите нам об этом .
Фон [ править ]
Авторитетный контроль - это система, которая в основном используется в библиотеках и других службах метаданных, где отдельному объекту присваивается канонический уникальный идентификатор. Это обеспечивает четкое устранение неоднозначности между различными объектами с похожими именами, а также позволяет использовать один идентификатор для объектов с несколькими вариантами имен. В Википедии это обрабатывается с помощью шаблона {{ Authority control }}, который помещает идентификаторы в конец статьи и ссылается на каталоги библиотек и центральные авторитетные базы данных.
Помимо этих видимых для читателя ссылок, встроенные данные помогают построить инфраструктуру для будущей работы, например:
- Надежное связывание с внешними службами - мы можем создать службы поиска, такие как этот инструмент для файлов PND немецкой Википедии: http://toolserver.org/~apper/pd/person/pnd-redirect/de/118768581 - который приведет вас к статья, представленная этим ПНД. Такие инструменты позволяют людям автоматически создавать ссылки на Википедию, не догадываясь о названиях статей, использовать API для извлечения потенциальных клиентов из статей для повторного использования на других сайтах и т. Д.
- Расширение возможностей проверки метаданных - у нас уже есть методы, такие как проект « Смертельные аномалии» , для сравнения метаданных между языковыми версиями Википедии и выявления несоответствий. В том числе идентификаторы, которые связаны с внешними службами, с надежными API, дают нам много дополнительных данных для перекрестной проверки.
- Возврат метаданных во внешний мир - работая в обратном направлении, после того, как мы внедрили идентификаторы, кураторам этих метаданных будет намного проще включить информацию из Википедии, воспользовавшись нашим довольно быстрым циклом обновления таких вещей, как даты смерти.
- Выявление альтернативных имен - особенно для нестандартной транслитерации, альтернативные заголовки в авторитетных файлах дают нам обширную и тщательно подобранную коллекцию вариантов имен. Связь поможет в создании редиректов.
- Поддержка создания контента - наличие идентификаторов позволяет в будущем работать с инструментами, например, разрабатывать сценарии для создания авторских библиографий для статей.
В настоящее время около 4000 статей в англоязычной Википедии содержат в той или иной форме встроенный идентификатор авторитетного контроля, а в Commons около 45000 статей содержат авторитетный контроль. Для сравнения, в немецкой Википедии около 220 000 статей содержат встроенные идентификаторы.
Предложение [ править ]
Это первоначальное предложение сосредоточено на идентификаторах в биографиях; однако он не предназначен для эксклюзивного использования, и в будущем система может быть расширена для других статей, если это будет поддержано сообществом.
Он построен на использовании виртуального международного авторитетного файла (VIAF), международного проекта по объединению нескольких национальных авторитетных файлов в единую главную систему. Идентификаторы VIAF соответствуют идентификаторам в других системах и могут использоваться параллельно с этими другими идентификаторами или вместо них.
Процесс будет включать определение соответствующего идентификатора VIAF, который будет соответствовать как можно большему количеству статей, с использованием ряда различных методов, ранжированных по вероятной точности. После этого и тестирования данных, чтобы убедиться, что они непротиворечивы и точны, идентификатор VIAF будет добавлен к этим статьям ботом с использованием расширенной версии шаблона {{ Authority control }}. Позже этот инструмент можно повторно использовать для включения других идентификаторов, таких как LCCN , если это необходимо.
Источники данных [ править ]
Доступны три источника данных:
- Статьи, уже использующие {{ Authority control }} . Некоторые из них будут иметь номера VIAF. Если это не так, мы можем использовать номера LCCN / GND, чтобы сопоставить номер VIAF и включить его в существующий шаблон.
- Переплетенные статьи с идентификаторами . Около 220 000 статей в немецкой Википедии имеют идентификаторы. Там, где существует интервики к немецкой Википедии, мы можем извлечь идентификатор со связанной страницы, выполнив некоторые базовые проверки метаданных, чтобы убедиться, что межвики-ссылки точны.
- Около 145 000 статей в немецкой Википедии в настоящее время имеют идентификаторы VIAF; остальные используют другие идентификаторы, но может быть целесообразно сопоставить их с VIAF.
- Ссылки на авторитетные файлы VIAF . В рамках процесса сопоставления Википедия используется как источник информации, помогающий объединить «кластеры» VIAF. OCLC предоставил извлеченный список из более чем 250 000 статей английской Википедии с соответствующими номерами VIAF, хотя их, возможно, придется проверить, чтобы убедиться, что страницы не были перемещены после того, как было выполнено сопоставление.
- (Сопоставление выполняется с помощью этого кода Python, написанного исследователями OCLC Томом Хики и Дженни Товес. Во время алгоритмического создания файла VIAF, если ссылка на Википедию сопоставлена с точностью ~ 98%, она включается в запись. Прямо сейчас там 266 202 ссылки из VIAF на Википедию. Эти ссылки доступны в виде текстового файла, разделенного табуляцией .)
Реализация [ править ]
Реализация будет осуществляться поэтапно.
- Создайте списки заголовков страниц и связанных идентификаторов кластеров VIAF из набора данных enwiki, набора данных dewiki и набора данных VIAF. Затем они будут отобраны для проверки точности.
- Перед запуском бота {{ Authority control }} будет переработан, чтобы обеспечить его эффективное масштабирование в соответствии с новым использованием, создавая подшаблоны для определенных идентификаторов. Документация для этого шаблона вместе с Wikipedia: Authority control будет проверена и обновлена или переработана при необходимости.
- Бот будет разработан и протестирован, а затем утвержден в рамках стандартного процесса утверждения бота, чтобы убедиться в отсутствии технических проблем и его соответствии этому предложению.
- Этот бот добавит {{ Authority control }} вместе с кодами VIAF из этого списка после завершения тестирования.
- Наконец, этот бот будет запускать периодические отчеты в сочетании с расписанием обновления VIAF, чтобы отражать любые перетасовки, происходящие в файле.
- Обсуждение Onwiki для разработки предложения (до конца июня)
- РФК по доработанному предложению (до середины июля)
- Создание процессов и ботов; утверждение бота (до конца июля)
- Развертывание контента (до августа)
- Будущее : интеграция Викиданных (часть фазы 2 Викиданных - полностью зависит от этого графика)
- Техническое обслуживание (... в настоящее время ...)
Детали шаблона [ править ]
В настоящее время для обработки данных авторитетного контроля используется шаблон {{ Авторитетный контроль }}; он размещается в самом конце статьи, чуть выше категорий, и отображает узкую рамку с идентификаторами. Они ссылаются на внешнюю службу. Для примера см. Федор Достоевский - здесь используются коды GND, LCCN и VIAF, и он вложен в шаблон навигации после внешних ссылок. Он будет использоваться только в «основных» статьях, а не на подстраницах или связанных библиографиях - никакие две статьи не должны иметь общий идентификатор.
В рамках этого проекта нам нужно будет переписать {{ Authority control }}, чтобы сформировать оболочку для ряда вспомогательных шаблонов, каждый из которых обрабатывает определенный идентификатор. Это упростит обслуживание, а также упростит разработку поддержки других идентификаторов без необходимости экспериментировать с шаблоном, используемым на нескольких сотнях тысяч страниц. Документация по {{ Authority control }}, Wikipedia: Authority control и связанным страницам будет обновлена соответствующим образом.
Часто задаваемые вопросы [ править ]
- Как мне добавить тему VIAF в статью о ней (или мою на мою пользовательскую страницу)?
- Используйте {{ Authority control }}.
- Почему использовать VIAF, а не другой идентификатор?
- VIAF представляет собой составную часть нескольких существующих баз данных авторитетного контроля и, таким образом, включает весь контент из многих других систем. Любой объект, например, с LCCN, также должен иметь соответствующий номер VIAF, но не каждый объект с номером VIAF будет иметь LCCN. Добавление VIAF не исключает включения других идентификаторов (и действительно может упростить задачу); это не стремление навязывать какой-то единый стандарт.
- Почему только люди?
- Система авторитетного контроля охватывает и другие вещи, но на данный момент (написано в 2013 году) мы планируем охватить только людей - это делается для упрощения начальной программы, а также для нацеливания на статьи, в которых шаблон, скорее всего, будет полезен.
- А как насчет ошибок в VIAF?
- Вы можете сообщить о явных ошибках в VIAF (или его составных каталогах) в Википедии: VIAF / errors . Затем они доступны соответствующему руководящему органу и для исправления связей в Wiki. Для немецкого эквивалента обьявлений см де: WP: PND / F .
- А как насчет лицензирования?
- VIAF имеет лицензию ODC-BY , которая совместима с лицензированием Wikipedia; использование VIAF URI является достаточным указанием на условия лицензии.
- Передаст ли это какой-либо контроль над содержанием Википедии третьим лицам?
- Нет . Хотя мы будем включать идентификаторы VIAF , содержание Википедии и VIAF останется совершенно отдельным. Метаданные не будут автоматически импортированы из VIAF, и Википедии не потребуется следовать соглашениям об именах VIAF.
- Что, если редакторы возражают против шаблона или идентификатора?
- Редакторы определенных страниц во всех случаях могут удалить метаданные, если они неточны или сочтены неуместными с точки зрения редакции. Для целей Википедии: Санкции первый возврат к автоматическому или полуавтоматическому добавлению контрольной информации не считается возвратом.
- А как насчет страниц, посвященных двум людям?
- Во многих случаях в одной статье рассматриваются два человека. Если два идентификатора VIAF относятся к одной и той же статье, это будет зарегистрировано, но не добавлено к статье; если он в настоящее время содержит один, но не другой, или смесь идентификаторов, относящихся к обоим, это также будет помечено.
- А как насчет Викиданных?
- Викиданные включают идентификаторы авторитетных источников. Однако добавление шаблона теперь позволяет нам получить доступ к этой информации до того, как Википедия включит ее из Викиданных; это также упростит любую будущую работу по добавлению этих идентификаторов в Викиданные.
- А как насчет случаев, когда несколько человек носят одно и то же имя?
- Основная цель записей авторитетного контроля - помочь различить людей с одинаковыми (или похожими) именами. Таким образом, идентификаторы обычно не сопоставляются только по имени; программное обеспечение может учитывать другую информацию, такую как даты рождения и смерти.
- Написал новую биографическую статью, как узнать идентификатор VIAF?
- Спасибо за вклад в Википедию! Вы можете найти VIAF субъекта на http://viaf.org/. Введите его имя в поле «Условия поиска:», а для других параметров оставьте значения по умолчанию. Если есть две или более записей с одинаковым именем, проверьте перечисленные работы на совпадение. Если вы не уверены, что использовать, вы можете спросить совета на Wikipedia talk: Authority control .
- У меня есть еще один вопрос
- Любые комментарии, критические замечания и т. Д. Будут с благодарностью приняты, опять же на Википедии: Контроль авторитета .
- Макс Кляйн , Википедист в резиденции OCLC, и Эндрю Грей , Википедист Британской библиотеки в резиденции.
Прогресс [ править ]
Теперь, когда RFC прошел, работа над ботом продолжается. Код можно посмотреть на github .