от GreenC
Wayback Medic 2.5 - это бот, который добавляет и поддерживает ссылки из списка известных сервисов веб-архивов в английской Википедии .
Изменения, внесенные после 04.12.2018, относятся к версии 2.5.
Оператором бота является Пользователь: GreenC . Учетная запись бота - Пользователь: Бот GreenC . Бот (программное обеспечение) - «WaybackMedic».
Исправить номер | Название функции | Пример править | Описание | Заметки | Дата добавления |
---|---|---|---|---|---|
1 | исправить | Пример | Удалите ложные |1= шаблоны цитирования. | Август 2016 г. | |
2 | исправление | Пример | 1. Добавьте https, если протокол отсутствует в URL-адресе archive.org. 2. Преобразуйте существующий протокол http в https. 3. Добавьте веб -домен второго уровня, если он отсутствует (archive.org/web/ → web.archive.org/web/) 4. Добавьте / web / path (web.archive.org/2016/ → web.archive.org/ веб / 2016 /). В некоторых URL-адресах добавление / web / разрывает ссылку, проверьте их. | HTTPS согласно RFC | Август 2016 г. |
3 | исправить | Пример | 1. Если |archiveurl= он пуст или отсутствует, но |archivedate= имеет содержимое, попробуйте найти URL-адрес рабочего архива на основе даты архива, в противном случае добавьте, {{dead link}} если необходимо. 2. Если |archivedate= он пуст или отсутствует, но |archiveurl= имеет содержимое, сгенерируйте значение даты на основе отметки времени в URL-адресе архива. 3. Если |archiveurl= и |archivedate= пусты, удалите оба и, {{dead link}} если необходимо, оставьте . | Август 2016 г. | |
4 | исправить | Пример | Проверьте все URL-адреса Wayback Machine на наличие ошибок кода ответа (кроме 200). Если код ошибки, попробуйте лучший URL-адрес через API Wayback - сначала используя accessdate, а затем используя самую раннюю доступную дату. Если нет, проверьте WebCite API. Попробуйте Memento API, который проверяет несколько десятков других архивов. Другие методы не документированы. Если по-прежнему ничего не найдено, удалите |archiveurl= и |archivedate= и добавьте .{{dead link}} | Август 2016 г. | |
5 | На пенсии | ||||
6 | исправить | Пример | Шаблон обратного пути определенным образом искажен. Действие: собрать заново. Он не удалит несколько экземпляров, если они существуют в одной ссылке (как в примере). | Август 2016 г. | |
7 | fixencodedurl | Пример | URL-адрес был неправильно закодирован. Полностью декодировать URL и перекодировать. | Август 2016 г. | |
8 | fixdatemismatch | Пример | 1. Убедитесь, |archivedate= что дата снимка совпадает с URL-адресом. 2. Убедитесь, что формат даты соответствует dmy или mdy, если установлен (сохраните ymd, если используется) | Август 2016 г. | |
9 | fixwebcitlong | Пример Пример | Преобразование URL-адресов WebCite из короткой формы в длинную Преобразование URL-адресов Freezepage.com из короткой формы в длинную | Использование веб-сайта | Январь 2017 г. |
10 | fixstraydt | Пример | Удалить случайный {{dead link}} шаблон, если для ссылки существует архив | Январь 2017 г. | |
11 | Fixwam | Пример | Слияние и -> Слияние завершено 5 февраля 2017 г.{{wayback}} {{webcite}} {{webarchive}} | Вебархив TfM | Январь 2017 г. |
12 | фиксаты | Пример | URL-адрес архива -> | URL-адрес архива) | Январь 2017 г. | |
13 | fixswitchurl | Пример | Переместите URL-адрес archive.org из |url= в |archiveurl= и добавьте, |archivedate= если он отсутствует. | Январь 2017 г. | |
14 | На пенсии | ||||
15 | Fixembway | Пример Пример | 1. A {{wayback}} встроен в шаблон CS. 2. A {{dead link}} встроен в шаблон CS. | Январь 2017 г. | |
16 | <различные> | Пример | |archivedate= Отметка времени и / или 19700101 и / или за пределами поля. | Январь 2017 г. | |
17 | fixdoubleurl | Пример | URL-адреса archive.org удваиваются, утраиваются и т. д. | Январь 2017 г. | |
18 | fixemptywebarchive | Пример | {{webarchive}} |date= отсутствует или пустое значение. | Январь 2017 г. | |
19 | fixdoublewebarchive | Пример | Удалите повторяющиеся {{webarchive}} экземпляры. | Январь 2017 г. | |
20 | исправить | Пример | A {{cite web}} вложено в{{webarchive}} | Январь 2017 г. | |
21 год | fixarchiveis | Пример Пример | 1. Преобразуйте URL Archive.is из краткой формы в длинную. 2. Исправьте кодировку URL неработающих ссылок. | Archive.is Использование | Январь 2017 г. |
22 | fixitems | Пример | Измените URL-адреса "/ items /", использующие идентификаторы компьютеров. | BRFA | Январь 2017 г. |
23 | кодировать | Пример | Преобразование кодировки MediaWiki в кодировку URL в URL-адресах (например, {{!}} И {{=}}) | RFC3986 | Январь 2017 г. |
24 | декодируемое пространство | Пример | Преобразование% 20 в +, + в% 20 и т. Д. В URL-адресах, которые можно исправить таким образом | Смотрите также | Июнь 2017 г. |
25 | waytree_trailgarb | Пример Пример Пример | Удалите типичные символы мусора в конце URL-адресов:.,;: - "l (% XX) ( ' ' ) | Февраль 2018 г. | |
26 год | исправитькомментарийархив | Пример | Откройте закомментированные архивы и добавьте |deadurl= «да» или «нет» | Февраль 2018 г. | |
27 | waytree_x2encoding | Пример | Исправить двойную кодировку URL, например. % 3A ->% 253A | Февраль 2018 г. | |
28 год | исправить | Пример | Исправить пропущенное URL-кодирование квадратных скобок | T186417 | Февраль 2018 г. |
29 | фиксаты | Пример Пример | Восстановить усеченный обратный URL | Февраль 2018 г. | |
30 | фиксаты | Пример | Конвертировать |title={title } ->|title=Archived copy | T203865 | Сентябрь 2018 г. |
31 год | urlchanger | Пример | Переместите сломанный URL-адрес на новый рабочий URL-адрес и отмените предыдущие архивы. | BOTREQ | Ноябрь 2018 г. |
32 | косметический | Пример Пример Пример Пример Пример Пример | Правки, которые могут быть косметическими. Только с другими правками. 1. Удалить конечный # в URL-адресах 2. Удалить пустые поля архива 3. archive.is -> archive.today 4. Исправить двойные фрагменты 5. Преобразовать URL-адреса, относящиеся к протоколу | WP: PRURL , T214855 , Archive.today | Январь 2019 |
- Технические подробности
- Изменения URL-адресов проверяются на удаленном сайте, чтобы убедиться, что они работают.
- Проверка ссылок в реальном времени, без базы данных ссылок. Однако ссылки проверяются в течение 24 часов перед окончательной загрузкой diff.
- Поддерживает множество API, включая Internet Archive, Memento, WebCite и API Timemap в отдельных сервисах.
- Множественные проверки кода состояния заголовка HTTP на уровне приложения (WaybackMedic)
- Дополнительные тайм-аут и повторные попытки встроены в библиотеки веб-передачи.
- Дополнительные проверки уровня рабочих процедур на наличие сетевых и других ошибок - бот частично контролируется в известных проблемных областях.
- Множественные избыточные проверки API с использованием нескольких дат, чтобы убедиться, что страница действительно недоступна.
- Принимает результаты API, но затем проверяет, просматривая заголовки и / или содержимое страницы
- Бот в основном написан на Nim (компилируется в исходный код C) с вспомогательными утилитами в Awk . Библиотеки были изготовлены на заказ, включая библиотеку строковых примитивов для регулярных выражений, библиотеку синтаксического анализа шаблонов вики, библиотеку OAuth (в awk), библиотеку интерфейса API MediaWiki, детектор soft404.
- Из-за характера задачи запуск бота включает в себя изрядные накладные расходы на надзор, поэтому он требует обучения оператора, хотя шаги задокументированы в исходном пакете.
Бег [ править ]
Примерно каждые 2–3 месяца бот создает новую партию статей для обработки, от 50 000 до 100 000, для завершения которой требуется 1-2 недели, а затем делает перерыв перед следующей партией 2–3 месяца спустя. Обычно это следует за тем, как IABot редактирует те же статьи, которые IABot делал в течение этих 2–3 месяцев. Это потому, что WaybackMedic начал свою жизнь как средство исправления ошибок для IABot, и эту задачу он все еще может выполнять по мере необходимости. Также потому, что WaybackMedic не имеет средства проверки мертвых ссылок, поэтому он полагается на IABot, чтобы пометить ссылки мертвыми, чтобы он знал, какие из них могут быть сохранены.
Платный редактор [ править ]
GreenC , в соответствии с Условиями использования Фонда Викимедиа , сообщает, что ему заплатил Интернет-архив за его вклад в Википедию. Это финансирование предназначено для постоянного развития WaybackMedic и модуля InternetArchiveBot, связанного с книгами.
Общие источники [ править ]
- GitHub
Цитаты [ править ]
Ссылки [ править ]
- WaybackMedic 2.1
- WaybackMedic 2.0
- WaybackMedic 1.0
- Утверждение бота
- Пробные запуски