Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Эта страница предназначена для запроса изменений URL-адресов, таких как отметка мертвых или переход на новый домен. Некоторые боты предназначены для исправления гниения ссылок, они могут быть уведомлены здесь, в том числе InternetArchiveBot и WaybackMedic . Эту страницу могут отслеживать операторы ботов из вики-сайтов на других языках, поскольку изменения URL-адресов универсальны.

Бот может конвертировать ссылки в httpS? [ редактировать ]

Есть несколько тысяч «HTTP» ссылки на WP на многих различных страницах моего сайта (чья домашняя страница http://penelope.uchicago.edu/Thayer/E/home.html ) , который действительно должен быть HTTP- S . Сайт защищен действующими сертификатами и т. Д. Может ли бот с этим быстро справиться?

24.136.4.218 ( разговорное ) 19:20, 11 февраля 2021 (UTC)

В общем, я думаю, что бот может заменить http на https для всех веб-страниц после некоторых проверок. (В руководящих принципах предпочтение отдается https, а не http, WP: Внешние ссылки # Specifying_protocols .) Моя наивная идея - создать бота, который переходит по http-ссылкам и проверяет, действительны ли они также с https. Если да, то бот может заменить http-ссылку на https-ссылку. Помимо вопроса, есть ли общая проблема с идеей, остается несколько вопросов:
  1. Должен ли бот заменять все ссылки или только основные (официальная веб-страница, информационные окна, ...)?
  2. Должен ли бот только проверять, работает ли https, или http и https предоставляют одну и ту же страницу?
Я был бы рад услышать, что другие думают об этой идее. Нуреток ( разговорное ) 11:43, 5 апреля 2021 (UTC)
Одним из аргументов против этого является то, что многие веб-сайты реализуют перенаправление http -> https. Таким образом, если вы перейдете по ссылке с помощью http, она будет перенаправлена ​​на https. В этом случае не имеет значения, по какому протоколу идет ссылка в WP, пользователь всегда будет переходить на https. Даже процитированный выше пример перенаправляется. - Шрихари Талла ( разговор ) 19:09, 8 апреля 2021 г. (UTC)
Вы правы, многие веб-сайты перенаправляют http на https, но это все еще позволяет атаковать Man-in-the-middle, когда кто-то предотвращает это перенаправление. Это одна из причин, по которой руководство Википедии рекомендует использовать https и плагины для браузера, такие как HTTPS Everywhere . Конечно, каждый волен использовать https везде, но обеспечение хороших значений по умолчанию (в данном случае https) обычно считается хорошей практикой. Кстати, вместо того, чтобы проверять каждый сайт по отдельности, есть список серверов , поддерживающих https, который бот может проверить, чтобы узнать, хочет ли он перейти с http на https. Нуреток ( разговор ) 08:20, 17 апреля 2021 (UTC)

наблюдатель.com [ править ]

Я обнаружил много неработающих ссылок на www.observer.com: некоторые (но не все) из этих ссылок больше не ведут к статьям, которые были изначально процитированы. Jarble ( разговор ) 21:04, 13 февраля 2021 (UTC)

Поскольку это смесь живых и мертвых, вероятно, лучше оставить это IABot, который должен уметь обнаруживать мертвых. - Зеленый C 03:19, 14 февраля 2021 г. (UTC)
@ GreenC : IABot их не обнаружит. Я попытался запустить IABot на этой странице , но ссылка по-прежнему неверна. Jarble ( разговорное ) 21:35, 11 марта 2021 (UTC)

IABot не сработает. Это довольно сложно. Первое впечатление - все "https" в порядке. Все "http" без имени хоста тоже нормально. Это сужает его до тысячи возможных проблемных URL . Некоторые из них работают, а некоторые нет. Некоторые также перенаправляют на нужные спам-ссылки |url-status=unfit. Есть закономерности, но есть и исключения. Мне может потребоваться выполнить пробный запуск, зарегистрировать, что он делает, создать правила, учитывающие ошибки, а затем выполнить рабочий запуск. Сложно сказать заранее, какими должны быть правила. Потребуется время, чтобы разобраться, есть много переменных. - Зеленый C 01:45, 12 марта 2021 г. (UTC)

Полученные результаты

  • 121 URL изменен ( пример )
  • 412 URL заархивированы ( пример )

Остальные уже заархивированы, работают или помечены . После того, как были обнаружены редиректы soft404, это было несложно. Если вы заметите какие-либо проблемы, дайте мне знать. @ Jarble : - Зеленый C 21:39, 13 марта 2021 г. (UTC){{dead link}}

sfsite.com/~silverag [ редактировать ]

Мой веб-сайт, ранее расположенный по адресу www.sfsite.com/~silverag, переместился на www.stevenhsilver.com. Его цитируют на многочисленных страницах википедии. Если бот сможет заменить строку sfsite.com/~silverag на stevenhsilver.com, это исправит неработающие ссылки. Шсильвер ( разговор ) 12:57, 14 февраля 2021 (UTC)

Привет, бот переключил 108 URL. Осталось 13, бот не смог определить. - Зеленый C 17:54, 14 февраля 2021 г. (UTC)
Спасибо. Некоторые из них переключились, другие указывали на страницы, которые я решил не загружать на новый сайт. Я ценю вашу работу и работу вашего бота. Шсильвер ( разговор ) 19:19, 14 февраля 2021 (UTC)

Агентство по сохранению исторического наследия Иллинойса [ править ]

Здравствуйте, Агентство по сохранению исторических памятников штата Иллинойс недавно закрыло свой веб-сайт, потому что он был основан на Adobe Flash, нарушив множество ссылок на документацию. Я только что проверил случайный, и он был в Интернет-архиве, поэтому я предполагаю, что боты, меняющие ссылки, могут заархивировать большое количество из них. Может ли кто-нибудь заставить бота собирать все URL-адреса формы http://gis.hpa.state.il.us/pdfs/XXXXXX.pdf и запускать их все через IA? «X» представляет собой число; в некоторых из этих файлов может быть пять или меньше цифр (XXXX.pdf) или семь или более (XXXXXXXX.pdf), поэтому не предполагайте, что все они шестизначные.

Спасибо! Ниттенд ( разговорное ) 19:27, 16 февраля 2021 (UTC)

Привет, Nyttend , результаты находятся в 1151 статье, 1035 URL-адресах архивов и 217 {{dead link}}добавленных. Сообщите мне, если вы заметите какие-либо проблемы . PDF-файлы являются самыми простыми, поскольку они либо явно работают, либо нет. - Зеленый C 01:35, 17 февраля 2021 г. (UTC)

Спасибо, GreenC . Если вы нажмете любую ссылку IHPA (даже мой образец XXXXXX), вы попадете на страницу с надписью «Новая версия HARGIS будет доступна в ближайшие недели». (Так было до того, как я сделал этот запрос; я спросил, потому что нет гарантии, что новый сайт будет использовать ту же структуру ссылок для своих PDF-файлов.) У вас есть способ найти, где находятся 217 мертвых ссылок? Когда я замечаю, что они разместили новую версию сайта, я могу вернуться и попросить помощи в восстановлении работы ссылок, но только в том случае, если у вас есть способ пройти через те, которые обработал ваш бот, без нарушения работы. архивирование 1035. Nyttend ( обсуждение ) 12:19, 17 февраля 2021 (UTC)
В этом случае 217 + 1035 может снова заработать (есть логи). Пингуйте меня, когда будете готовы, посмотрю. Бот может разворачивать архивы, заменять неработающие ссылки на живые, перемещать схемы URL-адресов, извлекать новые URL-адреса из перенаправлений и т. Д. - Зеленый C 15:39, 17 февраля 2021 г. (UTC)

whitehouse.gov [ править ]

Многие ссылки whitehouse.gov исчезли после того, как домен недавно «сменил владельца». Редкий случай, когда многие википедисты могут быть рады смерти источников. Есть архив на https://trumpwhitehouse.archives.gov . Пример старого сломанного и нового рабочего URL:

  • https://www.whitehouse.gov/briefings-statements/president-donald-j-trump-award-national-medal-arts-national-humanities-medal/ ( archive.org, 7 января 2021 г. )
  • https://trumpwhitehouse.archives.gov/briefings-statements/president-donald-j-trump-award-national-medal-arts-national-humanities-medal/

Существует небольшая вероятность / риск того, что некоторые из неработающих ссылок снова заработают примерно через четыре года. Некоторые ссылки whitehouse.gov работают и не должны изменяться. Может ли бот разобраться? PrimeHunter ( разговорное ) 13:09, 25 февраля 2021 (UTC)

Некоторые старые ссылки на источники заархивированы на https://obamawhitehouse.archives.gov или https://georgewbush-whitehouse.archives.gov .
Пример Обамы неработающей и неработающей ссылки:
  • https://www.whitehouse.gov/the-press-office/statement-press-secretary-sjres-33
  • https://obamawhitehouse.archives.gov/the-press-office/statement-press-secretary-sjres-33
Пример Буша неработающей и неработающей ссылки:
  • https://www.whitehouse.gov/nsc/nss/2006/intro.html
  • https://georgewbush-whitehouse.archives.gov/nsc/nss/2006/intro.html
Некоторые ссылки работают через редиректы:
  • https://www.whitehouse.gov/the-press-office/2013/06/24/daily-briefing-press-secretary-jay-carney-6242013
перенаправляет на
  • https://obamawhitehouse.archives.gov/the-press-office/2013/06/24/daily-briefing-press-secretary-jay-carney-6242013
https://www.archives.gov/presidential-libraries/archived-websites также упоминает архивы Клинтона. Самый новый - https://clintonwhitehouse5.archives.gov/ от января 2001 года. Я не знаю, есть ли у нас неработающие ссылки, которые он мог бы исправить.
Бот может проверить каждую ссылку whitehouse.gov, чтобы узнать, работает ли она сейчас или в каком-либо из архивов. PrimeHunter ( разговорное ) 14:02, 25 февраля 2021 (UTC)
Хорошо, основываясь на вашем исследовании, я согласен, что стоит изучить, насколько хорошо это работает. Взглянем. - Зеленый C 14:25, 25 февраля 2021 г. (UTC)
  • Результаты : изменено 8 263 URL в 5 060 статьях. Изменена информация о метаданных, например |work=whitehouse.gov. Плюс другие общие исправления от WaybackMedic. Из любопытства: 67% были обнаружены описанным выше методом сканирования, а остальные имели рабочие редиректы в заголовке. Большинство рабочих переадресаций принадлежало Обаме, у Трампа была высокая доля 404-х и не было переадресаций, возможно, плохо обслуживаемых и / или слишком быстро после ухода с должности. Также некоторые страницы (10%?) Не могут быть заархивированы какой-либо службой веб-архива, они просто не работают, на странице есть что-то, что предотвращает веб-архивирование третьими сторонами, но, несмотря на это, они все еще работают в Национальном архиве. @ PrimeHunter : - Зеленый C 16:46, 3 марта 2021 г. (UTC)
@ GreenC : Отлично! Большое спасибо. У вас есть список неработающих ссылок, которые не удалось исправить? Я заметил один в [1] : https://www.whitehouse.gov/the-press-office/2013/05/20/president-obama-announces-sally-ride-recipient-presidential-medal-freedom . Он перенаправляет, но цель не работает. Спасибо за проверку, что перенаправление не помогло. Оказалось, что это наша вина. У реальной ссылки [2] не было последнего m, которое было добавлено неосторожным редактором в [3] , поэтому нет общего исправления, которое мы можем извлечь из этого. PrimeHunter ( обсуждение ) 22:30, 3 марта 2021 г. (UTC)
Их было 30: Википедия: Link rot / cases / whitehouse.gov - Green C 22:55, 3 марта 2021 г. (UTC)
@ GreenC : Спасибо. Хорошее низкое число. Я исправил многие из них с помощью угадывания или поиска в Google, не найдя системы. Некоторые были явно нашей ошибкой с URL-адресом, который никогда бы не сработал. Следует ли мне удалить исправленные из Википедии: ссылка rot / cases / whitehouse.gov ? PrimeHunter ( разговорное ) 02:21, 4 марта 2021 (UTC)
Да, около 0,5% URL-адресов белого дома можно объяснить локальным вводом данных или ошибками удаленного сайта, это, вероятно, лучше, чем можно было ожидать. Это хорошая идея, чтобы проверить, и здорово, что вы смогли кое-что исправить. Используйте страницу как хотите, разметьте или удалите записи. - Зеленый C 03:12, 4 марта 2021 г. (UTC)

StarWars.com [ править ]

Все, что связано с http://www.starwars.com, следует изменить на https . Спасибо. JediMasterMacaroni  (Обсуждение) 18:20, 25 февраля 2021 (UTC)

Перенаправлено на User_talk: Bender235 # StarWars.com - Green C 19:04, 25 февраля 2021 г. (UTC)
Сделаю. - bender235 ( разговор ) 19:33, 25 февраля 2021 (UTC)
Спасибо. JediMasterMacaroni  (Обсуждение) 19:34, 25 февраля 2021 (UTC)

Заменить atimes.comссылки [ править ]

Пожалуйста, замените все экземпляры atimes.comи его поддомены на asiatimes.com. Старый сайт заменен рекламным сайтом. ~ Ase1este с harge четности т IME 10:11, 28 февраля 2021 (UTC)

Также, если соответствующая страница с новым доменом не найдена, не заархивирована, и есть архив со старым доменом, то не заменяйте URL, а добавьте ссылку на архив и отметьте статус URL как unfit. Спасибо. ~ Ase1este с harge четности т IME 10:26, 28 февраля 2021 (UTC)
ОК. Может потребоваться пара проходов, сначала для перемещения домена, где это возможно, а во-вторых, чтобы добавить архивы + непригодные для остальных. Работа над сайтом whitehouse.gov, приведенным выше, может занять как минимум несколько дней. - Зеленый C 15:46, 28 февраля 2021 г. (UTC)
Хорошо, спасибо, я могу подождать. ~ Ase1este с harge четности т IME 17:42, 28 февраля 2021 (UTC)

Результаты :

  • 287 URL-адресов изменены с atimes.com на asiatimes.com
  • 1995 URL преобразованы в архивы, включая файлы |url-status=unfit. Включает CS1 | 2, квадратные и голые ссылки
  • 3 ссылок не были архивов (в Питере Хехс , Таксин Чинават , Иран-Саудовская Аравия отношениях ). Добавлен . Требуется ручное внимание.{{dead link}}
  • 11 цитат преобразованы из [квадратная ссылка] в формат с .{{webarchive}}{{cite web}}|url-status=unfit
  • 1 URL в файле: пробел
  • Статус домена установлен в «Черный список» в базе данных IABot.

@ Aseleste : Думаю, это все, если увидишь что-нибудь еще, дай мне знать. - Зеленый C 04:23, 6 марта 2021 г. (UTC)

Выглядит хорошо, спасибо! ~ Ase1este с harge четности т IME 4:28, 6 марта 2021 (UTC)

www.geek.com [ править ]

Я нашел много неработающих ссылок в этом домене: можно ли их исправить автоматически? Jarble ( разговор ) 21:30, 11 марта 2021 (UTC)

Это та же ситуация, что и Observer.com - в базе данных IABot домен занесен в белый список, поэтому бот не проверяет / исправляет мертвые ссылки. Мой бот может попробовать, это намного проще, чем наблюдатель, так как цифры маленькие и требует проверки только на 404. - Зеленый C 01:51, 12 марта 2021 г. (UTC)

unc.edu [ править ]

Тема скопирована из WP: BOTREQ # Replace_dead_links

Пожалуйста, может кто-нибудь заменить EL формы

  • https://www.unc.edu/~rowlett/lighthouse/bhs.htm (мертвая ссылка)

с участием

  • {{Cite rowlett|bhs}}

который производит

  • Роулетт, Расс. «Маяки Багамских островов» . Справочник маяков . Университет Северной Каролины в Чапел-Хилл .

Спасибо - Мартин ( MSGJ  ·  обсуждение ) 05:38, 19 марта 2021 г. (UTC)

О каком масштабе правок мы говорим (десятки, сотни, тысячи)? Primefac ( обсуждение ) 14:37, 19 марта 2021 (UTC)
Специально: LinkSearch сообщает 1054 для " https://www.unc.edu/~rowlett/lighthouse " и 483 для варианта "http: //". DMacks ( разговор ) 14:43, 19 марта 2021 (UTC)
Но выборочная проверка - это сочетание простых ссылок и ссылок с передаваемым по конвейеру текстом и с / без дополнительных простых библиографических примечаний. Например, 165 из формы https: // находятся в контексте "url = ...". Я думаю, что существует слишком много вариантов, чтобы делать их автоматически. DMacks ( разговор ) 15:06, 19 марта 2021 (UTC){{cite web}}

MSGJ , единственный тип, который можно преобразовать, - это, как заметил пользователь: DMacks слишком беспорядочно определять квадратные и пустые ссылки из-за текста произвольной формы, который может окружать URL-адрес, если нет какого-либо заметного шаблона. Есть 334 статьи, которые содержат предшествующий "url =". Пара вопросов:{{cite web}}

  • Вы знаете , если содержание в http://www.ibiblio.org/lighthouse/*одно и то же , как , https://www.unc.edu/~rowlett/*как первоначально привел? т.е. каковы шансы, что на этих страницах произошел дрейф контента.
  • Что бы вы сделали, если у старого сайта есть |archiveurl=... удалить архив или оставить ссылку в покое?

- Зеленый C 19:19, 19 марта 2021 г. (UTC)

Спасибо, что заглянули в этот GreenC . Я спросил на Template talk: Cite rowlett и рабочие ссылки ibiblio.org почти точно соответствуют старым ссылкам unc.edu/~rowlett. Я не уверен, что делать со ссылками на архивы. Сохраните их, если они рабочие? Использование было бы предпочтительнее, где это возможно, но если нет, то голые ссылки можно просто заменить. Спасибо - Мартин ( MSGJ  ·  обсуждение ) 21:49, 22 марта 2021 г. (UTC){{Cite rowlett}}

nytimes.com ссылки на все Руководство Фильм содержания [ править ]

Ссылки на https://www.nytimes.com/movies/person/* мертвы и сообщаются как soft-404, поэтому архивные боты не обнаруживают. Всего около 1300 статей со ссылками в https и около 150 в http. URL-адреса относятся к The New York Times , но контент лицензирован для All Movie Guide, поэтому, если в цитировании CS1 | 2 он будет преобразован в и . Кроме того, URL-адрес архива, если он доступен, помечен как мертвый. Дополнительный кредит: он может попытаться определить дату и автора, очистив страницу архива. Пример . - Зеленый C 18:00, 6 апреля 2021 г. (UTC)|work=All Movie Guide|via=The New York Times

  • То же самое с https://www.nytimes.com/movies/movie/*, из которых около 3000 на https и около 170 на http. - Зеленый C 18:10, 6 апреля 2021 г. (UTC)
  • Больше информации можно найти на movies.nytimes.com - Зеленый C 20:41, 10 апреля 2021 г. (UTC)

Полученные результаты

  • Отредактировал 11 160 статей.
  • Добавить 14 871 новый архивный URL
  • Измените метаданные в 12 855 цитатах (например |work=)
  • Переключить 704 существующих архива с помощью |url-status=live->|url-status=dead
  • Прибавить 208 {{dead link}}
  • Различные другие общие исправления

- Зеленый C 00:25, 15 апреля 2021 г. (UTC)

article.timesofindia.indiatimes.com ссылается на timesofindia.indiatimes.com [ править ]

Несколько лет назад весь контент этого поддомена был перемещен на timesofindia.indiatimes.com. Однако ссылки не совпадают и не имеют перенаправлений, а также не могут быть реконструированы или угаданы с помощью каких-либо алгоритмов. Нужно искать в Google по названию ссылки с прежним доменом и обновлять ссылку с новым доменом.

LinkSearch

Старый URL - http://articles.timesofindia.indiatimes.com/2001-06-28/pune/27238747_1_lagaan-gadar-ticket-sales (в архиве )

Новый URL - https://timesofindia.indiatimes.com/city/pune/film-hungry-fans-lap-up-gadar-lagaan-fare/articleshow/1796672357.cms

Есть ли возможность для бота WP: SEMIAUTOMATED с данными пользователя о новом URL-адресе и обновлением WP? Есть ли бот? Если нет, я создал небольшой полуавтоматический скрипт ( здесь ), чтобы помочь мне с той же функциональностью. Нужно ли мне получать одобрение для этого бота, если он вообще считается ботом? - Шрихари Талла ( разговор ) 19:20, 8 апреля 2021 г. (UTC)

Вы наблюдаете проблемы с дрейфом контента (контент на новой странице отличается от старого). Вам нужно будет обработать существующие |archive-url=, |archive-date=и |url-status=поскольку они не могут измениться |url=и не |archive-url=могут быть изменены, необходимо убедиться, что они работают. Существует , что иногда следуют обнаженные и квадратные ссылки , возможно , потребуется удалить или изменить. Они должны быть обновлены от мертвых до живых. Есть{{webarchive}}|url-status={{dead link}}которые, возможно, потребуется добавить или удалить. Следует убедиться, что новый URL-адрес работает, а не предполагать, что это так; и если в заголовках есть перенаправления, перехватите их и измените URL-адрес для отражения. Это основы такой работы, это непросто. Имейте в виду, что существует 3 основных типа цитирования: те, которые находятся в шаблоне цитирования, те, которые находятся в квадратной ссылке, и те, которые не содержат ссылок. Из этих трех типов квадратный и голый могут иметь замыкающий . Все типы могут иметь завершающий .{{webarchive}}{{dead link}}
ИЛИ мой бот готов и может все это делать. Все, что потребуется, - это карта старых и новых URL-адресов. Существует до 20 000 URL. Вы предлагаете искать каждый вручную? Возможно, лучше оставить без изменений и добавить архивные URL. Те, у кого нет архивного URL (т. {{dead link}}Е.), Вручную ищут те, которые нужно запустить. Я мог бы сгенерировать список этих URL-адресов {{dead link}}, убедившись, что все остальное заархивировано. - Зеленый C 20:24, 8 апреля 2021 г. (UTC)
Если у вас уже есть готовый бот, то мы можем начать с тех, у которых нет архивного URL. Если бы вы могли составить список, я мог бы также разместить на WP: INDIA просьбу о добровольцах.
Я бы посоветовал выполнить эту работу, используя полуавтоматический скрипт, т.е. скрипт будет читать страницу со списком, анализировать каждую строку и печатать ее на терминале (все подробности ссылки возможны, полное цитирование / заголовок ссылки и т. Д.) чтобы пользователю было легко выполнить поиск, и как только новый URL-адрес будет найден, сценарий принимает ввод и сохраняет его на странице. Как вы думаете, это было бы быстрее и удобнее?
Я также предлагаю сформировать список, используя столбцы: серийный номер, ссылка, ссылка на ссылку / ссылка / квадрат, заголовок (если возможно), новый URL-адрес, новый статус URL-адреса, новый URL-адрес архива, дата нового URL-адреса архива. Последние новые пустые для заполнения после исследования. Эти колонки хорошо смотрятся?
У вас есть ссылка на своего бота? - DaxServer ( разговор ) 07:45, 9 апреля 2021 г. (UTC)
Как насчет того, чтобы предоставить вам как можно больше данных в обычном синтаксическом формате. Я бы предпочел не создавать финальную таблицу, так как это должно быть сделано автором полуавтоматического скрипта в зависимости от его требований и местоположения. Это нормально? Страница бота - это Пользователь: GreenC / WaybackMedic_2.5, однако она устарела на 3 года, как и репозиторий GitHub, с 2018 года было много изменений. Основной бот состоит почти из 20 тысяч строк, но каждый запрос на перемещение URLREQ имеет свои собственные настройки. модуль меньшего размера. Я могу опубликовать пример скелетного модуля, если вам интересно, он на Nim (язык программирования), который похож на синтаксис Python. - Зеленый C 18:24, 9 апреля 2021 г. (UTC)
Для начала хорошо подойдут данные в формате, пригодном для анализа. На основе этого можно со временем установить подходящий рабочий процесс. Как вы сказали, финальный стол может быть проведен позже.
К сожалению, я никогда не слышал о Ниме. Я немного знаю Python и мог бы взглянуть на Nim, но у меня нет времени до середины мая. Будет ли это примером модуля citeaddl ? Но это Медик 2.1, а не 2.5. Возможно, вы могли бы поделиться этим примером. Если это будет похоже на то, что я могу справиться без особого обучения, я смогу что-нибудь потренировать. Если нет, мне придется подождать до конца мая, а затем снова оценить! - DaxServer ( разговор ) 20:24, 9 апреля 2021 г. (UTC)

Пользователь: GreenC / software / urlchanger-skeleton-easy.nim - это общий исходный файл скелета. Чтобы дать представление о том, что происходит. Требуется только изменить некоторую переменную вверху, определяющую старые и новые домены. Существует «жесткий» каркас для дополнительных нужд, когда модификации выполняются по всему файлу, когда простой версии недостаточно. Файл является частью основного бота, изолирующего доменные изменения в этом файле. Я начну с вышеизложенного, это займет несколько дней, вероятно, в зависимости от того, сколько URL-адресов найдено. - Зеленый C 01:42, 11 апреля 2021 г. (UTC)

@ DaxServer : Бот закончил. Цитаты с записаны в Википедии: Link rot / cases / Times of India (raw) около 150. - Зеленый C 20:57, 16 апреля 2021 г. (UTC){{dead link}}

Приятно слышать! Спасибо @ GreenC - DaxServer ( обсуждение ) 11:16, 17 апреля 2021 (UTC)

Полученные результаты

  • Редактирует 9 509 статей.
  • Добавлены новые архивные URL 15 269
  • Изменено 1,167 |url-status=liveна|url-status=dead
  • {{dead link}} добавил около 100
  • 11 941 сайт изменил метаданные (например, нормализовано |work=, из "Times of India" удалено |title=)

odiseos.net - теперь сайт азартных игр [ править ]

На этот сайт было две ссылки. Я удалил одну. Архивный URL имеет содержание. Следует сохранить или удалить эту цитату?

Моя редакция и существующая ссылка - DaxServer ( обсуждение ) 07:50, 9 апреля 2021 г. (UTC)

Это узурпированная область. Обычно они меняются на |url-status=usurped. Экземпляр страницы обсуждения удален, потому что раздел «Внешние ссылки изменены» можно удалить, это старая система, которая больше не используется. Мне нужно обновить базу данных InternetArchiveBot, чтобы указать, что этот домен должен быть внесен в черный список, но служба в настоящее время не работает на техническое обслуживание. https://iabot.toolforge.org/ - Зеленый C 17:10, 9 апреля 2021 г. (UTC)
Я также отменил свою правку, чтобы включить |url-status=usurped( новую правку ). - DaxServer ( обсуждение ) 20:33, 9 апреля 2021 г. (UTC)

Перенести старые URL-адреса thehindu.com [ править ]

Старые URL-адреса, датированные периодом до 2010 года, имеют другую структуру URL-адресов. Контент перемещается на новый URL-адрес, но прямое перенаправление недоступно. Старый URL-адрес перенаправляется на страницу со списком, которая классифицируется по дате публикации статьи. Нужно искать по названию статьи и переходить по ссылке. Удивительно, но некоторые проверенные мной заархивированные URL-адреса были перенаправлены на новый заархивированный URL-адрес. Я предполагаю, что перенаправление работало в прошлом, но в какой-то момент было прервано.

Старый URL - http://hindu.com/2001/09/06/stories/0406201n.htm ( заархивировано в 2020 году - автоматически перенаправляется на новый заархивированный URL; старый архив с 2013 года )

Перенаправлен на страницу списка - https://www.thehindu.com/archive/print/2001/09/06/

Название - IT-гигант, сбитый с толку Найду

Новый URL со страницы списка - https://www.thehindu.com/todays-paper/tp-miscellaneous/tp-others/it-giant-bowled-over-by-naidu/article27975551.ece

Нет сдвига содержимого со старого URL (архив 2013 г.) и нового URL.

Пример от Н. Чандрабабу Найду - PS. Эта цитата используется дважды (при поиске по заголовку), одна со старым URL-адресом, а другая с новым URL-адресом. - DaxServer ( обсуждение ) 14:18, 9 апреля 2021 г. (UTC)

Новый URL [4] находится за платным доступом и нечитаем, в то время как архив старого URL [5] полностью читаем. Я думаю, что было бы предпочтительнее поддерживать архивы старых URL-адресов, поскольку они не являются платными и не будет проблем с дрейфом контента. Возможно, аналогично приведенной выше попытке миграции, когда soft-404 перенаправляет на страницу списка, когда архив недоступен. - Зеленый C 17:37, 9 апреля 2021 г. (UTC)
В таком случае, возможно, WaybackMedic или бот IA могут добавить заархивированные URL-адреса ко всем этим ссылкам? Если вы хотите быть более конкретным, вот регулярное выражение URL-адресов, которые я нашел до сих пор. Могут быть и другие, с которыми я еще не сталкивался.
https?\:\/\/(www\.)?(the)?hindu\.com\/(thehindu\/(fr|yw|mp|pp|mag)\/)?\d{4}\/[01]\d\/[0-3][0-9]\/stories\/[0-9a-z]+\.htm
- DaxServer ( обсуждение ) 20:39, 9 апреля 2021 г. (UTC)
Можете ли вы проверить регулярное выражение, потому что я не думаю, что оно будет соответствовать указанному выше «Старому URL» в сегменте \d{4}\/[01]\d\/[0-3][0-9]\/ ... может быть, это другой вариант URL? - Зеленый C 21:52, 9 апреля 2021 г. (UTC)
Это совпадает. Я проверил это на regex101, а также на Python cli. Возможно, вот более простое регулярное выражение.
https?\:\/\/(www\.)?(the)?hindu\.com\/(thehindu\/(fr|yw|mp|pp|mag)\/)?\d{4}\/\d{2}\/\d{2}\/stories\/[0-9a-z]+\.htm - DaxServer ( обсуждение ) 12:02, 10 апреля 2021 г. (UTC)
Ага, извини, неправильно прочитал, спасибо. - Зеленый C 13:33, 10 апреля 2021 г. (UTC)
Regex изменен для работы с Elasticsearch insource:и некоторыми дополнительными совпадениями. 12 229
insource:/\/{2}(www[.])?(the)?hindu[.]com\/(thehindu\/)?((cp|edu|fr|lf|lr|mag|mp|ms|op|pp|seta|yw)\/)?[0-9]{4}\/[0-9]{2}\/[0-9]{2}\/stories\/[^.]+[.]html?/
- Зеленый C 04:27, 17 апреля 2021 г. (UTC)

DaxServer , индус готов. Список мертвых ссылок: Википедия: Link rot / cases / The Hindu (raw) . - Зеленый C 13:24, 23 апреля 2021 г. (UTC)

Отличная работа @ GreenC  !! - DaxServer ( обсуждение ) 16:58, 23 апреля 2021 г. (UTC)
  • Редактирует 11 985 статей.
  • Добавлены новые архивные URL 15 954
  • Переключено 2412 |url-status=liveдо мертвых
  • Добавлено 1244 {{dead link}}
  • 12 234 ссылки на измененные метаданные (например, нормализованы |work=, удалено "The Hindu" |title=и т. Д.)
  • Обновлена ​​база данных IABot, каждая ссылка индивидуально занесена в черный список.

sify.com [ править ]

Любая ссылка, которая перенаправляет на домашнюю страницу. Пример . Пример - Зеленый C 14:27, 17 апреля 2021 г. (UTC)

Полученные результаты

  • Добавить 4 132 новые ссылки на архив ( пример )
  • Добавить или изменить 1,149 |url-status=dead ( пример )
  • Установить ссылки «В черный список» в базе IABot

Ancient.eu [ править ]

Энциклопедия древней истории была переименована в Энциклопедию всемирной истории и переместила домен на worldhistory.org . В Википедии есть много ссылок на этот сайт. Вместо этого все ссылки, указывающие на Ancient.eu, должны указывать на worldhistory.org . В остальном структура URL такая же (т.е. https://www.ancient.eu/Rome/ теперь https://www.worldhistory.org/Rome/ ). - Предыдущий неподписанный комментарий, добавленный Тамисом ( обсуждение • вклад )

Привет @ Thamis :, спасибо за наводку / информацию, это, безусловно, возможно. Как вы думаете, есть ли причина рассматривать Content Drift, т.е. страница на новом сайте отличается от оригинала (по сути) или в основном представляет собой копию основного содержания 1: 1? Сравнивая эту страницу с этой, похоже, что это административное изменение, а не изменение содержания. - Зеленый C 23:40, 20 апреля 2021 г. (UTC)
Спасибо за глядя на это, @ GreenC : . Нет дрейфа контента, это копия контента 1: 1 с точно такими же URL-адресами (только домен другой). Когда я сравниваю две страницы Рима из архива и новый домен, который вы связали, я вижу одну и ту же страницу. То же самое верно и для любой другой страницы, которую вы, возможно, захотите проверить. :-)

@ Thamis : , этот URL работает , но этот URL не делает. Субдомен etc.ancient.eu не перенесен, но все еще работает на старом сайте. Для них он будет пропущен, поскольку ссылка все еще работает, и я не хочу добавлять URL-адрес архива к действующим ссылкам, если в будущем он будет перенесен на worldhistory.org. Может быть пересмотрен позже. - Зеленый C 16:03, 23 апреля 2021 г. (UTC)

@ GreenC : Действительно, этот поддомен etcancient.eu не был перенесен. Домен www.ancient.eu превратился в www.worldhistory.org - субдомены, отличные от www, следует игнорировать.

@ Тамис : готово. В дополнение к URL-адресам он также был изменен / добавлен |work=и т.д .. в Энциклопедию мировой истории . Получилось около 90%, но строка «Энциклопедия древней истории» все еще существует на 89 страницах / сайтах , для их преобразования потребуется ручная работа (URL-адреса преобразуются, а строка - нет). В основном это сайты свободной формы с необычным форматированием, и их можно очистить вручную, вероятно, в идеале - преобразовать в . - Зеленый C 01:07, 24 апреля 2021 г. (UTC){{cite encyclopedia}}

Полученные результаты

  • Отредактировал 759 статей
  • Конвертировано 917 URL ( пример )

* .in.com [ править ]

Все мертво. Некоторые перенаправляют на новую домашнюю страницу домена, не связанную с предыдущим сайтом. У некоторых есть двухуровневые субдомены. Все, что теперь установлено в «Черный список» в IABot для глобального использования вики, также поможет пройти Медик на enwiki. - Зеленый C 04:13, 25 апреля 2021 г. (UTC)

Полученные результаты

  • Отредактировал 3803 статьи
  • Добавлено 3863 новых архивных URL
  • Изменено / добавлено 732 |url-status=deadк существующим URL-адресам архива.
  • Добавлено 104 {{dead link}}
  • Установить отдельные ссылки в «черный список» в базе IABot

Удалить oxfordjournals.org [ править ]

Здравствуйте, я думаю, что все ссылки на поддомены oxfordjournals.org в параметре url в {{ cite journal }} должны быть удалены, если есть хотя бы набор параметров doi, pmid, pmc или hdl. Все эти ссылки не работают, потому что они перенаправляют на версию HTTPS, которая использует сертификат, действительный только для silverchair.com (например: http://jah.oxfordjournals.org/content/99/1/24.full.pdf ).

DOI перенаправляет на реальный целевой URL-адрес, который в настоящее время находится где-то на Acade.oup.com, поэтому нет смысла хранить или добавлять заархивированные URL-адреса или параметры url-status. Эти URL-адреса были сломаны уже много лет, поэтому, скорее всего, они никогда не будут исправлены. Немо 07:13, 25 апреля 2021 г. (UTC)

Около 15000 . Меня предостерегали за удаление архивных URL-адресов из-за дрейфа контента, т.е. страница во время цитирования содержит другой контент, чем текущий (Acade.oup.com), поэтому URL-адрес архива полезен для отображения страницы во время цитирования в целях проверки. OTOH, если есть основания полагать, что дрейф контента не является проблемой для конкретной области, это не мой призыв к тому, чтобы кто-то еще должен был провести это исследование и определить, должно ли это вызывать беспокойство. @ Nemo bis : - Зеленый C 16:03, 25 апреля 2021 г. (UTC)
«Версия записи» такая же, поэтому PDF-файл на новом веб-сайте должен быть идентичен старому. Копия PubMed Central обычно также предоставляется издателем. Таким образом, DOI и PMC ID, если они есть, исключают любой риск дрейфа контента. С другой стороны, я почти уверен, что тот, кто добавил эти URL-адреса, не имел в виду ссылку на страницу с ошибкой TLS. :) Nemo 18:21, 25 апреля 2021 (UTC)
Я могу это сделать, просто мне понадобится время, спасибо. - Зеленый C

@ Nemo bis : отредактировал 20 статей: 1 2 3 4 5 - Я забыл удалить |access-date=в нескольких случаях. Вы видите другие проблемы? - Зеленый C 00:50, 6 мая 2021 г. (UTC)

На первый взгляд хорошо смотрится. Я не помню, могут ли боты Citoid или Citation извлекать DOI из HTML на более поздних этапах, как только они смогут получить HTML с обратной машины, но в любом случае это хорошо. Немо, 06:01, 6 мая 2021 г. (UTC)

Исправьте ссылки pdfs.semanticscholar.org [ править ]

URL-адреса pdfs.semanticscholar.org, которые HTTP 301 перенаправляют на www.semanticscholar.org, на самом деле являются мертвыми ссылками. Сейчас их довольно много. Ссылка на обратную машину возможна, но я считаю, что InternetArchiveBot обычно не добавляет ее. Немо 21:15, 28 апреля 2021 г. (UTC)

Они мягкие 404 в том смысле, что целевая страница - 200 и обслуживает связанный контент, но не то, что ожидается от исходного URL (например, PDF). Мы можем восстановить PDF-файл с помощью WaybackMachine и других поставщиков архивов в качестве URL-адресов архива. Будучи 404ish ссылки, они должны быть сохранены как первоначально предназначался для WP: V целей. Если в цитировании уже есть ссылка на архив, она будет пропущена. Если не удается найти ссылку на архив, URL-адрес остается на месте, а бот Citation обрабатывает ее - может сгенерировать их список, вероятно, их будет немного. - Зеленый C 21:29, 28 апреля 2021 г. (UTC)
Имеет смысл, спасибо! Немо 06:42, 29 апреля 2021 (UTC)
Nemo, тестирование идет хорошо и почти готов к полному запуску. Обнаружено несколько типов краевых чехлов, требующих особого обращения, так что хорошо, что это обычай. Вопрос: знаете ли вы, сохранит ли бот Citation URL-адрес архива с этим различием или удалит его? - Зеленый C 16:51, 29 апреля 2021 г. (UTC)
Эти различия выглядят хорошо. Насколько мне известно, в настоящий момент бот Citation не удаляет эти URL-адреса; Я протестировал несколько статей после правок вашего бота, и они остались в покое. Немо 04:38, 30 апреля 2021 (UTC)

Немо , выглядит готовым, дайте мне знать, если вы заметите какие-нибудь проблемы. - Зеленый C 16:43, 30 апреля 2021 г. (UTC)

Спасибо! Википедия: Ссылка rot / cases / pdfs.semanticscholar.org очень полезна. Я заметил, что OAbot может найти дополнительные URL-адреса для добавления, когда доступен DOI и параметр URL-адреса очищен. Поэтому я думаю, что сделаю еще один проход с OAbot, сказав ему игнорировать URL-адреса SemanticScholar, а затем вручную удалю лишние. Немо 20:48, 1 мая 2021 г. (UTC)
Собственно, я буду отслеживать это на фабрикаторе: T281631 для лучшей видимости. Немо 21:51, 1 мая 2021 г. (UTC)

Полученные результаты

  • Отредактировал 2754 статьи
  • Добавлено 3204 новых URL-адреса архива для pdfs.semanticscholar.org
  • Добавить / изменить 74 |url-status=deadв уже существующих URL-адресах архива
  • 485 URL-адресов архивов не найдено: Википедия: Link rot / cases / pdfs.semanticscholar.org
  • Обновлена ​​база данных IABot. Внесены в черный список заархивированных URL-адресов, но сохранены в белом списке для оставшихся URL-адресов в домене.

Обновление цитат TracesOfWar [ править ]

В настоящее время Википедия содержит цитаты и ссылки на источники на веб-сайты TracesOfWar.com и .nl ​​(двуязычный EN-NL), а также на бывшие веб-сайты ww2awards.com, go2war2.nl и oorlogsmusea.nl. Однако эти веб-сайты были интегрированы в TracesOfWar в последние годы, так что ссылка на источник теперь неверна на сотнях страниц и во много раз больше с точки зрения ссылок на источники. К счастью, в настоящее время существует ситуация, когда ww2awards и go2war2 по-прежнему перенаправляются на правильную страницу на TracesOfWar, но это больше не относится к oorlogsmusea.nl. Мне удалось вручную исправить все источники oorlogsmusea.nl. Для ww2awards и go2war2 переадресация прекратится в краткосрочной перспективе, что приведет к тысячам неработающих ссылок, в то время как она может быть правильно направлена ​​на тот же источник. Краткий пример: человекУ Ллевеллина Чилсона (на Tracesofwar people id 35010) теперь есть ссылка на источник на http://en.ww2awards.com/person/35010 , но это должно быть https://www.tracesofwar.com/persons/35010/ . Короче говоря, старый формат в новый формат с точки зрения URL-адреса, но тот же идентификатор.

На мой взгляд, это должно позволить конвертировать все в формат ' http://en.ww2awards.com/person/ [id]' (старый английский) или ' http://nl.ww2awards.com/person/ [ id] '(старый голландский) на https://www.tracesofwar.com/persons/ [id] (новый английский) или https://www.tracesofwar.nl/persons/ [id] (новый голландский ) соответственно. То же самое и с go2war2.nl, но с немного другим форматом. http://www.go2war2.nl/artikel/ [id] становится https://www.tracesofwar.nl/articles/ [id]. То же самое уже было сделано в голландской Википедии с помощью аналогичного запроса бота. Lennard87 ( разговор ) 18:50, 29 апреля 2021 (UTC)

@ Lennard87 :, вижу около 500 URL-адресов основного пространства на enwiki для всех доменов вместе взятых. Можете ли вы убедиться, что ничего не пропало? - Зеленый C 22:18, 1 мая 2021 г. (UTC)

  • go2war2.nl <50
  • ww2awards.com <300
  • tracesofwar.com <150
  • tracesofwar.nl <30
@ GreenC :, это вполне возможно, да, но у меня нет точных цифр. В любом случае, примерно 350 (go2war2 + ww2awards) следует заменить на tracesofwar.com или .nl.

@ Lennard87 : результаты для www2awards: он переместил 251 URL. Пять примеров показывают различные типы проблем: [6] [7] [8] [9] [10] .. вариации на "WW2 Awards" и расположение в цитате трудны. (Кстати, вместо / person / some have / award / который на новом сайте - / awards / Example ) - Зеленый C 18:43, 2 мая 2021 г. (UTC)

Результаты для go2war аналогичны: он переместил 48 URL-адресов: [11] [12] - Зеленый C 19:26, 2 мая 2021 г. (UTC)

@ GreenC : Спасибо. Увидел ситуации, которые сложны, но предлагаемые изменения верны. Также да, я забыл про / награду / изменение; это тоже может быть применено, пожалуйста. Только последний с Гюнтером Йостеном сложен, так как идентификатор изображения тоже изменился: https://www.mystiwot.nl/myst/upload/persons/9546061207115933p.jpg . Между ними нет никакой связи, так что лучше оставить «человека изображений» в покое или использовать трюк с веб-архивом.

Reuters [ править ]

Новый веб - сайт Reuters перенаправлены все поддомены www.reuters.com и сломал все ссылки. Думаю, это около 50 тысяч статей только в английской Википедии. Я вижу, что домен внесен в белый список InternetArchiveBot, но не уверен, что это предназначено. Немо 20:13, 1 мая 2021 г. (UTC)

Вау, это главное. Домены могут автоматически добавляться в белый список, если бот получает запутанные сообщения в результате возврата пользователя (бота). Похоже, что некоторые поддомены все еще работают [13] . Или правильно верните 404, и IABot подхватит его - за исключением белого списка [14] . Или мягкий 404инг [15] . Как определить soft404 - это искусство, в этом случае достаточно просто перенаправить на страницу с заголовком «Домашняя страница», но, вероятно, есть и другие неизвестные места посадки. WaybackMedic должен уметь это делать, у него хороший код для отслеживания перенаправлений, проверки заголовков и проверки (известных) soft404. Не смогу начать хотя бы неделю, чтобы наверстать упущенное. Это займет некоторое время из-за размера. - Зеленый C 21:59, 1 мая 2021 г. (UTC)

Спасибо. Я насчитал 249299 ссылок на reuters.com на ~ всех вики на данный момент ( фабрикатор: P15671 ). Немо 08:06, 2 мая 2021 г. (UTC)
Интересно насколько они разнесены, кроме enwiki. Вероятно, существует правило, аналогичное 80/40, но больше похожее на 40/60 или 33/66 (enwiki / все остальное) - Зеленый C 15:13, 2 мая 2021 г. (UTC)

Мертвые ссылки дублируются постоянными ссылками [ править ]

Относящиеся к #Fix pdfs.semanticscholar.org ссылкам , а точнее работы, последовавших за ней в phabricator: T281631 , есть несколько сотен {{ мертвая ссылка }} уведомления , которые могут быть удалены (вместе с соответствующим URL) , так как DOI или Можно ожидать, что HDL предоставит каноническую постоянную ссылку. См. Простой поиск по адресу:

  • Special: Search / insource: "doi-access = free неработающая ссылка" (330)
  • Special: Поиск / insource: "hdl-access = free dead link" (21)

Это не так актуально, как проблема с OUP, описанная выше, и, если она сложна, я могу также сделать это вручную, но она кажется достаточно большой, чтобы в какой-то момент запустить бот. Немо 16:26, 5 мая 2021 г. (UTC)

Чтобы подтвердить, что шаблон цитирования содержит |doi-access=freeили |hdl-access=freeимеет прикрепленный, удалите (плюс ) и значок - Зеленый C 20:11, 5 мая 2021 г. (UTC){{dead link}}{{dead link}}{{cbignore}}|url=
Да. Также PMC. Немо 20:58, 5 мая 2021 г. (UTC)