Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

archive.today (ранее archive.is ) - это сайт-архив, на котором хранятся снимки веб-страниц. [1] Он извлекает по одной странице за раз, аналогично WebCite , каждая размером менее 50 МБ, но с поддержкой тяжелых сайтов с JavaScript, таких как Google Maps и прогрессивных веб-приложений, таких как Twitter .

Archive.today записывает одновременно два разных «снимка» веб-страницы. Один из них - это «Веб-страница», которая включает в себя любые действующие живые ссылки, которые есть в оригинале. Другой - «Снимок экрана», который обеспечивает статическую и неинтерактивную визуализацию представления. [2]

Особенности [ править ]

Функциональность [ править ]

Archive.today может захватывать отдельные страницы в ответ на явные запросы пользователей. [3] [4] [5] С самого начала Archive.Today поддерживает сканирование страниц с URL-адресами, содержащими уже устаревший фрагмент хеш-бэга ( #! ). [6]

Archive.today записывает только текст и изображения, за исключением видео, XML , RTF , электронных таблиц ( xls или ods ) и другого нестатического содержимого. Он отслеживает историю сохраненных снимков, возвращая пользователю запрос на подтверждение перед добавлением нового снимка уже сохраненного Интернет-адреса. [7]

Страницы захватываются с шириной браузера 1024 пикселя. CSS преобразуется во встроенный CSS, удаляя отзывчивый веб-дизайн и селекторы, такие как :hoverи :active. Контент, созданный с использованием JavaScript в процессе сканирования, остается в замороженном состоянии. [8] Имена классов HTML сохраняются внутри old-class атрибута .

Когда текст выделен , апплет JavaScript [ требуется пояснение ] генерирует фрагмент URL-адреса, видимый в строке URL-адреса браузера, который автоматически выделяет эту часть текста при повторном посещении.

Веб-страницы не могут быть дублированы с archive.is на web.archive.org в качестве резервной копии второго уровня , поскольку archive.is делает исключение для Wayback Machine и не сохраняет свои снимки в формате WARC. Обратное - от web.archive.org к archive.is - возможно, [9] но копирование обычно занимает больше времени, чем прямой захват. Некоторые веб-сайты удаляются из списков Internet Archive задним числом или блокируются для сохранения из-за их файла robots.txt , но Archive.today не использует это. [ необходима цитата ]

Панель инструментов исследования позволяет использовать расширенные операторы ключевых слов, используя *в качестве подстановочного знака . Пара кавычек указывает поиск точной последовательности ключевых слов, присутствующих в заголовке или теле веб-страницы, тогда как оператор insite ограничивает поиск конкретным доменом в Интернете. [10]

После того, как веб-страница заархивирована, ни один пользователь Интернета не может удалить ее напрямую. [11]

При сохранении динамического списка окно поиска archive.today показывает только результат, который связывает предыдущий и следующий раздел списка (например, 20 ссылок на страницу). [12] Остальные сохраненные веб-страницы фильтруются, и иногда их можно найти по одному из их вхождений. [ необходима цитата ]

Функция поиска поддерживается Google CustomSearch. Если результатов нет, archive.is пытается воспользоваться поиском Яндекса . [ необходима цитата ]

Если страница уже была заархивирована, archive.is просит пользователя подтвердить архивирование новой ревизии вместо того, чтобы немедленно ее архивировать. [ необходима цитата ]

При загрузке страницы отображается список URL-адресов отдельных элементов страницы с указанием размеров их содержимого, статусов HTTP и типов MIME . Этот список можно просмотреть только в процессе сканирования. [ необходима цитата ]

Можно загружать заархивированные страницы в виде ZIP-файла, за исключением страниц, заархивированных с 29 ноября 2019 года, когда Archive.Today изменил свой движок браузера с PhantomJS на Chromium . [13]

С июля 2013 года archive.today поддерживает интерфейс прикладного программирования (API) Memento Project . [14] [15]

История [ править ]

Archive.today был основан в 2012 году. Первоначально сайт назывался archive.today, но в мае 2015 года основное зеркало было изменено на archive.is. [16]

В январе 2019 года он начал заменять домен archive.is на зеркало archive.today. [17]

Доступность во всем мире [ править ]

Австралия [ править ]

В марте 2019 года сайт был заблокирован на шесть месяцев несколькими австралийскими интернет-провайдерами после стрельбы в мечети Крайстчерча в попытке ограничить распространение видеозаписи нападения. [18] [19]

Китай [ править ]

По данным GreatFire.org , archive.today заблокирован в Китае с марта 2016 года, [20] archive.li - с сентября 2017, [21] и archive.fo - с июля 2018 года. [22]

Финляндия [ править ]

21 июля 2015 года операторы заблокировали доступ к услуге со всех финских IP-адресов , заявив в Твиттере, что они сделали это, чтобы избежать эскалации спора, который они предположительно имели с финским правительством. [23]

Россия [ править ]

В России возможен только HTTP-доступ; HTTPS-соединения заблокированы. [24] [25]

По всему миру [ править ]

Archive.today в настоящее время блокирует запросы от Cloudflare рекурсивного DNS распознаватель «s, 1.1.1.1 . [26] Archive.today настаивает на том, чтобы рекурсивные распознаватели DNS учитывали геолокацию пользователя, выполняющего поиск в DNS. По соображениям конфиденциальности Cloudflare специально не включает геолокацию пользователя, отправляющего запрос. В результате DNS-серверы archive.today намеренно возвращают недопустимые ответы при запросе рекурсивного DNS-преобразователя Cloudflare. [27]

Кроме того, с конца 2018 года Archive.today ввел ограничение данных , предположительно для защиты от атак типа «отказ в обслуживании» . Отдельные пользователи могут архивировать и / или извлекать только приблизительно от 10 до 20 мегабайт данных в день. После достижения этого ограничения их веб-сервер блокирует IP-адрес отдельного пользователя, больше не отвечая. [ необходима цитата ]

См. Также [ править ]

  • Цифровое сохранение
  • Интернет-архив
  • Ссылка гниль
    • Википедия: Ссылка гниль
  • Perma.cc
  • Wayback Machine
  • Веб-архивирование
  • WebCite

Ссылки [ править ]

  1. Бринкманн, Мартин (22 апреля 2015 г.). «Создавайте общедоступные архивы веб-страниц с помощью Archive.is» . Гаки . Архивировано 12 апреля 2019 года . Дата обращения 13 июня 2015 .
  2. ^ Brunelle, Джастин Ф .; Келли, Мэт; Weigle, Michele C .; Нельсон, Майкл Л. (25 января 2015 г.). «Влияние JavaScript на возможность архивирования» (PDF) . Международный журнал электронных библиотек . 17 (2): 95–117. DOI : 10.1007 / s00799-015-0140-8 . S2CID 8433375 . Архивировано 27 мая 2019 года (PDF) .  
  3. ^ Dăscălescu, Dan (18 февраля 2013). «Архивирование веб-страниц - Wiki Дэна Даскалеску (обзор)» . Wiki.dandascalescu.com. Архивировано из оригинального 22 сентября 2013 года . Проверено 3 октября 2013 года .
  4. ^ Koebler, Джейсон (29 октября 2014). «Дорогой GamerGate, пожалуйста, прекратите воровать наше дерьмо» . Материнская плата . Архивировано 27 мая 2019 года . Проверено 22 марта 2017 года . Веб-сайт не может защитить себя от зеркалирования сайта пользователем Archive.today.
  5. ^ "archive.is/faq" . archive.is . Проверено 15 февраля 2019 .
  6. ^ «Домашняя страница Archive.is в 2013 году» . Архивировано из оригинального 12 января 2013 г. Он может сохранять страницы с сайтов Web 2.0 даже с hashbang URL - адресов, например http://twitter.com/#!/medvedevrussia
  7. ^ «Пример истории снимков на archive.is» .
  8. ^ Сгенерированная JavaScript анимация загрузкивидео Dailymotion, появляющаяся в замороженном состоянии
  9. ^ «Пример: страница сохранена из веб-архива в Archive.is» . Архивировано из оригинального 20 мая 2013 года . Проверено 23 октября 2019 года .
  10. ^ Например, строка insite: https://en.wikipedia.org "World Cup" возвращает "World + Cup" / связанные снимки.
  11. ^ «Некоторые часто задаваемые вопросы» . archive.is блог . 24 января 2013 года. Архивировано 26 сентября 2013 года . Проверено 12 ноября 2018 .
  12. ^ "Пример динамического списка, полученного Worldcat" .
  13. ^ "Archive.is блог" . 17 июля 2020 г. Архивировано 3 октября 2020 г.
  14. ^ Нельсон, Майкл Л. (9 июля 2013 г.). «Archive.is поддерживает Memento» . Обновления исследований и преподавания . Группа исследований веб-науки и электронных библиотек в Университете Олд Доминион . Архивировано 27 июля 2013 года . Проверено 17 сентября 2013 года .
  15. ^ "archive.is" . Информация протокола Memento . Мементо Девелопмент Групп. Архивировано из оригинального 15 сентября 2013 года . Проверено 17 сентября 2013 года .
  16. ^ "Почему вы изменили URL-адрес с archive-today на archive-is?" . Archive.is Блог . 3 мая 2015. Архивировано 1 июня 2015 года . Проверено 6 января 2019 .
  17. ^ @archiveis (4 января 2019 г.). «Пожалуйста, не используйте зеркало archive.IS для связывания, используйте другие зеркала [.TODAY .FO .LI .VN .MD .PH]. .IS может скоро перестать работать» (твит). Архивировано 6 января 2019 года - через Twitter .
  18. ^ «Интернет-провайдеры в Австралии и Новой Зеландии начинают цензуру в Интернете без юридических прецедентов» . Частный доступ в Интернет . 19 марта 2019 . Проверено 20 марта 2019 .
  19. ^ «Новозеландские интернет-провайдеры заявляют, что блокируют сайты, которые не могут удалить видеоролики, снятые в Крайстчерче» . Gizmodo Australia . 19 марта 2019. Архивировано 18 мая 2019 года . Проверено 20 марта 2019 .
  20. ^ "archive.is на 100% заблокирован в Китае" . Анализатор GreatFire . 12 августа 2018. Архивировано 12 августа 2018 года.
  21. ^ "archive.li на 100% заблокирован в Китае" . Большой пожарный анализатор . 12 августа 2018. Архивировано 12 августа 2018 года.
  22. ^ "archive.fo на 100% заблокирован в Китае" . Большой пожарный анализатор . 12 августа 2018. Архивировано 12 августа 2018 года.
  23. ^ Lapintie, ласси (22 июля 2015). "Suomalaisilta estettiin haktivistien suosimalla verkkosivulla käynti" [доступ финнов к веб-сайту, используемому хактивистами]. Iltalehti (по-фински). Архивировано 27 мая 2019 года . Проверено 4 марта 2016 года .
  24. Елистратов, Владимир (29 января 2016 г.). "Роскомнадзор заблокировал сервис archive.is, хранящий копии веб-сайтов"Роскомнадзор заблокировал сервис archive.is, хранящий копии веб-сайтов. TJournal (на русском языке). Архивировано 30 августа 2017 года . Проверено 30 января 2016 года .
  25. Кушинг, Тим (4 февраля 2016 г.). «Россия блокирует еще один архивный сайт, потому что он может содержать старые страницы о наркотиках» . Techdirt . Архивировано 23 марта 2019 года . Проверено 26 февраля +2016 .
  26. ^ @archiveis (15 июля 2018 г.). " Имея сделать“не настолько непосредственна здесь. Отсутствие EDNS и массовых рассогласования (не только на AS / Страна, но даже на уровне континента) , где DNS и связанные запросы HTTP происходят из причин так много неприятностей , поэтому я считаю EDNS -без запросов от Cloudflare как недействительные » (твит) - через Twitter .
  27. ^ https://news.ycombinator.com/item?id=19828702

Внешние ссылки [ править ]

  • СМИ, связанные с Archive.today на Викискладе?
  • Официальный веб-сайт
  • Блог Archive.is
  • archive.today в Твиттере
  • «7 лучших альтернативных вариантов для использования в 2019 году»