Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Вайбак машина представляет собой цифровой архив в World Wide Web , основанной на Internet Archive , некоммерческой библиотеки , базирующейся в Сан - Франциско . Это позволяет пользователю вернуться «назад во времени» и увидеть, как веб-сайты выглядели в прошлом. Его основатели, Брюстер Кале и Брюс Гиллиат , разработали Wayback Machine с намерением предоставить «универсальный доступ ко всем знаниям» путем сохранения архивных копий несуществующих веб-страниц.

С момента запуска в 2001 году в архив добавлено более 525 миллиардов страниц. Служба также вызвала споры по поводу того, является ли создание заархивированных страниц без разрешения владельца нарушением авторских прав в определенных юрисдикциях.

История [ править ]

Основатели Internet Archive Брюстер Кале и Брюс Гиллиат запустили Wayback Machine в 2001 году, чтобы решить проблему исчезновения содержимого веб-сайта при его изменении или при закрытии веб-сайта. [3] Сервис позволяет пользователям просматривать архивные версии веб-страниц во времени, что в архиве называется «трехмерным индексом». [4] Кале и Гиллиат создали машину, надеясь заархивировать весь Интернет и обеспечить «универсальный доступ ко всем знаниям». [5]

Название Wayback Machine было выбрано как отсылка к вымышленному устройству путешествия во времени, « Wayback Machine » (произносится « обратный путь» ), используемому персонажами Мистером Пибоди и Шерманом в мультфильме «Шоу Рокки и Буллвинкла» 1960-х годов. [6] [7] В одном из сегментов анимационного мультфильма « Невероятная история Пибоди» персонажи обычно использовали машину, чтобы стать свидетелями, участвовать в известных событиях в истории и часто изменять их.

Wayback Machine начала архивирование кешированных веб-страниц в мае 1996 года [8] [9] с целью сделать сервис общедоступным через пять лет. [10] С 1996 по 2001 год информация хранилась на цифровой ленте, и Кале иногда позволяла исследователям и ученым подключаться к неуклюжей базе данных . [11] Когда в 2001 году архиву исполнилось пять лет, его открыли и открыли для публики на церемонии в Калифорнийском университете в Беркли . [12] К моменту запуска Wayback Machine он уже содержал более 10 миллиардов заархивированных страниц. [13]

Сегодня данные хранятся в большом кластере узлов Linux Internet Archive . [5] Время от времени он повторно посещает и архивирует новые версии веб-сайтов (см. Технические детали ниже). [14] Сайты также можно захватить вручную, введя URL-адрес веб- сайта в поле поиска, при условии, что веб-сайт позволяет Wayback Machine «сканировать» его и сохранять данные. [10] 30 октября 2020 года Wayback Machine начала проверку контента. [15]

Технические детали [ править ]

Программное обеспечение было разработано для «сканирования» Интернета и загрузки всей общедоступной информации и файлов данных на веб-страницах, в иерархии Gopher , в системе доски объявлений Netnews (Usenet) и в загружаемом программном обеспечении. [16] Информация, собираемая этими «поисковыми роботами», не включает всю информацию, доступную в Интернете, поскольку большая часть данных ограничена издателем или хранится в базах данных, которые недоступны. Чтобы преодолеть несоответствия на частично кэшированных веб-сайтах, Archive-It.org был разработан в 2005 году Internet Archive как средство, позволяющее организациям и создателям контента добровольно собирать и сохранять коллекции цифрового контента, а также создавать цифровые архивы. [17]

Сканирование осуществляется из различных источников, некоторые из которых импортируются третьими сторонами, а другие создаются внутри Архива. [14] Например, обходы выполняются Sloan Foundation и Alexa , обходы выполняются IA от имени NARA и Internet Memory Foundation , зеркала Common Crawl . [14] "Worldwide Web Crawls" проводится с 2010 года и охватывает глобальную сеть. [14] [18]

Частота создания снимков зависит от веб-сайта. [14] Веб-сайты из «Worldwide Web Crawls» включаются в «список сканирования», при этом сайт архивируется один раз за сканирование. [14] В зависимости от размера сканирование может занять месяцы или даже годы. [14] Например, «Широкое сканирование номер 13» началось 9 января 2015 г. и завершилось 11 июля 2016 г. [19] Однако в любой момент времени может выполняться несколько сканирований, и сайт может быть включен в более одного списка сканирования, поэтому частота сканирования сайта сильно различается. [14]

По состоянию на октябрь 2019 года пользователи ограничены 5 запросами на архивирование и извлечением в минуту. [ необходима цитата ] [ почему? ]

Емкость и рост хранилища [ править ]

По мере развития технологий на протяжении многих лет емкость Wayback Machine увеличивалась. В 2003 году, всего после двух лет публичного доступа, Wayback Machine росла со скоростью 12 терабайт в месяц. Данные хранятся в стеллажных системах PetaBox, специально разработанных сотрудниками Internet Archive. Первая стойка на 100 ТБ была полностью готова к работе в июне 2004 года, хотя вскоре стало ясно, что им потребуется гораздо больше места для хранения. [20] [21]

Internet Archive мигрировали свою настроенную архитектуру хранения данных в Sun Open Storage в 2009 году, и хостов новый центр обработки данных в Sun Modular Datacenter на Sun Microsystems в университетском городке в Калифорнии. [22] По состоянию на 2009 год Wayback Machine содержала примерно три петабайта данных и росла со скоростью 100 терабайт каждый месяц. [23]

Новая, улучшенная версия Wayback Machine с обновленным интерфейсом и более свежим индексом архивного контента была сделана доступной для публичного тестирования в 2011 году. [24] В марте того же года на форуме Wayback Machine было сказано, что « Бета-версия новой Wayback Machine имеет более полный и актуальный индекс всех просканированных материалов на 2010 год, и будет продолжать регулярно обновляться. В индексе классической Wayback Machine лишь немного материалов за прошлый 2008 год, и никаких дальнейших обновлений индекса не планируется, так как в этом году он будет прекращен ». [25] Также в 2011 году Internet Archive установил свою шестую пару стоек PetaBox, что увеличило емкость хранилища Wayback Machine на 700 терабайт. [26]

В январе 2013 года компания объявила о важном достижении в 240 миллиардов URL-адресов. [27]

В октябре 2013 года компания представила функцию «Сохранить страницу» [28] [29], которая позволяет любому пользователю Интернета архивировать содержимое URL-адреса и быстро генерировать постоянную ссылку в отличие от предыдущей функции liveweb .

В декабре 2014 года Wayback Machine содержала 435 миллиардов веб-страниц - почти девять петабайт данных, и росла примерно на 20 терабайт в неделю. [13] [30] [31]

В марте 2015 года [ необходима проверка даты ] исследователи безопасности узнали об угрозе, которую представляет непреднамеренный хостинг вредоносных двоичных файлов с заархивированных сайтов. [32] [33]

По сообщениям, в июле 2016 года Wayback Machine содержала около 15 петабайт данных. [34]

В сентябре 2018 года Wayback Machine содержала более 25 петабайт данных. [35] [36]

По состоянию на декабрь 2020 года Wayback Machine содержала более 70 петабайт данных. [37]

В период с октября 2013 года по март 2015 года глобальный рейтинг сайта по Alexa изменился со 163 [40] до 208. [41] В марте 2019 года рейтинг составлял 244. [42]

Политика исключения веб-сайтов [ править ]

Исторически Wayback Machine соблюдала стандарт исключения роботов (robots.txt) при определении, будет ли сканироваться веб-сайт - или, если он уже просканирован, будут ли его архивы доступны для публичного просмотра. Владельцы веб-сайтов имели возможность отказаться от использования Wayback Machine с помощью файла robots.txt. Он применял правила robots.txt задним числом; если сайт блокировал Интернет-архив, любые ранее заархивированные страницы из домена также немедленно становились недоступными. Кроме того, Интернет-архив заявил, что «Иногда владелец веб-сайта напрямую связывается с нами и просит прекратить сканирование или архивирование сайта. Мы выполняем эти запросы». [43]Кроме того, на веб-сайте говорится: «Интернет-архив не заинтересован в сохранении или предоставлении доступа к веб-сайтам или другим Интернет-документам лиц, которые не хотят, чтобы их материалы были в коллекции». [44] [45]

17 апреля 2017 года появились сообщения о сайтах, которые перестали функционировать и стали припаркованными доменами , которые использовали robots.txt для исключения себя из поисковых систем, что привело к их непреднамеренному исключению из Wayback Machine. [46] Интернет-архив изменил политику и теперь требует явного запроса на исключение, чтобы удалить ее с Wayback Machine. [47]

Политика Окленда в отношении архивов [ править ]

Политика обратного исключения Wayback частично основана на Рекомендациях по управлению запросами на удаление и сохранению целостности архивов, опубликованных Школой управления информацией и систем Калифорнийского университета в Беркли в 2002 году, которые дают владельцу веб-сайта право блокировать доступ к архивам сайта. . [48] Wayback соблюдает эту политику, чтобы избежать дорогостоящих судебных разбирательств. [49]

Политика обратного исключения Wayback начала ослабевать в 2017 году, когда она перестала поддерживать robots.txt на правительственных и военных веб-сайтах США как для сканирования, так и для отображения веб-страниц. По состоянию на апрель 2017 года Wayback игнорирует robots.txt в более широком смысле, а не только для веб-сайтов правительства США. [50] [51] [52] [53]

Использует [ редактировать ]

С момента своего публичного запуска в 2001 году, Wayback Machine изучалась учеными как в отношении способов хранения и сбора данных, так и в отношении фактических страниц, содержащихся в его архиве. По состоянию на 2013 год ученые написали около 350 статей о Wayback Machine, в основном из областей информационных технологий, библиотековедения и социальных наук. Ученые-социологи использовали Wayback Machine для анализа того, как развитие веб-сайтов с середины 1990-х годов до настоящего времени повлияло на рост компании. [13]

Когда Wayback Machine архивирует страницу, она обычно включает в себя большую часть гиперссылок, сохраняя эти ссылки активными, когда они так же легко могли быть сломаны из-за нестабильности Интернета. Исследователи из Индии изучили эффективность способности Wayback Machine сохранять гиперссылки в научных онлайн-публикациях и обнаружили, что она сохранила чуть более половины из них. [54]

«Журналисты используют Wayback Machine для просмотра мертвых веб-сайтов, датированных новостных сообщений и изменений в содержании веб-сайтов. Его содержание использовалось для привлечения политиков к ответственности и разоблачения лжи на поле боя». [55] В 2014 году на архивной странице в социальных сетях Игоря Гиркина , лидера сепаратистских повстанцев в Украине, было показано, что он хвастается тем, что его войска сбили подозреваемый украинский военный самолет, прежде чем стало известно, что это был гражданский самолет Malaysian Airlines. ( Рейс 17 Malaysia Airlines ), после чего он удалил сообщение и обвинил украинских военных в сбитии самолета. [55] [56] В 2017 году Марш науки возник в результате обсуждения на Reddit.это указывало на то, что кто-то посетил Archive.org и обнаружил, что все ссылки на изменение климата были удалены с веб-сайта Белого дома. В ответ пользователь прокомментировал: «По Вашингтону должен быть марш ученых». [57] [58] [59]

Кроме того, этот сайт активно используется для проверки, обеспечивая доступ к ссылкам и созданию контента редакторами Википедии . [60]

В сентябре 2020 года было объявлено о партнерстве с Cloudflare для автоматического архивирования веб-сайтов, обслуживаемых через службу «Всегда онлайн», что также позволит направлять пользователей на свою копию сайта, если она не может связаться с исходным хостом. [61]

Ограничения [ править ]

В 2014 году между сканированием веб-сайта и его доступностью для просмотра на Wayback Machine прошло шесть месяцев. [62] В настоящее время время задержки составляет от 3 до 10 часов. [63] Wayback Machine предлагает только ограниченные возможности поиска. Его функция «Поиск по сайту» позволяет пользователям находить сайт по словам, описывающим сайт, а не по словам, найденным на самих веб-страницах. [64]

Wayback Machine не включает в себя все когда-либо созданные веб-страницы из-за ограничений его поискового робота. Wayback Machine не может полностью архивировать веб-страницы, содержащие интерактивные функции, такие как платформы и формы Flash, написанные на JavaScript, и прогрессивные веб-приложения , потому что эти функции требуют взаимодействия с хост-сайтом. Это означает, что с июня 2013 года Wayback Machine не может отображать комментарии YouTube при сохранении страниц YouTube, поскольку, по словам команды архива, комментарии больше не «загружаются на самой странице». [65]Веб-сканер Wayback Machine испытывает трудности с извлечением чего-либо, не закодированного в HTML или одном из его вариантов, что часто может приводить к неработающим гиперссылкам и отсутствующим изображениям. Из-за этого поисковый робот не может архивировать «потерянные страницы», на которые не ссылаются другие страницы. [64] [66] Сканер Wayback Machine следует только за заранее определенным количеством гиперссылок на основе заранее установленного предела глубины, поэтому он не может архивировать каждую гиперссылку на каждой странице. [18]

Начиная с апреля 2018 года, административные сотрудники архивной команды Wayback Machine ввели в действие правило квартального месяца, иногда удаляя временные интервалы в 23 или 39 дней (3/4 и 5/4 месяца соответственно), чтобы уменьшить размер очереди. [ необходима цитата ]

В юридических доказательствах [ править ]

Гражданский процесс [ править ]

Netbula LLC против Chordiant Software Inc. [ править ]

В деле 2009 года Netbula, LLC против Chordiant Software Inc. , ответчик Chordiant подал ходатайство, чтобы заставить Netbula отключить файл robots.txt на своем веб-сайте, из-за чего Wayback Machine задним числом лишала доступа к предыдущим версиям страниц, которые у него были. заархивированные с сайта Netbula, страницы, которые, по мнению Chordiant, подтверждают его версию. [67]

Netbula возражала против этого ходатайства на том основании, что ответчики просили изменить веб-сайт Netbula и что они должны были напрямую вызвать Интернет-архив для получения этих страниц. [68] Сотрудник Internet Archive подал заявление под присягой в поддержку ходатайства Chordiant, однако, заявив, что он не может создавать веб-страницы никакими другими средствами «без значительного бремени, расходов и нарушения своей работы». [67]

Мировой судья Говард Ллойд в Северном округе Калифорнии, округ Сан-Хосе, отверг аргументы Netbula и приказал им временно отключить блокировку robots.txt, чтобы позволить Chordiant получить заархивированные страницы, которые они искали. [67]

Telewizja Polska [ править ]

В октябре 2004 г. в деле Telewizja Polska USA, Inc. против Echostar Satellite , № 02 C 3293, 65 Fed. R. Evid. Серв. 673 (ND Ill. 15 октября 2004 г.), истец попытался использовать архивы Wayback Machine в качестве источника допустимых доказательств, возможно, впервые. Telewizja Polska является поставщиком TVP Polonia, а EchoStar управляет сетью тарелок . Перед судебным разбирательством EchoStar указала, что намеревается предложить снимки Wayback Machine в качестве доказательства прошлого содержания веб-сайта Telewizja Polska. Telewizja Polska подала ходатайство о запрете снимков на основании слухов.и неаутентифицированное источник, но мировой судья Arlander ключи отвергло утверждение Польского телевидения по наслышке и отрицал движение TVP в в Limine исключить доказательства в суде. [69] [70] Однако на суде судья окружного суда Рональд Гусман, судья первой инстанции, отменил выводы магистрата Киз и постановил, что ни показания под присягой сотрудника Интернет-архива, ни соответствующие страницы (то есть веб-сайт Telewizja Polska) ) были допустимы в качестве доказательства. Судья Гусман аргументировал это тем, что письменные показания сотрудника содержали как слухи, так и неубедительные подтверждающие заявления, а распечатки предполагаемой веб-страницы не были самоподтверждающими. [71] [72]

Патентное право [ править ]

При соблюдении некоторых дополнительных требований (например, предоставление авторитетного заявления архивариуса), Патентное ведомство США и Европейское патентное ведомство будут принимать отметки даты из Интернет-архива в качестве доказательства того, когда данная веб-страница была доступна для общественности. Эти даты используются, чтобы определить, доступна ли веб-страница в качестве известного уровня техники, например, при рассмотрении заявки на патент. [73]

Ограничения полезности [ править ]

Существуют технические ограничения на архивирование веб-сайта, и, как следствие, противоборствующие стороны в судебном процессе могут неправомерно использовать результаты, полученные из архивов веб-сайтов. Эта проблема может усугубляться практикой отправки снимков экрана веб-страниц в жалобах, ответах или отчетах экспертов-свидетелей, когда лежащие в основе ссылки не видны и, следовательно, могут содержать ошибки. Например, такие архивы, как Wayback Machine, не заполняют формы и, следовательно, не включают в свои архивы содержимое баз данных электронной коммерции, отличных от RESTful . [74]

Правовой статус [ править ]

В Европе Wayback Machine может быть истолкована как нарушающая законы об авторском праве . Только создатель контента может решить, где его контент публиковать или дублировать, поэтому Архив должен будет удалить страницы из своей системы по запросу создателя. [75] Правила исключения для Wayback Machine можно найти в разделе часто задаваемых вопросов на сайте. [76]

Юридические проблемы с архивным содержанием [ править ]

Против Internet Archive было возбуждено несколько дел за его усилия по архивированию Wayback Machine.

Саентология [ править ]

В конце 2002 года Интернет-архив удалил из Wayback Machine различные сайты, критикующие Саентологию . [77] В сообщении об ошибке говорилось, что это было ответом на «запрос владельца сайта». [78] Позже выяснилось, что юристы Церкви Саентологии требовали удаления, и что владельцы сайта не хотели, чтобы их материалы были удалены. [79]

Healthcare Advocates, Inc. [ править ]

В 2003 году компания Harding Earley Follmer & Frailey защитила клиента от спора о товарных знаках с помощью Archive's Wayback Machine. Адвокаты смогли продемонстрировать, что требования истца были недействительными, основываясь на содержании их веб-сайтов за несколько лет до этого. Затем истец, Healthcare Advocates, изменил свою жалобу, включив в нее Интернет-архив, обвинив организацию в нарушении авторских прав, а также в нарушениях Закона США " Об авторском праве в цифровую эпоху" и Закона о компьютерном мошенничестве и злоупотреблениях . Защитники здравоохранения утверждали, что, поскольку они установили файл robots.txtфайл на своем веб-сайте, даже если после подачи первоначального иска Архив должен был удалить все предыдущие копии веб-сайта истца с Wayback Machine, однако некоторые материалы по-прежнему были общедоступными на Wayback. [80] Иск был урегулирован во внесудебном порядке после того, как Wayback устранил проблему. [81]

Сюзанна Шелл [ править ]

Активистка Сюзанн Шелл подала иск в декабре 2005 года, требуя, чтобы Internet Archive заплатила ей 100 000 долларов США за архивирование ее веб-сайта profane-justice.org в период с 1999 по 2004 год. [82] [83] Internet Archive подала декларативное решение в Окружной суд США. в Северном округе Калифорнии 20 января 2006 г., добиваясь судебного постановления о том, что Интернет-архив не нарушает авторские права Shell . Shell отреагировала и подала встречный иск против Internet Archive за архивирование ее сайта, которое, как она утверждает, нарушает ее условия обслуживания . [84] 13 февраля 2007 г. судьяОкружной суд США округа Колорадо отклонил все встречные иски, за исключением нарушения контракта . [83] Интернет-архив не стал отклонять иски Shell о нарушении авторских прав, связанные с ее копированием, которые также будут проданы. [85]

25 апреля 2007 г. Internet Archive и Сюзанна Шелл совместно объявили об урегулировании своего иска. [82] Интернет-архив сообщил, что «... не заинтересован во включении в Wayback Machine материалов лиц, которые не желают архивировать свой веб-контент. Мы признаем, что у г-жи Шелл есть действующие и подлежащие исполнению авторские права на свой веб-сайт. и мы сожалеем, что включение ее веб-сайта в Wayback Machine привело к судебному разбирательству ". Shell заявила: «Я уважаю историческую ценность цели Internet Archive. Я никогда не намеревался мешать достижению этой цели или причинять ей какой-либо вред». [86]

Даниил Давыдюк [ править ]

В период с 2013 по 2016 году порнографический актера по имени Daniel Davydiuk пытался удалить заархивированные образа себя из архива Wayback Machine, сначала отправив несколько запросов DMCA в архив, а затем, обратившись к Федеральному суду Канады . [87] [88] [89]

Цензура и другие угрозы [ править ]

Archive.org в настоящее время заблокирован в Китае . [90] [91] После того, как террористическая организация «Исламское государство» была запрещена, Интернет-архив был полностью заблокирован в России, где размещалось информационное видео этой организации, на короткое время в 2015–2016 годах. [55] [92] [93] [ требуется обновление ] С 2016 года веб-сайт вернулся, доступен полностью, хотя местные коммерческие лоббисты подали иск против Интернет-архива в местный суд, чтобы запретить его на основании авторских прав. [94]

Элисон Макрина , директор проекта «Свобода библиотек», отмечает, что «хотя библиотекари глубоко ценят личную жизнь, мы также категорически против цензуры». [55]

Известны редкие случаи, когда веб-сайт отключал доступ к контенту, который «напрасно» подвергал людей опасности. [55] [ требуется пояснение ]

Другие угрозы включают стихийные бедствия [95], разрушение (удаленное или физическое) [96], манипуляции с содержимым архива (см. Также: кибератаки , резервное копирование ), проблемные законы об авторском праве [97] и наблюдение за пользователями сайта. [98]

Александр Роуз, исполнительный директор Long Now Foundation , подозревает, что в долгосрочной перспективе несколько поколений «почти ничего» выживут полезным способом, заявляя: «Если у нас будет преемственность в нашей технологической цивилизации, я подозреваю, что многие голые данные останутся доступными для поиска и поиска. Но я подозреваю, что почти ничто из формата, в котором они были доставлены, не будет узнаваемым ", потому что сайты" с глубокими внутренними системами управления контентом, такими как Drupal, Ruby и Django "труднее архив. [99]

В статье, посвященной сохранению человеческих знаний, The Atlantic отметила, что Интернет-архив, который описывает себя как построенный на долгосрочную перспективу, [100] «яростно работает над сбором данных до того, как они исчезнут без каких-либо долгосрочных последствий. инфраструктура, о которой можно говорить ". [101]

См. Также [ править ]

  • Список инициатив веб-архивирования
  • Heritrix
  • Библиотека Genesis
  • Веб-архивирование
  • Машина времени

Ссылки [ править ]

  1. ^ «WayBackMachine.org WHOIS, DNS и информация о домене - DomainTools» . WHOIS . Архивировано 14 мая 2020 года . Проверено 13 марта 2016 года .
  2. ^ «InternetArchive.org WHOIS, DNS и информация о домене - DomainTools» . WHOIS . Архивировано 12 мая 2020 года . Проверено 13 марта 2016 года .
  3. ^ Нотесс, Грег Р. (март – апрель 2002 г.). «Машина обратного пути: архив Интернета». Онлайн . 26 : 59–61 - через EBSCOhost.
  4. ^ "The Wayback Machine" , Часто задаваемые вопросы , заархивировано из оригинала 18 сентября 2018 г. , получено 18 сентября 2018 г.
  5. ^ a b «20 000 жестких дисков в миссии | Интернет-архив блогов» . blog.archive.org . 25 октября 2016 года. Архивировано 20 октября 2018 года . Проверено 15 октября 2018 года .
  6. Green, Heather (28 февраля 2002 г.). «Библиотека размером с мир» . BusinessWeek . Архивировано из оригинального 20 декабря 2011 года.
  7. Тонг, Джуди (8 сентября 2002 г.). «Ответственная сторона - Брюстер Кале; Интернет-библиотека в Интернете» . Нью-Йорк Таймс . Архивировано 20 февраля 2011 года . Проверено 15 августа 2011 года .
  8. ^ «MTV Online: Главная страница - Wayback Machine» . Wayback Machine . 12 мая, 1996. Архивировано из оригинального 12 мая 1996 года . Проверено 17 июля, 2020 .
  9. ^ "Infoseek Guide - Wayback Machine" . Wayback Machine . 12 мая, 1996. Архивировано из оригинального 12 мая 1996 года . Проверено 16 декабря 2016 года .
  10. ^ a b «Интернет-архив: Wayback Machine» . archive.org . Архивировано 3 января 2014 года . Проверено 15 октября 2018 года .
  11. ^ Кук, Джон (1 ноября 2001 г.). «Веб-сайт возвращает вас в историю Интернета» . Сиэтл Пост-Интеллидженсер . Архивировано 12 августа 2014 года . Проверено 15 августа 2011 года .
  12. Мэйфилд, Кендра (28 октября 2001 г.). «Путь назад возвращается в сети» . Проводной . Архивировано 16 октября 2017 года . Проверено 16 октября 2017 года .
  13. ^ a b c Арора, Санджай К .; Ли, Инь; Юти, Ян; Шапира, Филипп (5 мая 2015 г.). «Использование машины обратного пути для майнинга веб-сайтов по социальным наукам: методологический ресурс» . Журнал Ассоциации информационных наук и технологий . 67 (8): 1904–1915. DOI : 10.1002 / asi.23503 . ISSN 2330-1635 . 
  14. ^ a b c d e f g h Калев Литару (28 января 2016 г.). «Интернет-архиву исполняется 20 лет: взгляд изнутри на архивирование Интернета» . Forbes . Архивировано 16 октября 2017 года . Проверено 16 октября 2017 года .
  15. Грэм, Марк (30 октября 2020 г.). «Проверка фактов и контекст для страниц Wayback Machine» . Интернет-архив блогов . Проверено 17 января 2021 года .
  16. ^ Кале, Брюстер. «Архивирование Интернета» . Scientific American - Выпуск за март 1997 г. Архивировано 3 апреля 2012 года . Проверено 19 августа 2011 года .
  17. Джефф Каплан (27 октября 2014 г.). "Archive-It: вместе сканировать Интернет" . Интернет-архив блогов . Архивировано 12 октября 2017 года . Проверено 16 октября 2017 года .
  18. ^ a b «Worldwide Web Crawls» . Интернет-архив. Архивировано 19 октября 2017 года . Проверено 16 октября 2017 года .
  19. ^ "Широкое сканирование номер 13" . Интернет-архив. Архивировано 19 октября 2017 года . Проверено 16 октября 2017 года .
  20. ^ "Интернет-архив: Petabox" . archive.org . Проверено 25 октября 2018 года .
  21. ^ Kanellos, Майкл (29 июля 2005). «Большая память по дешевке» . CNET News.com. Архивировано из оригинала 3 апреля 2007 года . Проверено 29 июля 2007 года .
  22. ^ «Интернет-архив и Sun Microsystems создают живую историю Интернета» . Sun Microsystems . 25 марта 2009 года. Архивировано 26 марта 2009 года . Проверено 27 марта 2009 года .
  23. ^ Mearian, Лукас (19 марта 2009). «Интернет-архив для открытия огромного центра обработки данных Wayback Machine» . Computerworld.com. Архивировано из оригинального 23 марта 2009 года . Проверено 22 марта 2009 года .
  24. ^ «Обновленная машина Wayback в бета-тестировании» . Архивировано из оригинального 23 августа 2011 года . Проверено 19 августа 2011 года .
  25. ^ "Beta Wayback Machine, на форуме" . Архивировано 17 апреля 2014 года . Проверено 16 апреля 2014 года .
  26. ^ «Форумы Интернет-архивов: введена в эксплуатацию 6-я пара стоек: использовано более 2 ПБ пространства данных» . archive.org . Архивировано 24 октября 2016 года . Проверено 25 октября 2018 года .
  27. ^ "Wayback Machine: Теперь с 240 000 000 000 URL | Интернет-архив блогов" . 9 января 2013 года. Архивировано 14 апреля 2014 года . Проверено 16 апреля 2014 года .
  28. Росси, Алексис (25 октября 2013 г.). «Исправление неработающих ссылок в Интернете» . archive.org . Сан-Франциско, Калифорния, США: Коллективная группа, Интернет-архив. Архивировано 7 ноября 2014 года . Проверено 25 марта 2015 года . Мы добавили возможность мгновенно архивировать страницу и получать постоянный URL-адрес для этой страницы в Wayback Machine. Эта служба позволяет любому - редакторам Википедии, ученым, юристам, студентам или домашним поварам, таким как я, - создавать стабильные URL-адреса для цитирования, обмена или добавления в закладки любой информации, к которой они хотят иметь доступ в будущем.
  29. ^ "Новый Интернет-архив Wayback Machine теперь в сети" . www.digitaljournal.com . 23 октября 2013 года. Архивировано 19 ноября 2020 года . Проверено 19 ноября 2020 года .
  30. ^ "Интернет-архив часто задаваемых вопросов" . Архивировано 21 октября 2009 года . Проверено 17 января 2015 года .
  31. ^ "Интернет-архив часто задаваемых вопросов" . 18 декабря, 2014. Архивировано из оригинала 18 декабря 2014 года . Проверено 13 декабря 2018 года .
  32. ^ VirusTotal Team (25 марта 2015). «Информация об IP-адресе 207.241.226.190» . virustotal.com . Дублин 2, Ирландия: VirusTotal . Архивировано 14 июля 2014 года . Проверено 25 марта 2015 года . 2015-03-25: Последние URL-адреса, размещенные на этом IP-адресе, обнаружены по крайней мере одним сканером URL-адресов или вредоносным набором данных URL-адресов. ... 2/62 25.03.2015 16:14:12 [полный URL-адрес отредактирован] /Renegotiating_TLS.pdf ... 1/62 25-03-2015 04:46:34 [полный URL-адрес отредактирован] /CBLightSetup.exeCS1 maint: location (link)
  33. ^ Рекомендации предоставлены Google (25 марта 2015 г.). "Страница диагностики безопасного просмотра для archive.org" . google.com/safebrowsing . Маунтин-Вью, Калифорния, США. Архивировано 6 апреля 2015 года . Проверено 25 марта 2015 года .2015-03-25: Часть этого сайта была отмечена как подозрительная активность 138 раз за последние 90 дней. ... Что произошло, когда Google посетил этот сайт? ... Из 42410 страниц, протестированных нами за последние 90 дней, на 450 страницах была загрузка и установка вредоносного ПО без согласия пользователя. Последний раз Google посещал этот сайт 25 марта 2015 г., а подозрительный контент был обнаружен в последний раз 25 марта 2015 г. ... Вредоносное ПО включает 169 троянских программ, 126 вирусов, 43 бэкдора.
  34. ^ «Может ли манипулирование большими данными изменить образ мышления мира?» . Национальный . Архивировано 12 января 2017 года . Проверено 14 мая 2017 года .
  35. Crockett, Zachary (28 сентября 2018 г.). «Внутри Wayback Machine, капсулы времени Интернета» . Хастл . Архивировано 2 октября 2018 года . Проверено 26 октября 2018 года .
  36. ^ Heffernan, штат Вирджиния (18 сентября 2018). «Вещи ломаются и разлагаются в Интернете - это хорошо» . ПРОВОДНОЙ . Архивировано 25 сентября 2018 года . Проверено 26 октября 2018 года .
  37. ^ «Пожертвуйте в Интернет-архив: цифровая библиотека бесплатных и заимствованных книг, фильмов, музыки и Wayback Machine» . адафрут. Архивировано 2 декабря 2020 года . Проверено 2 декабря 2020 года .
  38. ^ Мишель (9 мая 2014 г.). "Wayback Machine поразила 400000000000!" . Интернет-архив. Архивировано 26 августа 2014 года . Проверено 25 марта 2015 года .
  39. ^ "Интернет-архив Wayback Machine" . Интернет-архив. Архивировано из оригинального 13 февраля 2015 года . Проверено 25 марта 2015 года .
  40. ^ "Информация о сайте Archive.org" . Алекса Интернет . Архивировано из оригинального 28 октября 2013 года . Проверено 29 октября 2013 года .
  41. ^ "Обзор сайта Archive.org" . Алекса Интернет. Архивировано из оригинала 9 апреля 2015 года . Проверено 9 апреля 2015 года .
  42. ^ «Archive.org Трафик, демография и конкуренты - Alexa» . 23 марта, 2019. Архивировано из оригинала 23 марта 2019 года . Проверено 5 апреля 2019 года .
  43. ^ «Некоторые сайты недоступны из-за Robots.txt или других исключений» . Архивировано из оригинального 15 апреля 2011 года.
  44. ^ "Интернет-архив часто задаваемых вопросов" . Архивировано из оригинала 17 апреля 2014 года.
  45. Кокс, Джозеф (22 мая 2018 г.). «Машина Wayback удаляет доказательства того, что вредоносное ПО было продано сталкерам» . Архивировано 23 мая 2018 года . Проверено 23 мая 2018 года .
  46. ^ «Robots.txt, предназначенный для поисковых систем, не подходит для веб-архивов» . Интернет-архив . 17 апреля 2017 года . Проверено 29 июня 2019 года .
  47. ^ "Использование Wayback Machine" .
  48. ^ «Рекомендации по управлению запросами на удаление и сохранению целостности архивов» . Калифорнийский университет . 14 декабря 2002 года. Архивировано 18 сентября 2017 года . Проверено 14 сентября 2017 года .
  49. ^ "Ретроактивное удаление robots.txt прошлых сканирований AKA Oakland Archive Policy" . Интернет-архив. 7 июля 2014 года. Архивировано 10 октября 2017 года . Проверено 14 сентября 2017 года .
  50. Марк Грэм (17 апреля 2017 г.). «Robots.txt, предназначенный для поисковых систем, не подходит для веб-архивов» . Интернет-архив блогов . Архивировано 17 апреля 2017 года . Проверено 16 апреля 2017 года .
  51. ^ "Archivierung des Internets: Internet Archive ignoriert künftig robots.txt" (на немецком языке). heise в сети. Архивировано 27 апреля 2017 года . Проверено 14 мая 2017 года .
  52. ^ "Сучмащинен: Интернет-архив будет künftig Robots.txt-Einträge ignorieren - Golem.de" (на немецком языке). Архивировано 19 июня 2017 года . Проверено 14 мая 2017 года .
  53. ^ «Интернет-архив будет игнорировать файлы robots.txt для обеспечения точности исторических данных» . Цифровые тенденции. 24 апреля 2017 года. Архивировано 16 мая 2017 года . Проверено 14 мая 2017 года .
  54. ^ Сампат Кумар, BT; Притхвирадж, КР (21 октября 2014 г.). «Оживление мертвых: роль Wayback Machine в извлечении исчезнувших URL-адресов». Журнал информатики . 41 (1): 71–81. DOI : 10.1177 / 0165551514552752 . ISSN 0165-5515 . S2CID 28320982 .  
  55. ^ a b c d e "Wayback Machine не будет подвергать цензуре архив на вкус, - сказал директор после того, как статья об Олимпийских играх была очищена" . Архивировано 6 января 2017 года . Проверено 14 мая 2017 года .
  56. ^ Лепора, Jill (26 января 2015). «О чем вчера говорила сеть» . Житель Нью-Йорка . Архивировано 25 января 2015 года . Проверено 14 мая 2017 года .
  57. ^ «Марш науки начался с« одноразовой строчки »этого человека на Reddit» . Вашингтон Пост . Архивировано 23 апреля 2017 года . Проверено 23 апреля 2017 года .
  58. ^ "Собираются ли ученые маршем на Вашингтон?" . Вашингтон Пост . Архивировано 31 января 2017 года . Проверено 31 января 2017 года .
  59. ^ Фоули, Кэтрин Эллен. «Глобальный марш науки начался с единственной ветки на Reddit» . Кварц . Архивировано 24 апреля 2017 года . Проверено 23 апреля 2017 года .
  60. ^ http://blog.archive.org/2018/10/01/more-than-9-million-broken-links-on-wikipedia-are-now-rescued
  61. Грэм, Марк (17 сентября 2020 г.). «Cloudflare и Wayback Machine объединяют усилия для создания более надежной сети» . Интернет-архив блогов . Проверено 17 сентября 2020 года .
  62. ^ "Интернет-архив часто задаваемых вопросов" . Интернет-архив . 2 апреля, 2014. Архивировано из оригинального 2 -го апреля 2014 года . Проверено 23 ноября 2018 года .
  63. ^ "Интернет-архив часто задаваемых вопросов" . archive.org . Проверено 23 ноября 2018 года .
  64. ^ a b Бейтс, Мэри Эллен (2002). «Машина обратного пути». Онлайн . 26 : 80 - через EBSCOhost.
  65. ^ "YouTube - Archiveteam" . archiveteam.org . Архивировано 5 августа 2020 года . Проверено 6 августа 2020 года .
  66. ^ "Интернет-архив часто задаваемых вопросов" . archive.org . Архивировано 20 апреля 2013 года . Проверено 18 октября 2018 года .
  67. ^ a b c Ллойд, Ховард (октябрь 2009 г.). «Приказ отключить Robots.txt» (PDF) . Архивировано из оригинального (PDF) 8 августа 2019 года . Проверено 15 октября 2009 года .
  68. Кортес, Антонио (октябрь 2009 г.). «Движение противодействует удалению файла robots.txt» . Архивировано из оригинального 27 -го октября 2010 года . Проверено 15 октября 2009 года .
  69. Гельман, Лорен (17 ноября 2004 г.). «Снимки веб-страниц Интернет-архива считаются допустимыми в качестве доказательства» . Пакеты . 2 (3). Архивировано из оригинального 30 апреля 2011 года . Проверено 4 января 2007 года .
  70. Перейти ↑ Howell, Beryl A. (февраль 2006 г.). «Доказательство истории веб-поиска: как использовать интернет-архив» (PDF) . Журнал Интернет-права : 3–9. Архивировано из оригинального (PDF) 5 июля 2010 года . Проверено 6 августа 2008 года .
  71. ^ "Поиск доказательств в виртуальных местах допустимости Интернет-доказательств" . Архивировано 1 июля 2019 года . Проверено 14 июня 2020 года .
  72. ^ Левитт, Кэрол А .; Рош, Марк Э. (2010). Находите информацию как профессионал: добыча общедоступных ресурсов Интернета для проведения расследований, Том 1 . Американская ассоциация адвокатов. С. 194–196. ISBN 978-1-60442-890-2. Архивировано 18 декабря 2020 года . Проверено 14 июня 2020 года .
  73. Винн В. Коггинс (осень 2002 г.). "Предшествующий уровень техники в области патентов на бизнес-методы - когда электронный документ является печатной публикацией для целей предшествующего уровня техники?" . USPTO . Архивировано из оригинального 21 сентября 2012 года . Проверено 15 августа 2012 года .
  74. ^ «Разоблачение Wayback Machine» . Архивировано из оригинального 29 июня 2010 года.
  75. Перейти ↑ Bahr, Martin (2002). "The Wayback Machine и Google Cache - eine Verletzung deutschen Urheberrechts?" . JurPC (на немецком языке): 9. doi : 10.7328 / jurpcb / 20021719 . Архивировано 23 августа 2009 года.
  76. ^ "Часто задаваемые вопросы об Интернет-архиве" . Архивировано 17 апреля 2014 года . Проверено 16 апреля 2014 года .
  77. Перейти ↑ Bowman, Lisa M (24 сентября 2002 г.). «Сетевой архив заставляет замолчать саентологов» . CNET News.com. Архивировано из оригинала на 15 мая 2012 года . Проверено 4 января 2007 года .
  78. Джефф (23 сентября 2002 г.). «исключения из Wayback Machine» (Блог) . Форум Wayback Machine . Интернет-архив. Архивировано 11 февраля 2007 года . Проверено 4 января 2007 года . Автор и Дата указывают начало обсуждения на форуме .
  79. ^ Миллер, Эрнест. «Шерман, установи путь назад для Саентологии» . LawMeme . Йельская школа права. Архивировано из оригинала (Блог) 16 ноября 2012 года . Проверено 4 января 2007 года .
  80. ^ Дай, Джессика (2005). «На веб-сайт предъявлен иск за скандальное путешествие в прошлое Интернета». EContent . 28. 11 : 8–9.
  81. ^ Bangeman, Эрик (31 августа 2006). «Интернет-архив решает проблему с машиной обратного пути» . Ars Technica . Архивировано 5 ноября 2007 года . Проверено 29 ноября 2007 года .
  82. ^ a b Internet Archive v. Shell , 505 F.Supp.2d 755 at justia.com , 1: 2006cv01726 ( Окружной суд Колорадо, 31 августа 2006 г.) (« '25 апреля 2007 г. объявлено мировое соглашение.' Подача 65, 2007 г. - 04-30: «... поэтому ПРИКАЗАНО, что этот вопрос должен быть ЗАКЛЮЧЕН С ПРЕДУБЕРЕЖЕНИЕМ ...»).
  83. ^ a b Бэбкок, Льюис Т., главный судья (13 февраля 2007 г.). « Интернет-архив против гражданского иска Shell № 06cv01726LTBCBS» (PDF) . Архивировано (PDF) из оригинала 25 января 2014 года . Проверено 25 марта 2015 года . 1) Ходатайство Internet Archive об отклонении встречного иска Shell о конверсии и гражданском краже (вторая причина иска) ВЫДАЕТСЯ, 2) ходатайство Internet Archive об отклонении встречного иска Shell о нарушении контракта (третья причина иска) ОТКАЗАНО; 3) Ходатайство Internet Archive отклонить встречный иск Shell по рэкету в соответствии с RICO и COCCA (четвертая причина иска) ПРЕДОСТАВЛЯЕТСЯ.
  84. ^ Claburn, Томас (16 марта 2007). «Женщина из Колорадо подает иск о привлечении поисковых роботов к контрактам» . Нью-Йорк, Нью-Йорк, США: InformationWeek , UBM Tech, UBM LLC. Архивировано 4 сентября 2014 года . Проверено 25 марта 2015 года . Компьютеры могут заключать контракты от имени людей. Единый закон об электронных транзакциях (UETA) гласит, что «договор может быть заключен путем взаимодействия электронных агентов сторон, даже если никто не знал или не проверял действия электронных агентов или вытекающие из них условия и соглашения».
  85. ^ Самсон, Мартин Х., Phillips Nizer LLP (2007). "Интернет-архив против Сюзанны Шелл" . internetlibrary.com . Интернет-библиотека закона и судебных решений. Архивировано 3 августа 2014 года . Проверено 25 марта 2015 года .Что еще более важно, по мнению суда, простое копирование Интернет-архивом сайта Shell и отображение его в своей базе данных не являлось необходимым осуществлением господства и контроля над собственностью ответчика. Важно отметить, отметил суд, что ответчик всегда владел и управлял собственным сайтом. Суд заявил: «Shell не представила фактов, свидетельствующих о том, что Internet Archive осуществляла доминирование или контроль над ее веб-сайтом, поскольку в жалобе Shell прямо говорится, что она продолжала владеть и управлять веб-сайтом, пока он находился в архиве на машине Wayback. Shell не указывает авторитетных источников, поддерживающих идею о том, что копирование документов само по себе является лишением возможности использовать для поддержки преобразования. И наоборот, многочисленные схемы определили, что это не так ».
  86. ^ Брюстер (25 апреля 2007). «Интернет-архив и иск Сюзанны Шелл об урегулировании спора» . archive.org . Денвер, Колорадо, США: Интернет-архив. Архивировано 5 декабря 2010 года . Проверено 25 марта 2015 года . Обе стороны искренне сожалеют о беспорядках, которые судебный процесс мог вызвать для другой стороны. Ни Internet Archive, ни г-жа Шелл не оправдывают любое поведение, которое могло нанести вред любой из сторон, в результате общественного внимания к этому иску. Стороны не участвовали в таком поведении и просят, чтобы общественный ответ на мирное урегулирование этого судебного разбирательства соответствовал их желанию, чтобы ни одна из сторон не причинила дальнейшего ущерба или беспорядков.
  87. ^ Stobbe, Ричард (5 декабря 2014). «Авторские последствия« права на забвение »? Или как уничтожить Интернет-архив» . Mondaq . Архивировано 18 ноября 2018 года . Проверено 8 марта 2019 года .
  88. Рианна Маквей, Гленнис (16 октября 2014 г.). Филпотт, Джеймс; Вайсман, Адам; Бухольц, Рен; Чайники марки Brent; Перл, Аарон (ред.). «Давыдюк против Интернет-архива Канады, 2014 FC 944» . CanLII . Федерация юридических обществ Канады . Архивировано 18 декабря 2020 года . Проверено 8 марта 2019 года .
  89. ^ Сауткотт, Ричард Ф. (30 ноября 2016). Филпотт, Джон; Альтон, Алекс; Бухольц, Рен (ред.). "Давыдюк против Интернет-архива Канады и Интернет-архива, 2016 FC 1313 (CanLII)" . CanLII . Оттава, Онтарио: Федерация юридических обществ Канады . Архивировано 29 июня 2019 года . Проверено 8 марта 2019 года .
  90. ^ Конгер, Кейт. «Резервное копирование истории Интернета в Канаде, чтобы спасти ее от Трампа» . TechCrunch . Архивировано 27 декабря 2016 года . Проверено 14 мая 2017 года .
  91. ^ «Где найти то, что пропало в Интернете, и многое другое: Интернет-архив» . Международное общественное радио. Архивировано 28 марта 2017 года . Проверено 14 мая 2017 года .
  92. ^ Чиргвин, Ричард. «Обратного пути в России нет: Путин блокирует Archive.org» . Архивировано 7 октября 2016 года . Проверено 14 мая 2017 года .
  93. ^ "Россия не пойдет назад, блокирует Интернет-архив" . Цифровые тенденции. 26 июня 2015 года. Архивировано 17 апреля 2016 года . Проверено 14 мая 2017 года .
  94. ^ "В России разблокирован крупнейший интернет-архив" . Российская газета . Архивировано 5 апреля 2019 года . Проверено 18 октября, 2020 .
  95. ^ «Помогите нам сохранить архив свободным, доступным и конфиденциальным для читателей | Интернет-архив блогов» . 29 ноября 2016 года. Архивировано 21 мая 2017 года . Проверено 14 мая 2017 года .
  96. ^ "Архивная копия" . Архивировано 9 ноября 2020 года . Проверено 28 сентября 2020 года .CS1 maint: archived copy as title (link)
  97. ^ «Интернет-архив: предлагаемые изменения в DMCA заставят нас« подвергнуть цензуре Интернет » » . Потребитель. 7 июня 2016 года. Архивировано 11 ноября 2016 года . Проверено 14 мая 2017 года .
  98. ^ Херб, Ульрих. "Die Trump-Angst Grassiert" (на немецком языке). heise в сети. Архивировано 7 декабря 2016 года . Проверено 14 мая 2017 года .
  99. ^ ЛаФранс, Адриенн. «Темные века Интернета» . Атлантика . Архивировано 7 мая 2017 года . Проверено 14 мая 2017 года .
  100. ^ «Весь Интернет будет заархивирован в Канаде, чтобы защитить его от Трампа» . Материнская плата. 29 ноября 2016 года. Архивировано 16 мая 2017 года . Проверено 14 мая 2017 года .
  101. ^ LaFrance, Adrienne (3 июня 2016). «Человеческий страх полного знания» . Атлантика . Архивировано 2 декабря 2016 года . Проверено 14 мая 2017 года .

Внешние ссылки [ править ]

  • Официальный веб-сайт
  • История Интернета хрупка. Этот архив делает все, чтобы он не исчез . Сан-Франциско: PBS Newshour . Проверено 19 сентября 2018 года .