Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В веб-архивировании сайт архива - это веб-сайт, на котором хранится информация о веб-страницах из прошлого, которую может просмотреть любой.

Общие техники [ править ]

Два распространенных метода архивирования веб-сайтов - использование поискового робота или сбор информации от пользователей:

  1. Использование поискового робота : при использовании поискового робота (например, Интернет-архива ) служба не будет зависеть от активного сообщества в отношении своего контента и, таким образом, сможет быстрее построить базу данных большего размера. Однако веб-сканеры могут только индексировать и архивировать информацию, которую общественность выбрала для публикации в Интернете или которая доступна для сканирования, поскольку разработчики веб-сайтов и системные администраторы имеют возможность блокировать доступ веб-сканеров к [определенным] веб-страницам. (используя robots.txt ).
  2. Представления пользователей : хотя запуск услуг отправки пользователей может быть затруднен из-за потенциально низкого количества представлений пользователей, эта система может дать одни из лучших результатов. Сканируя веб-страницы, можно получить только ту информацию, которую публика выбрала для размещения в сети; однако потенциальные поставщики контента могут не беспокоиться о размещении определенной информации, предполагая, что она никому не будет интересна, потому что у них нет подходящего места для ее публикации или из-за опасений по поводу авторских прав. [1] Однако пользователи, которые видят, что кому-то нужна их информация, могут быть более склонны ее отправить.

Примеры [ править ]

Группы Google [ править ]

12 февраля 2001 года Google приобрел архивы дискуссионных групп usenet с Deja.com и превратил их в свою службу групп Google . [2] Они позволяют пользователям искать старые обсуждения с помощью поисковой технологии Google, при этом позволяя пользователям публиковать сообщения в списках рассылки .

Интернет-архив [ править ]

Internet Archive строит компендиум веб - сайтов и цифровых средств массовой информации . Начиная с 1996 года, Архив использует поискового робота для создания своей базы данных. Это один из самых известных архивных сайтов.

Архивы NBCUniversal [ править ]

Архивы NBCUniversal предлагают доступ к эксклюзивному контенту от NBCUniversal и ее дочерних компаний. Их веб-сайт NBCUniversal Archives обеспечивает удобный просмотр прошлых и недавних новостных клипов и является ярким примером архива новостей. [3]

Следующая точка [ править ]

Nextpoint предлагает автоматизированное облако основе, SaaS для маркетинга, соблюдения, и связанных с ними судебных потребностей , включая электронное открытие.

Архив PANDORA [ править ]

PANDORA ( Архив Пандоры ), основанный в 1996 году Национальной библиотекой Австралии , выступает за сохранение и доступ к сетевым документальным ресурсам Австралии, что отражает их миссию. Они предоставляют долгосрочный каталог избранных онлайн-публикаций и веб-сайтов, созданных австралийцами или имеющих австралийскую тематику. При создании каталога они используют PANDAS (систему цифрового архивирования PANDORA).

textfiles.com [ править ]

textfiles.com - это большая библиотека старых текстовых файлов, которую поддерживает Джейсон Скотт Садофски . Его миссия состоит в том, чтобы архивировать старые документы, которые циркулировали в системах досок объявлений (BBS) в его юности, и документировать опыт других людей в системах досок объявлений.

См. Также [ править ]

  • Интернет-архив
  • Архив Пандоры
  • WebCite
  • Веб-архивирование

Ссылки [ править ]

  1. ^ Jinfang Ню, Университет Южной Флориды (март-апрель 2012). «Обзор веб-архивирования» . Журнал D-Lib . 18 (3/4). DOI : 10,1045 / march2012-niu1 .
  2. ^ "Google приобретает службу обсуждения Usenet и значительные активы у Deja.com" . 12 февраля 2001 г.
  3. ^ Архивы NBCUniversal