Эта статья требует дополнительных ссылок для проверки . ( январь 2016 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
В веб-архивировании сайт архива - это веб-сайт, на котором хранится информация о веб-страницах из прошлого, которую может просмотреть любой.
Общие техники [ править ]
Два распространенных метода архивирования веб-сайтов - использование поискового робота или сбор информации от пользователей:
- Использование поискового робота : при использовании поискового робота (например, Интернет-архива ) служба не будет зависеть от активного сообщества в отношении своего контента и, таким образом, сможет быстрее построить базу данных большего размера. Однако веб-сканеры могут только индексировать и архивировать информацию, которую общественность выбрала для публикации в Интернете или которая доступна для сканирования, поскольку разработчики веб-сайтов и системные администраторы имеют возможность блокировать доступ веб-сканеров к [определенным] веб-страницам. (используя robots.txt ).
- Представления пользователей : хотя запуск услуг отправки пользователей может быть затруднен из-за потенциально низкого количества представлений пользователей, эта система может дать одни из лучших результатов. Сканируя веб-страницы, можно получить только ту информацию, которую публика выбрала для размещения в сети; однако потенциальные поставщики контента могут не беспокоиться о размещении определенной информации, предполагая, что она никому не будет интересна, потому что у них нет подходящего места для ее публикации или из-за опасений по поводу авторских прав. [1] Однако пользователи, которые видят, что кому-то нужна их информация, могут быть более склонны ее отправить.
Примеры [ править ]
Группы Google [ править ]
12 февраля 2001 года Google приобрел архивы дискуссионных групп usenet с Deja.com и превратил их в свою службу групп Google . [2] Они позволяют пользователям искать старые обсуждения с помощью поисковой технологии Google, при этом позволяя пользователям публиковать сообщения в списках рассылки .
Интернет-архив [ править ]
Internet Archive строит компендиум веб - сайтов и цифровых средств массовой информации . Начиная с 1996 года, Архив использует поискового робота для создания своей базы данных. Это один из самых известных архивных сайтов.
Архивы NBCUniversal [ править ]
Архивы NBCUniversal предлагают доступ к эксклюзивному контенту от NBCUniversal и ее дочерних компаний. Их веб-сайт NBCUniversal Archives обеспечивает удобный просмотр прошлых и недавних новостных клипов и является ярким примером архива новостей. [3]
Следующая точка [ править ]
Nextpoint предлагает автоматизированное облако основе, SaaS для маркетинга, соблюдения, и связанных с ними судебных потребностей , включая электронное открытие.
Архив PANDORA [ править ]
PANDORA ( Архив Пандоры ), основанный в 1996 году Национальной библиотекой Австралии , выступает за сохранение и доступ к сетевым документальным ресурсам Австралии, что отражает их миссию. Они предоставляют долгосрочный каталог избранных онлайн-публикаций и веб-сайтов, созданных австралийцами или имеющих австралийскую тематику. При создании каталога они используют PANDAS (систему цифрового архивирования PANDORA).
textfiles.com [ править ]
textfiles.com - это большая библиотека старых текстовых файлов, которую поддерживает Джейсон Скотт Садофски . Его миссия состоит в том, чтобы архивировать старые документы, которые циркулировали в системах досок объявлений (BBS) в его юности, и документировать опыт других людей в системах досок объявлений.
См. Также [ править ]
- Интернет-архив
- Архив Пандоры
- WebCite
- Веб-архивирование
Ссылки [ править ]
- ^ Jinfang Ню, Университет Южной Флориды (март-апрель 2012). «Обзор веб-архивирования» . Журнал D-Lib . 18 (3/4). DOI : 10,1045 / march2012-niu1 .
- ^ "Google приобретает службу обсуждения Usenet и значительные активы у Deja.com" . 12 февраля 2001 г.
- ^ Архивы NBCUniversal