Оцифровка газет - это процесс преобразования старых газет из аналоговой формы в цифровые изображения. Самыми распространенными аналогами старых газет являются бумага и микрофильм. Оцифрованные изображения газетных страниц обычно (хотя и не всегда) анализируются с помощью программного обеспечения OCR для создания текстовых файлов с содержанием газеты. Оцифровка газет - это частный случай оцифровки вообще.
Газеты хранят богатую историю прошлого, и с момента появления цифровых медиа многие учреждения по всему миру начали оцифровывать их и делать цифровые файлы общедоступными. Однако в 2015 году более 90% газет остались неотсканированными. [1] Оцифрованные газеты могут быть доступны бесплатно или за плату. Несколько списков (указанных ниже) пытаются каталогизировать оцифрованные газеты по всему миру.
Успешное сканирование газет - сложный процесс. Хотя сканирование с бумаги возможно, сканирование микрофильмов обходится дешевле, а хорошие микрофильмы называют «самым важным фактором успеха оцифровки газет». [2] OCR-анализ отсканированных страниц представляет ряд технических проблем, а текст старых газет часто бывает трудно читать, что приводит к ошибкам и усложняет поиск. Еще один важный шаг - прикрепление метаданных к изображениям, чтобы их было легче найти. Наконец, необходимо разработать поисковые интерфейсы. Ряд компаний специализируется на сканировании газет, а некоторые выпускают программное обеспечение, специально разработанное для этого процесса.
Стоимость хранения печатных газет и относительно низкий спрос на оригиналы после микрофильмирования и сканирования означает, что печатные газеты после микрофильмирования или сканирования часто выбрасываются. Некоторые люди считают, что это потеря для исследователей, или что ощущение остроты ощущения от чтения бумаги исчезает. Автор Николсон Бейкер зашел так далеко, что создал архив бумажных газет, который он назвал American Newspaper Repository , чтобы сохранить бумажные газеты, которые в противном случае были бы выброшены.
Более поздние газеты могли быть «рождены цифровыми», что означает, что они печатались из компьютерных файлов, а не с помощью высокой печати или фотонабора. [ необходима цитата ] Их можно заархивировать, сохраняя цифровые файлы издателя с изображением каждой страницы, а не сканировать страницы.
Средства поиска и метапоисковые системы
- Всемирный список архивов интернет-газет , хранящийся в Википедии.
- Всемирный список проектов по оцифровке газет в Центре исследовательских библиотек Международной коалиции газет .
- Elephind.com , веб-сайт, предоставляющий бесплатную службу метапоиска для нескольких крупных коллекций (в основном австралийских и американских).
Смотрите также
Рекомендации
Внешние ссылки
- Кеннинг Арлитч и Джон Герберт, «Микрофильм, бумага и распознавание текста: проблемы оцифровки газет» Microform & Imaging Review , 33, 2 (2003): 59-67. (Ранний обзор оцифровки газет.)
- Эдвин Клин, «Текущее состояние оцифровки газет: рыночная перспектива», D-Lib Magazine , 14, 1-2 (январь – февраль 2008 г.).
- Центр научных библиотек, «Современное состояние: сравнительный анализ оцифровки газет на сегодняшний день» , 10 апреля 2015 г.