Оцифровка книг


Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой, как ASCII, или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час. Существуют ручные книжные сканеры, способные оцифровывать около 1200 страниц в час.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 мегапикселей). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).