Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Книжный сканер Internet Archive Scribe в 2011 году
Интернет-архивный сканер книг

Сканирование книг или оцифровка книг (также: сканирование журналов или оцифровка журналов ) - это процесс преобразования физических книг и журналов в цифровые носители, такие как изображения , электронный текст или электронные книги (электронные книги), с помощью сканера изображений .

Цифровые книги можно легко распространять, воспроизводить и читать на экране . Распространенными форматами файлов являются DjVu , Portable Document Format (PDF) и Tagged Image File Format (TIFF). Для преобразования необработанных изображений используется оптическое распознавание символов (OCR) для преобразования страниц книги в цифровой текстовый формат, такой как ASCII или другой аналогичный формат, который уменьшает размер файла и позволяет переформатировать текст, выполнять поиск или обрабатывать его в других приложениях.

Сканеры изображений могут быть ручными или автоматическими. В обычном коммерческом сканере изображений книга помещается на плоскую стеклянную пластину (или валик), а световой и оптический массив перемещается по книге под стеклом. В ручных книжных сканерах стеклянная пластина доходит до края сканера, что упрощает выравнивание корешка книги. Другие книжные сканеры помещают книгу лицевой стороной вверх в V-образную рамку и фотографируют страницы сверху. Страницы можно переворачивать вручную или с помощью автоматических устройств подачи бумаги. Листы стекла или пластика обычно прижимают к странице, чтобы она стала плоской.

После сканирования программное обеспечение корректирует изображения документа, выстраивая их, обрезая, редактируя изображения и конвертируя в текст и окончательную форму электронной книги. Корректоры-люди обычно проверяют вывод на наличие ошибок.

Сканирование с разрешением 118 точек / сантиметр ( 300 точек на дюйм ) достаточно для преобразования в цифровой текст, но для архивного воспроизведения редких, сложных или иллюстрированных книг используется гораздо более высокое разрешение. [ необходима цитата ] Высококачественные сканеры, способные обрабатывать тысячи страниц в час, могут стоить тысячи долларов, но ручные книжные сканеры для самостоятельного изготовления (DIY), способные обрабатывать 1200 страниц в час, были построены за 300 долларов США. [1]

Коммерческие книжные сканеры [ править ]

Эскиз V-образного книжного сканера от Atiz
Эскиз типичного ручного книжного сканера

Коммерческие книжные сканеры не похожи на обычные сканеры ; эти книжные сканеры обычно представляют собой высококачественную цифровую камеру с источниками света по обе стороны от камеры, установленную на какой-то раме, чтобы обеспечить легкий доступ человеку или машине для перелистывания страниц книги. В некоторых моделях используются V-образные подставки для книг, которые обеспечивают поддержку корешков книг, а также автоматически центрируют положение книги.

Преимущество этого типа сканера в том, что он очень быстрый по сравнению с производительностью накладных сканеров.

Крупномасштабные проекты [ править ]

Такие проекты, как Project Gutenberg (оценка 1971 г.), Million Book Project (оценка примерно 2001 г.), Google Книги (оценка 2004 г.) и Open Content Alliance (оценка 2005 г.), сканируют книги в больших масштабах.

Одна из основных проблем - огромное количество книг, которые необходимо сканировать. В 2010 году общее количество произведений, появившихся в качестве книг по истории человечества, оценивалось примерно в 130 миллионов. [2] Все они должны быть отсканированы, а затем доступны для поиска в Интернете для всеобщего использования в качестве универсальной библиотеки . В настоящее время есть три основных способа, на которые полагаются крупные организации: аутсорсинг, внутреннее сканирование с использованием коммерческих книжных сканеров и собственное сканирование с использованием роботизированных сканеров.

Что касается аутсорсинга, книги часто отправляются для сканирования из недорогих источников в Индию или Китай . В качестве альтернативы, из-за удобства, безопасности и улучшения технологий, многие организации предпочитают сканировать собственными силами, используя либо потолочные сканеры, которые требуют много времени, либо сканирующие машины на базе цифровых фотоаппаратов, которые значительно быстрее и являются методом, используемым Internet Archive as. ну как гугл. Традиционные методы включали отрезание корешка книги и сканирование страниц в сканере с возможностью автоматической подачи страниц с последующим переплетением отдельных страниц.

После сканирования страницы данные вводятся либо вручную, либо с помощью оптического распознавания текста, что является еще одной важной статьей затрат на проекты сканирования книг. [ согласно кому? ]

Из-за проблем с авторским правом большинство отсканированных книг не защищены авторским правом; однако известно, что Поиск книг Google сканирует книги, все еще защищенные авторским правом, если только издатель специально не запрещает это. [ необходима цитата ]

Совместные проекты [ править ]

В Соединенных Штатах существует множество совместных проектов по оцифровке. Двумя самыми ранними проектами были проект совместной оцифровки в Колорадо и NC ECHO - North Carolina Exploring Cultural Heritage Online [3], базирующийся в Государственной библиотеке Северной Каролины .

Эти проекты создают и публикуют передовые методы оцифровки и работают с региональными партнерами над оцифровкой материалов культурного наследия. Дополнительные критерии лучших практик совсем недавно были установлены в Великобритании, Австралии и Европейском союзе. [4] Wisconsin Heritage Online [5] - это совместный проект оцифровки, созданный по образцу Колорадского совместного проекта оцифровки. Висконсин использует вики [6] для создания и распространения совместной документации. Грузинская программа совместной оцифровки, Цифровая библиотека Грузии, [7]представляет собой единую виртуальную библиотеку по истории и жизни государства, включающую более сотни цифровых коллекций из 60 учреждений и 100 правительственных агентств. Электронная библиотека Грузии является GALILEO [8] Инициатива основана в Университете Джорджии библиотек.

В двадцатом веке Музей и библиотека рукописей Хилла фотографировали книги в Эфиопии, которые впоследствии были уничтожены в результате политического насилия в 1975 году. С тех пор библиотека работала над фотографированием рукописей в странах Ближнего Востока. [9]

В Южной Азии трест Нанакшахов оцифровывает рукописи Гурмухисскрипта .

В Австралии было много совместных проектов между Национальной библиотекой Австралии и университетами по улучшению инфраструктуры репозитория, в котором будет храниться оцифрованная информация. [10] Некоторые из этих проектов включают ARROW (Австралийские исследовательские репозитории в Интернете для всего мира) проект и проект APSR (Австралийское партнерство по устойчивому хранилищу).

Методы деструктивного сканирования [ править ]

Самый дешевый метод сканирования книги или журнала с ограниченным бюджетом - это обрезать переплет. Это превращает книгу или журнал в пачку листов бумаги, которые затем можно загрузить в стандартный автоподатчик документов (АПД) и отсканировать с помощью недорогой и распространенной технологии сканирования. Хотя это нежелательное решение для очень старых и необычных книг, это полезный инструмент для сканирования книг и журналов, когда книга не является дорогостоящим предметом коллекционирования и легко заменить отсканированное содержимое. Этот процесс связан с двумя техническими трудностями: первая связана с резкой, а вторая - со сканированием.

Отмена привязки [ править ]

Более точным и менее разрушительным, чем разрезание страниц гильотиной для бумаги, бритвой или ножницами, является метод тщательного развязывания вручную с помощью инструментов. Этот метод был успешно применен для десятков тысяч страниц архивных оригиналов бумаги, отсканированных для проекта цифрового архива Рязановской библиотеки из газет, журналов и брошюр возрастом от 50 до 100 лет и более, часто составленных из хрупкой, хрупкой бумаги. Хотя денежная ценность для некоторых коллекционеров (и для большинства продавцов такого рода материалов) снижается в результате развязывания, развязывание во многих случаях на самом деле значительно помогает сохранению самих физических страниц, делая их более доступными для исследователей и снижая вероятность их повреждения при впоследствии обследован. Обратной стороной является то, что несвязанные стопки страниц "взъерошиваются",и, следовательно, больше подвержены воздействию кислорода в воздухе, что может в некоторых случаях (теоретически) ухудшение скорости. Эту проблему можно решить, установив веса на страницы после того, как они распакованы, и поместив их в соответствующие контейнеры.

Ручное развязывание сохранит текст, который попадает в канавки переплетов, и, что наиболее важно, позволяет выполнять более простые и полные высококачественные отсканированные материалы шириной в две страницы, такие как центральные мультфильмы, графические изображения и фотографии в журналах. Цифровой архив «Освободителя 1918-1924» в марксистском Интернет-архиве прекрасно демонстрирует качество двухстраничных графических сканирований, которые стали возможными благодаря осторожному развязыванию вручную перед сканированием на плоской платформе или другим способом.

Методы развязывания различаются в зависимости от технологии переплета: от простого удаления нескольких скоб до разгибания и удаления гвоздей и до тщательной шлифовки слоев клея на корешке книги до точного точного расположения с последующим трудоемким снятием веревки, которая использовалась для удержания книги. бронируйте вместе.

Обратите внимание, что в некоторых газетах (например, Labour Action 1950–1952) в центре обращены к страницам колонки, которые идут прямо между ними. Отрубив часть корешка переплетенного тома таких бумаг, вы потеряете часть этого текста. Даже в репринте Гринвуда этой публикации не удалось сохранить текстовое содержание этих центральных столбцов, в результате чего было вырезано значительное количество текста. Только когда переплетенные тома оригинальной газеты были тщательно развязаны и открытая пара центральных страниц сканировалась как одна страница на планшетном сканере, содержимое центральной колонки стало доступным в цифровом виде. В качестве альтернативы можно представить две развернутые центральные страницы как три скана. По одной для каждой отдельной страницы и по одной в области размером со страницу, расположенной над центром двух страниц.

Резка [ править ]

Один метод разрезания стопки от 500 до 1000 страниц за один проход выполняется с помощью гильотинного резака для бумаги. Это большой стальной стол с бумажными тисками, которые прикручиваются к стопке и надежно фиксируют ее перед резкой. Резка выполняется большим заостренным стальным лезвием, которое движется прямо вниз и разрезает каждый лист сразу по всей длине. Рычаг на лезвии позволяет приложить к нему силу в несколько сотен фунтов для быстрой резки за один проход.

Чистый разрез толстой стопки бумаги невозможно сделать традиционным недорогим шарнирным ножом для бумаги в форме серпа . Эти резаки предназначены только для нескольких листов, при этом практический предел резки - до десяти листов. Большая стопка бумаги воздействует на шарнир скручивающими усилиями, отталкивая лезвие от режущей кромки стола. Резание становится более неточным по мере удаления от петли, и сила, необходимая для удержания лезвия у режущей кромки, увеличивается по мере удаления разреза от петли.

В процессе гильотинной резки лезвие со временем затупляется, что требует повторной заточки. Бумага с покрытием, такая как гладкая журнальная бумага, затупляет лезвие быстрее, чем обычная книжная бумага, из-за покрытия из каолинитовой глины . Кроме того, удаление переплета всей книги в твердом переплете приводит к чрезмерному износу из-за прорезания жесткого материала основы обложки. Вместо этого можно снять внешнюю обложку и вырезать только внутренние страницы.

Альтернативный метод развязывания книг - использовать настольную пилу. Хотя этот метод потенциально опасен и не оставляет такой гладкой кромки, как метод гильотинного резака для бумаги, он более доступен для обычного человека. Идеальный метод - зажать книгу между двумя толстыми досками с помощью тяжелых крепежных винтов, чтобы обеспечить прижимную силу. Вся пачка древесины и книг пропускается через настольную пилу, используя направляющую планку. Острое лезвие из твердого сплава с мелкими зубьями идеально подходит для получения приемлемого среза. Качество резки зависит от лезвия, скорости подачи, типа бумаги, покрытия бумаги и переплетного материала.

Сканирование [ править ]

После того, как бумага высвободилась из корешка, ее можно сканировать по одному листу, используя традиционный планшетный сканер или устройство автоматической подачи документов .

Страницы с декоративными рифлеными краями или изогнутыми по дуге из-за неплоского переплета могут быть трудными для сканирования с использованием АПД, поскольку они предназначены для сканирования страниц одинаковой формы и размера, а страницы переменного размера или формы могут привести к неправильному сканирование. Рифленые края или изогнутый край можно удалить гильотинированием, чтобы сделать внешние края плоскими и гладкими перед обрезкой переплета.

Бумага с покрытием в журналах и переплетенных учебниках может затруднить захват роликов АПД и их направление вдоль тракта прохождения бумаги. АПД, в котором для переворачивания листов используется ряд роликов и каналов, может замяться или застрять при подаче бумаги с покрытием. Как правило, меньше проблем при использовании максимально прямого тракта прохождения бумаги с небольшим количеством изгибов и изгибов. Глина также может со временем стирать бумагу и покрывать липкие ролики захвата бумаги, из-за чего они плохо захватывают бумагу. Ролики АПД могут нуждаться в периодической чистке, чтобы предотвратить скольжение.

Журналы могут создавать проблемы при массовом сканировании из-за небольших неоднородных листов бумаги в стопке, таких как карточки подписки на журналы и складывающиеся страницы. Их необходимо удалить до начала массового сканирования, и они либо сканируются отдельно, если они содержат полезный контент, либо просто исключаются из процесса сканирования.

Неразрушающее сканирование [ править ]

Пример неразрушающего книжного сканера / дигитайзера, сделанного своими руками, с направленной вниз книгой, позволяющей гравитации выравнивать страницы

Программно-управляемые машины и роботы были разработаны для сканирования книг без необходимости их развязывания, чтобы сохранить как содержимое документа, так и создать цифровой архив изображений с его текущим состоянием. Эта недавняя тенденция частично объясняется постоянным совершенствованием технологий обработки изображений, которые позволяют получать высококачественные цифровые архивные изображения с минимальным или нулевым повреждением редкой или хрупкой книги за достаточно короткий период времени.

Первым полностью автоматизированным книжным сканером был сканер DL (Digitizing Line), произведенный 4DigitalBooks в Швейцарии. Первая известная установка была в Стэнфордском университете в 2001 году. [11] [12] Сканер получил награду Dow Jones, занявшую второе место в категории бизнес-приложений в 2001 году. [13]

Воспроизвести медиа
Видео роботизированного книжного сканера DL mini

В 2007 году компания TREVENTUS представила автоматический книжный сканер с углом раскрытия книги для сканирования 60 °. Это улучшение в области сохранения книг во время сканирования. Компания была награждена Европейским союзом «Гран-при в области ИКТ 2007» [14] [15] за разработку ScanRobot®. Эта технология также использовалась в проекте массовой оцифровки из Баварской государственной библиотеки [16], где 8 900 книг 16 века были оцифрованы с использованием трех этих v-образных сканеров в течение 18 месяцев.

ScanRobot. Автоматический сканер с углом раскрытия 60 °

Indus International, Inc, базирующаяся в Вест-Салеме, штат Висконсин , производит сканеры, которые были куплены некоторыми американскими организациями для таких услуг, как межбиблиотечный абонемент . [17]

Большинство коммерческих роботизированных сканеров высокого класса используют традиционные технологии подачи воздуха и всасывания, в то время как некоторые другие используют альтернативные подходы, такие как бионические пальцы для перелистывания страниц. В некоторых сканерах используются ультразвуковые или фотоэлектрические датчики для обнаружения двух страниц и предотвращения пропуска страниц. Согласно сообщениям о машинах, способных сканировать до 2900 страниц в час, [18] роботизированные книжные сканеры специально разработаны для крупномасштабных проектов оцифровки.

В патенте Google 7508978 показана технология инфракрасной камеры, которая позволяет определять и автоматически настраивать трехмерную форму страницы. [19] [20] У исследователей из Токийского университета есть экспериментальный неразрушающий книжный сканер [21], который включает в себя 3D-сканер поверхности, позволяющий программно выправлять изображения изогнутой страницы. Таким образом, книгу или журнал можно сканировать так же быстро, как оператор может пролистывать страницы, примерно 200 страниц в минуту .

См. Также [ править ]

Переворачивая страницы между сканированием.
  • Цифровая библиотека
  • Институциональный репозиторий
  • Оптическое распознавание символов
  • Планетарный сканер
  • Europeana

Ссылки [ править ]

  1. ^ "DIY Высокоскоростной книжный сканер от мусора и дешевых камер" . Instructables.com . Проверено 19 января 2014 года .
  2. ^ Taycher Леонид (2010-08-05). «По состоянию на 5 августа 2010 года, по оценкам Google, в мире насчитывается 129 864 880 различных книг» . Googleblog.blogspot.co.at . Проверено 8 августа 2014 .
  3. ^ «Северная Каролина ECHO: Изучение культурного наследия в Интернете» . ncecho.org .
  4. ^ Электронные библиотеки: принципы и практика в глобальной среде, Ариадна, апрель 2005 г.
  5. ^ "Воспоминание Висконсин" . 29 ноября 2006 г.
  6. ^ «Wisconsin Heritage Online [только для некоммерческого использования] / FrontPage» . pbworks.com .
  7. ^ «Добро пожаловать в Цифровую библиотеку Грузии» . usg.edu .
  8. ^ "ГАЛИЛЕО" . usg.edu .
  9. ^ «Кодексы расшифрованы». Экономист. 18 декабря 2010. с. 151.
  10. ^ Библиотеки в двадцать первом веке: новые направления информационных услуг. Под редакцией Стюарта Фергюсона, 2007 г., стр. 84
  11. ^ Дэвис, Джон. «4DigitalBooks запускает сканер цифровых книг» . PrintWeek.
  12. ^ "Роботизированный книжный сканер библиотек Стэнфордского университета (SUL)" . Библиотеки Стэнфордского университета (SUL).
  13. ^ «Награды за инновационные технологии: победители 2001» . Доу Джонс. Архивировано из оригинала на 2015-09-23 . Проверено 7 августа 2017 .
  14. ^ «Европейская комиссия - ПРЕСС-РЕЛИЗЫ - Пресс-релиз - Британские, шведские и австрийские предприниматели получают« Нобелевскую премию »ЕС в области ИКТ» . europa.eu . Проверено 4 июня 2019 .
  15. ^ "Treventus ICT Grand price 2007" . Тревентус.
  16. ^ "Проект Баварской государственной библиотеки VD16" (PDF) . Тревентус. Архивировано из оригинального (PDF) 08.07.2016 . Проверено 4 июня 2019 .
  17. ^ Hope College (2012-09-06). «Встречайте новый сканер библиотеки» . Проверено 21 мая 2020 .
  18. ^ Рапп, Дэвид. «Обзор продукта: библиотечные сканеры» . Библиотечный журнал . Дата обращения 11 мая 2014 .
  19. ^ США 7508978 , Лефевр, Франсуа-Мари и Марин Saric, «Обнаружение канавок отсканированных изображений», опубликованная 24 марта 2009 года, назначены на Google 
  20. Тайна сканирующей машины Google раскрыта Морин Клементс, 30 апреля 2009 г.
  21. ^ Guizzo, Erico (2010-03-17). " " Сверхбыстрый сканер позволяет оцифровывать книгу путем перелистывания страниц ", IEEE Spectrum, 17 марта 2010 г." . Spectrum.ieee.org . Проверено 8 августа 2014 .

Внешние ссылки [ править ]

  • Выпуск первого в США планетарного сканера для книг.
  • Форум по устройству сканера книги Сделай сам
  • Линейный книжный сканер с открытым исходным кодом Google
  • Видео Стэнфордского университета показывает сканирование книг
  • Высокоскоростной сканер Токийского университета