Оцифровка книг

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Сверхпроизводительный сканер APT BookScan

Оцифровка книг — это процесс перевода бумажных книг в электронный (цифровой) вид. Электронные копии книг могут образовывать электронные библиотеки и распространяться в Сети. Цифровые книги можно легко распространять, воспроизводить и читать на экране. Обычно оцифрованные книги сохраняют в форматах: DjVu, Portable Document Format (PDF), JPG или TIFF. Для преобразования исходного изображения используют оптическое распознавание символов (OCR), оно необходимо для включения страниц книги в цифровой формат, такой как ASCII или другой подобный формат, который уменьшает размер файла и позволяет работать с текстом. Сканирование изображений может происходить вручную или автоматически. В обычных сканерах книга располагается на стекле, на книгу падает свет, и оптический механизм сканирует книгу, двигаясь под стеклом. Другие книжные сканеры используют V-образную раму и фотографируют страницы сверху. Страницы могут переворачиваться вручную или с помощью автоматических устройств подачи бумаги. Специальное массивное стекло, как правило, прижимает страницы, чтобы сгладить недостатки сканирования. После сканирования программа корректирует изображение документа, выравнивая его, обрезая, редактируя и преобразовывая его в текст, и окончательную форму электронной книги. Люди обычно проверяют отсканированное изображение на наличие ошибок.

Сканирование 118 точек/см (300 точек на дюйм) является нормой для преобразования в цифровой вид текста, однако для редких и сложных книг необходимо использование более высокого разрешения. Высокотехнологичные сканеры способны сканировать около тысячи страниц в час, такие устройства могут стоить тысячи долларов. Но можно сделать сканер и самому, например, ручные книжные сканеры, способные оцифровывать около 1200 страниц в час, а стоимость построения около 300 долларов.

Методика оцифровки[править | править вики-текст]

В прошлом чаще применялся ручной набор текста книги.

Сегодня процесс оцифровки включает два подхода.

  1. Обязательный: получение копий страниц в виде графических (обычно растровых) изображений, осуществляемое путём сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная вёрстка книги, и исключаются какие-либо ошибки, однако невозможен поиск или извлечение фрагментов текста для, например, целей цитирования.
  2. Опциональный: распознавание текста (технология «оптического распознавания символов» — OCR) с последующим сохранением распознанного текста в одном из форматов электронных книг. В этом случае становится возможен полнотекстовый поиск по книге и индексация больших массивов электронных книг, однако затрудняется воспроизведение оригинальной вёрстки, изображений, схем и формул, практически неизбежны становятся ошибки распознавания.

В последнее время (особенно с появлением форматов PDF и DjVu) всё чаще применяется смешанный подход: текст книги распознаётся в автоматическом режиме и подкладывается под оригинальные растровые изображения страниц, что позволяет совместить преимущества обоих подходов.

Книжные сканеры[править | править вики-текст]

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

  • планшетные — сканеры, ориентированные на домашнего пользователя, но сконструированные именно для облегчения процесса сканирования книг.
  • планетарные — профессиональные высокопроизводительные сканеры.
  • роботизированные (англ.) — промышленные сверхвысокопроизводительные сканеры, оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая линейка, а одна расположенная над сканируемым оригиналом цифровая камера высокого разрешения (30—140 мегапикселей). В некоторых моделях возможно использование двух камер, которые устанавливаются под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота (при этом нет необходимости раскрывать книгу на 180°, что критично при оцифровке старых или находящихся в плохом состоянии оригиналов).

Планетарные и роботизированные сканеры позволяют достичь производительности 500—2000 страниц в час, у лучших моделей — до 2500—3000 страниц в час.[источник не указан 221 день]

Профессиональные книжные сканеры[править | править вики-текст]

Эскиз V-формы книжного сканера ATIZ
Эскиз типичного книжного сканера

Профессиональные книжные сканеры не просто обычные сканеры, это книжные сканеры, которые сканируют в высоком качестве с использованием цифровой камеры и источниками света по обе стороны от камеры, обеспечивающие легкий доступ к книге. Преимуществом таких сканеров является то, что это очень быстрые сканеры, по сравнению с производительностью планшетного сканера. Однако цены таких сканеров обычно начинаются с 10 000$.

Сканирование с обрезкой страниц[править | править вики-текст]

Для сканирования книг с низким бюджетом, наименее дорогим способом является сканирование книги или журнала с обрезкой страниц от корешка. Это превращает книгу или журнал в стопку документов, которые могут быть загружены в стандартное устройство автоматической подачи документов, Хотя, безусловно, это не является хорошим решением для очень старых и необычных книг, в особенности тогда, когда книга дорогая и коллекционная. В данном сканировании есть две трудности, обрезка страниц и само сканирование.

Обрезка страниц[править | править вики-текст]

Одним из способов резки страниц объемом от 500 до 1000 страниц за один раз, выполняется с помощью гильотины для бумаги. Эта конструкция представляет собой большой стальной стол с тисками для бумаги. Разрез выполняется большим заостренным стальным лезвием, которое движется прямо и режет по всей длине каждого листа сразу. Рычаг на лезвии позволяет прикладывать силу в несколько сотен фунтов, которая необходимо для разреза стопки бумаги. Чистый срез невозможно сделать традиционным серповидным ножом, так как он предназначен только для резки нескольких листов, где 10 листов является практически пределом. С течением времени при нарезке большой стопки бумаги, разрез становится все более неточным, а усилие которое нужно прикладывать для нарезки бумаги увеличивать. Процесс при резке гильотиной притупляет лезвие с течением времени, поэтому необходимо затачивать лезвие. Бумага с покрытием, притупляют лезвие быстрее, чем обычная бумага.

Сканирование[править | править вики-текст]

Когда бумага освобождена от корешка книги, то можно сканировать с помощью традиционного планшетного сканера или использовать сканер с автоматической подачей документов. Страницы с рифленой декоративной окантовкой или изогнутыми в дугу могут быть трудными для сканирования с помощью автоподатчика. Автоподатчик предназначен для сканирования страниц одинаковой формы и размера, поэтому разный размер или форма страниц может привести к неправильному сканированию. Бумага, которая используется в журналах и учебниках может плохо проходить в устройство автоматической подачи бумаги. Вообще наименьшие проблемы возникают с обычной бумагой. Липкий ролик, который захватывает бумагу, может со временем стереться, поэтому за его работоспособностью необходимо внимательно следить. Если в стопке бумаги находятся различные листы бумаги, например карты, то их необходимо удалить сразу перед сканированием.

Сканирование без вмешательства[править | править вики-текст]

Сканер на основе ЦФК. Сканер предназначен для оцифровки как сшитых, так и расшитых изданий. Подходит для оцифровки как относительно новых, так и ветхих изданий за счет специальной V-образной колыбели, позволяющей не раскрывать книгу полностью (на 180 градусов), что сводит к минимуму вредное воздействие на издание. Книга остается в одной и той же позиции. Скорость сканирования (цветной режим) около 500—700 страниц/час. Перелистывание страниц происходит вручную (существуют модели с автоматическим перелистыванием, однако ценные, ветхие книги, составляющие основу библиотечного фонда, не рекомендуется оцифровывать на таком оборудовании во избежание повреждений). Формат сканируемого документа А2-А4. Разрешение получаемых изображений 130—470 dpi (оптическое) . Сканеры подобного типа занимают много рабочего пространства, однако практически не подвержены поломкам, поскольку являются сканирующими платформами. Модернизируется за счет замены фотокамер на более профессиональные варианты. Запускается нажатием одной кнопки. Примером, таких сканеров могут являться сканеры, использующие цифровые фотокамеры.

Крупные проекты по оцифровке книг[править | править вики-текст]

В ходе масштабных проектов по оцифровке книг, как правило, обрабатываются книги, перешедшие в общественное достояние. Хотя Google оцифровывает вообще все книги, однако книги, защищённые авторским правом, предоставляет лишь в виде фрагментов. К крупным проектам по оцифровке на сегодня относятся:

Одной из основных проблем является большой объём книг, которые будут отсканированы. Десятки миллионов книг будут отсканированы, а затем должны находится в свободном доступе и поиске в интернете в качестве универсальной библиотеки. В настоящее время крупные организации полагаются на аутсорсинг или сканирование дома с использованием профессиональных или роботизированных сканеров.

Что касается аутсорсинга, то книги часто отправляются оцифровываться в Индию или Китай, за счет самых низких цен. Профессиональные сканеры используют цифровые камеры, что значительно ускоряет весь процесс. При использовании роботизированных сканеров традиционно необходимо отделять страницы от корешка книги, чтобы страницы могли автоматически подаваться.

Как только страница сканируется, то данные вводятся вручную или с помощью OCR, что является еще одним критерием стоимости сканирования книги. В связи с вопросами авторского права, на большинство отсканированных книг не распространяется авторское право. Однако известно, что Google Book Search сканирует книги, которые защищены авторским правом и может убрать книгу из свободного доступа, только если издатель специально исключит книгу из поиска.

Оцифровка по желанию[править | править вики-текст]

Ряд крупных библиотек предоставляют особые услуги по оцифровке публикаций из своих фондов по желанию читателей. Основные критерии: публикации должны находиться в общественном достоянии и должны быть в достаточной сохранности. Таким образом, появляется источник финансирования процесса оцифровки или же устанавливаются приоритеты при массовой оцифровке. Как правило, отметка о возможности сканирования интегрирована в библиотечный каталог, оцифрованная публикация размещается в электронной библиотеке для всеобщего доступа.

Существующие проекты[править | править вики-текст]

  • «Scan-on-demand» (Сканирование по требованию) — бесплатный проект от openlibrary.org, любой желающий может выбрать книгу из списка (фонды Бостонской общественной библиотеки), который содержит большое количество литературы XIX—XX веков на русском языке. Оцифровка проводится средствами некоммерческой организации Архив Интернета. Сроки работ заявлены как 5—8 рабочих дней. На сайте openlibrary.org собрано уже более миллиона оцифрованных публикаций.[1]
  • «DigiWunschbuch» — проект Центра оцифровки и Университетской государственной библиотеки Гёттингена (Германия), сканирование за плату (рассчитывается постранично) заказчик получает цифровую копию на CD-ROMе, кроме того, его имя будет размещено на шмуцтитуле цифровой копии размещённой в открытом доступе.[2]

См. также[править | править вики-текст]

Ссылки[править | править вики-текст]

Примечания[править | править вики-текст]