DjVu

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая GoodRonius (обсуждение | вклад) в 19:40, 5 ноября 2018 (→‎Программы для работы с DjVu). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску
DjVu
Изображение логотипа
Расширение .djvu[3] или .djv[3]
MIME-тип image/vnd.djvu
image/x-djvu
Сигнатура AT&TFORM
Разработчик AT&T Labs-Research, LizardTech (с марта 2000[1])
Опубликован 1998
Последний выпуск 27 (Июль 2006[2])
Тип формата Электронный документ
Открытый формат? Да
Сайт djvu.org
Логотип Викисклада Медиафайлы на Викискладе

DjVu (от фр. déjà vu — «уже виденное») — технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов — книг, журналов, рукописей и прочее, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами и т. п.

Изначально технология была разработана Яном Лекуном, Леоном Боту и Патриком Хеффнером в AT&T Labs с 1996 по 2001 годы. DjVu стал основой для нескольких библиотек научных книг. Он довольно популярен, и в нём делается большое количество разных документов.

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.

Используемые технологии

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.

Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. В присутствии сложного заднего плана выигрыш объёма составляет обычно 4—10 раз. Однако при стандартных настройках в DjVu используется сжатие данных с потерями, поэтому для особо важных документов обычно используются форматы сжатия без потерь: PNG, JPEG 2000, TIFF и т. п. В DjVu также можно использовать и сжатие данных без потерь. Так например утилита CJB2 из пакета DjVuLibre предоставляет сжатие без потерь.

В основе формата DjVu лежат несколько технологий, в том числе разработанных в AT&T Labs:

  • алгоритм отделения текста от фона на отсканированном изображении;
  • вейвлетный алгоритм сжатия фона IW44;
  • алгоритм сжатия чёрно-белых изображений JB2 (похожий на JBIG2);
  • универсальный алгоритм сжатия Deflate;
  • алгоритм распаковки «по запросу»;
  • алгоритм «маскировки» изображений.

Текстовое представление изображений DjVu

Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы. (Используется для поиска и лёгкого копирования текста при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста — выполнение оптического распознавания в сторонних программах.

Лицензионная информация

В марте 2000 года[1] AT&T продали технологию компании LizardTech[4], которая пыталась использовать её в своих коммерческих интересах, но благодаря открытости формата[5] для создания и просмотра документов DjVu существует свободное программное обеспечение, доступное для различных платформ. 1 июля 2008 года LizardTech передал менеджмент DjVu родительской компании Celartem[6], а 10 июня 2009 года Celartem передал права на технологию DjVu компании Cuminas (ранее Caminova[7])[8].

Существует открытая публикуемая под лицензией GNU GPL библиотека DjVuLibre и программы-кодировщики и просмотрщики на ней.

Программы для работы с DjVu

Просмотр

Для Windows:

  • Cuminas DjVu Browser Plug-in — программа DjVuViewer для просмотра DJVU-документов, а также плагин для просмотра документов в браузере от официального разработчика[9]. Плагин не позволяет просматривать документ в режиме «все страницы в одной ленте».
  • DjView4 — просмотр и конвертирование DjVu в PDF и различные другие графические форматы.
  • WinDjView — основана на DjVuLibre.
  • Sumatra PDF — основана на MuPDF, компактная и быстрая программа для просмотра в том числе DJVU-документов. До версии 2.5.2 включительно содержит плагин для просмотра DJVU-документов в браузере;
  • STDU Viewer — бесплатная (для некоммерческого использования) программа для просмотра многих типов документов.
  • DjVuReader — основана на DjVuLibre, но давно не обновляется.
  • DjVu Viewer[10].
  • Hamster PDF Reader[11] — бесплатная программа для просмотра PDF, XPS, DjVu файлов.

Для Linux:

  • Evince и Okular с использованием DjVuLibre.
  • DjView4 — просмотр и конвертирование DjVu в PDF и различные другие графические форматы.
  • Zathura (с плагином zathura-djvu) — минималистичная и быстрая FOSS программа с vim-подобным управлением. Использует DjVuLibre.

Для OS X:

  • Caminova Official DjVu Browser Plug-in
  • DjVuLibre DjView
  • MacDjView Desktop Viewers
  • Zathura

Для Android:

  • Akunin Book;
  • EBookDroid;
  • eReader Prestigio;
  • Orion Viewer с использованием DjVuLibre;
  • EBookDroid — PDF & DJVU Reader;
  • AnDoc — PDF и DjVu Reader.[12]
  • ReadEra

Для iOS:

Для BlackBerry OS:

  • DjVuBB.
Конвертирование и редактирование
  • Djvu Solo — исторически первая программа для работы с DjVu, разработанная LizardTech
  • DjVuLibre.
  • didjvu — консольная утилита для раздельного конвертирования в DjVu текста и изображений.
  • Cuminas Document Express — официальная программа разработчика[13].
  • Djvusmooth для Linux. Функции: добавление и редактирование оглавления.
  • Celartem Office-to-Djvu Add-in — старая, но вполне рабочая надстройка для конвертации офисных документов в Djvu. Работает в Microsoft Office 2007/2010/2013.
  • Djvusmall mod — небольшая программа для конвертирования набора изображений в/из Djvu (содержит взломанные элементы Document Express).
Добавление в DJVU-документ распознанного текста (OCR) для копирования и поиска по ключевым словам
  • any2djvu — онлайн-сервис, работает только для англоязычного текста[14].
  • DjvuOCR — добавляет в DJVU-документ распознанный текст[15].
  • ABBYY FineReader — сохраняет проект в виде DJVU с OCR-слоем, начиная с 10-й версии.
Дополнительные программы
  • All_My_Books — программа-каталогизатор, работающая в том числе и с форматом DJVU.
  • Cuminas DjVu Shell Extension Pack — расширение, позволяющее в Windows просматривать эскизы DJVU-документов, изменять их мета-данные, производить поиск по содержимому и другое[16].

См. также

Примечания

Ссылки