DjVu
| Расширение |
|
|---|---|
| MIME |
|
| Разработан |
AT&T Research |
| Опубликован | |
| Последний выпуск |
27[1] / июль 2006 |
| Тип формата | |
| Открытый формат? |
Да |
| Сайт | |
DjVu (от фр. déjà vu — «уже виденное») — технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов — книг, журналов, рукописей и прочее, где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами и т. д.
DjVu стал основой для нескольких библиотек научных книг. Огромное количество книг в этом формате доступно в файлообменных сетях.
Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения загрузки файла. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовать удобную навигацию в DjVu-книгах.
Содержание |
[править] Используемые технологии
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, по умолчанию понижается для экономии места. Передний план содержит цветовую информацию о маске; его разрешение обычно понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.
Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.
Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. В присутствии сложного заднего плана выигрыш объёма составляет обычно 4—10 раз. Однако при этом не стоит забывать, что в DjVu используется сжатие данных с потерями, поэтому для особо важных документов, возможно, будет разумнее использовать форматы сжатия без потерь: PNG, JPEG 2000, TIFF и т. п.
В основе формата DjVu лежат несколько технологий, разработанных в AT&T Labs:
- алгоритм отделения текста от фона на отсканированном изображении;
- вейвлетный алгоритм сжатия фона IW44;
- алгоритм сжатия чёрно-белых изображений JB2;
- универсальный алгоритм сжатия ZIP;
- алгоритм распаковки «по запросу»;
- алгоритм «маскировки» изображений.
[править] Текстовое представление изображений DjVu
Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы. (Используется для поиска и лёгкого копирования текста при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста — выполнение оптического распознавания в сторонних программах.
[править] Лицензионная информация
AT&T продали технологию компании LizardTech, которая пыталась использовать её в своих коммерческих интересах, но благодаря открытости формата[2] для создания и просмотра документов DjVu существует свободное программное обеспечение, доступное для различных платформ. 1 июля 2008 года LizardTech передал менеджмент DjVu родительской компании Celartem[3], а 10 июня 2009 года Celartem передал права на технологию DjVu компании Caminova[4].
Существует открытая публикуемая под лицензией GNU GPL библиотека DjVuLibre и программы-кодировщики и просмотрщики на ней.
[править] Примечания
- ↑ DjVu File Format Versions. Разработчики DjVu (июль 2006). Проверено 16 января 2010.
- ↑ Лицензия
- ↑ Пресс-релиз LizardTech
- ↑ Пресс-релиз LizardTech
[править] См. также
- WinDjView
- STDU Viewer
- Scan Tailor
- ScanKromsator
- Оцифровка книг
- MRC PDF — технология многослойной упаковки в PDF сканированной графики с текстом.
[править] Ссылки
| DjVu на Викискладе? |
- DJVU — формат для электронных библиотек. Алгоритмы и достоинства, программы и использование, руководства пользователя.
- Дежавю или DjVu: ликбез. Сборник статей о технологии DjVu.
- DjVu.org Англоязычный портал DjVu-сообщества.
|
|
||||||||||
|---|---|---|---|---|---|---|---|---|---|---|
|
||||||||||
|
|
|
|---|---|
| Редактируемые форматы документов | Compound Document Format · Формат Microsoft Office XML · MS Word Document (DOC) · Office Open XML (DOCX, др.) · Open Document Architecture · OpenDoc · OpenDocument (ODF) · OpenOffice.org XML · Revisable-Form Text · Rich Text Format (RTF) · Uniform Office Format (UOF) |
| Фиксированные форматы документов | DjVu · FictionBook (FB2) · Electronic Publication (ePub) · Envoy · Open XML Paper Specification (XPS) · PDF |

