hOCR

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

hOCR — открытый стандарт, который определяет формат для представления OCR-вывода. Стандарт имеет целью приобщить к распознанного текста информацию о макете, уровень достоверности распознавания, стиль и другие данные. Для достижения цели вступления этой информации распознанного текста используется стандартный формат HTML.

Существует утилита командной строки hocr2pdf [1] для преобразования hocr-данных в файлы PDF.

См. также[править | править код]

  • Программное обеспечение, которое использует этот формат:
    • OCRopus — открытое программное обеспечение OCR для Linux
    • Tesseract — в OCR Engine используется OCRopus (до 3.0)
    • CuneiForm — свободное программное обеспечение OCR
    • ExactImage — свободноепрограммное обеспечение для обработки изображений

Ссылки[править | править код]