CuneiForm

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
CuneiForm
Тип

оптическое распознавание символов

Автор

Cognitive Technologies

Разработчики

команда CuneiForm-Linux

Написана на

C, C++

Интерфейс

командная строка

Операционная система

Linux, Mac OS X и др. UNIX-подобные, Windows

Первый выпуск

1996

Последняя версия

1.1.0 (19 апреля 2011[1])

Состояние

активное

Лицензия

BSD-подобная лицензия Cognitive Technologies[2]

Сайт

launchpad.net/cuneiform-linux

CuneiForm (англ. cuneiform, кьюниформ — клинопись), Cognitive OpenOCR — свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

OCR CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт в 1993 году. Система поставлялась с наиболее популярными моделями сканеров, МФУ и ПО в России и мире: Corel Draw, Hewlet-Pachard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti и др. В 2008 году Cognitive Technologies открыла исходные коды OCR CuneiForm.

Особенности[править | править вики-текст]

CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

Список языков, поддерживаемых системой:

Кроме того, поддерживается смесь русского и английского языка. Распознавание смесей других языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году[3]. Обучение другим языкам затруднительно в виду связи каждого языка с dat-файлом, структура и способ получения каковых разработчиками не раскрывались.

История[править | править вики-текст]

1993 год - Cognitive Technologies заключила OEM-контракт с канадской корпорацией Corel Corporation, по которому библиотека распознавания Cognitive встроена в популярный издательский пакет Corel Draw 3.0 (и последующие версии).

1994 год - Заключен контракт с Hewlett-Packard по комплектации сканеров, поставляемых в Россию OCR CuneiForm. Это первый контракт HP с российским разработчиком ПО.

1995 год - Заключен контракт с японской корпорацией Epson о комплектации сканеров OCR CuneiForm.[4] Подписан OEM-контракт с крупнейшим мировым производителем факсимильных аппаратов, лазерных принтеров, сканеров и другого офисного оборудования - Brother Corporation. Согласно договору новый роликовый сканер Brother IC-150 будет комплектоваться программным обеспечением Cognitive для сканирования, распознавания по всему миру.

1996 год - Подписан ОЕМ-контракт с одним из крупнейших мировых производителей мониторов, факсимильных аппаратов, лазерных принтеров, многофункциональных устройств и другого офисного оборудования - Samsung Information Systems America. Согласно договору новое многофункциональное устройство Samsung OFFICE MASTER OML-8630A будет продаваться в комплекте с системой оптического распознавания символов Cognitive Cuneiform LE по всему миру.

  • Подписан ОЕМ-контракт с ведущим мировым производителем офисного оборудования компанией Xerox о комплектации многофункциональных устройств Xerox 3006 и Pro-610 системой распознавания CuneiForm.
  • Выпущена версия OCR CuneiForm '96, в которой впервые в мире применены алгоритмы адаптивного распознавания.

Адаптивное распознавание — метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, то есть используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность бесшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания.

1997 год - В системе CuneiForm впервые применены технологии, основанные на нейронных сетях. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

  • Подписан новый ОЕМ-контракт с компанией Canon на комплектацию многофункциональных устройств, поставляемых в Россию, системой CuneiForm;
  • Подписан новый ОЕМ-контракт с компанией OKI Europe Limited на комплектацию многофункциональных устройств OKI FAX 4100 и OKI FAX 5200, поставляемых в Россию, системой CuneiForm;
  • Выход первой в мире OCR-системы CuneiForm MMX Update для процессора Intel-MMX;
  • Сканеры NeuHause комплектуются системой распознавания CuneiForm;
  • Выход первой в России системы сетевого сканирования CuneiForm 98 NeST.

1999 год

  • Подписан новый ОЕМ-контракт с компанией Olivetti на комплектацию многофункциональных устройств поставляемых в Россию системой CuneiForm;
  • Заключено дистрибуторское соглашение с ведущим европейским дистрибутором ПО компанией WSKA (Франция) на распространение OCR Cuneiform Direct в Европе;
  • Вышла новая версия системы распознавания CuneiForm 2000 в которой реализован метод “Когнитивного анализаТМ: внутрь ядра распознавания встроена экспертная система, которая позволяет проводить анализ оценок альтернатив, получаемых на выходе от каждого алгоритма распознавания, и выбирать оптимальный вариант.
  • Разработан метод "Меридианной сегментации таблицТМ" для повышения точности воссоздания исходной формы таблицы в выходном документе;
  • Разработан механизм воссоздания формы исходного документа - “What you scan is what you getTM“. Дело в том, что до настоящего времени пользователи систем распознавания тратили достаточное количество времени (которое часто превышало время самого сканирования и распознавания) для придания документу его исходной формы, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т.д.

2001 год - Подписан OEM-контракт о комплектации оборудования, производимого компанией Canon (сканеры, многофункциональные устройства), программным обеспечением Cognitive Technologies (OCR CuneiForm,) на территории стран Восточной Европы.

Перспективы развития[править | править вики-текст]

12 декабря 2007 года была выпущена freeware-версия OCR CuneiForm и анонсировано открытие её исходных текстов[5].

2 апреля 2008 года были опубликованы исходные тексты OCR Cuneiform под лицензией BSD[6], а осенью — исходные тексты интерфейса системы[7].

Последняя версия OpenSource версии для Windows не обновлялась с 14.02.2009. Эта версия больше не предлагается для скачивания. Вместо неё на странице загрузки доступна версия от 11.11.2008

В 2009 году выпущены графические интерфейсы к открытой версии Cuneiform на основе библиотеки Qt 4 — Cuneiform-Qt[8], YAGF. Начиная с версии 0.9.0[9] открытую версию для Linux можно использовать в качестве библиотеки.

Графические интерфейсы для CuneiForm[править | править вики-текст]

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

Ссылки[править | править вики-текст]