CuneiForm

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
CuneiForm
Тип

оптическое распознавание символов

Автор

Cognitive Technologies

Разработчики

команда CuneiForm-Linux

Написана на

C, C++

Интерфейс

командная строка

Операционная система

Linux, Mac OS X и др. UNIX-подобные, Windows

Первый выпуск

1996

Последняя версия

1.1.0 (19 апреля 2011[1])

Состояние

активное

Лицензия

BSD-подобная лицензия Cognitive Technologies[2]

Сайт

launchpad.net/cuneiform-linux

CuneiForm (англ. cuneiform, кьюниформ — клинопись), Cognitive OpenOCR — свободно распространяемая открытая система оптического распознавания текстов российской компании Cognitive Technologies.

OCR CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт в 1993 году. Система поставлялась с наиболее популярными моделями сканеров, МФУ и ПО в России и мире: Corel Draw, Hewlet-Pachard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti и др. В 2008 году Cognitive Technologies открыла исходные коды OCR CuneiForm.

Особенности[править | править вики-текст]

CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов.

Список языков, поддерживаемых системой:

Кроме того, поддерживается смесь русского и английского языка. Распознавание смесей других языков поддерживается только в ветке, разработанной Андреем Боровским в 2009 году[3]. Обучение другим языкам затруднительно в виду связи каждого языка с dat-файлом, структура и способ получения каковых разработчиками не раскрывались.

История[править | править вики-текст]

1993 год - Cognitive Technologies заключила OEM-контракт с канадской корпорацией Corel Corporation, по которому библиотека распознавания Cognitive встроена в популярный издательский пакет Corel Draw 3.0 (и последующие версии).[4]

1994 год - Заключен контракт с Hewlett-Packard по комплектации сканеров, поставляемых в Россию OCR CuneiForm. Это первый контракт HP с российским разработчиком ПО.[5][6][7][8]

1995 год - Заключен контракт с японской корпорацией Epson о комплектации сканеров OCR CuneiForm.[9] Подписан OEM-контракт с крупнейшим мировым производителем факсимильных аппаратов, лазерных принтеров, сканеров и другого офисного оборудования - Brother Corporation. Согласно договору новый роликовый сканер Brother IC-150 будет комплектоваться программным обеспечением Cognitive для сканирования, распознавания по всему миру.

1996 год - Подписан ОЕМ-контракт с одним из крупнейших мировых производителей мониторов, факсимильных аппаратов, лазерных принтеров, многофункциональных устройств и другого офисного оборудования - Samsung Information Systems America.[10]Согласно договору новое многофункциональное устройство Samsung OFFICE MASTER OML-8630A будет продаваться в комплекте с системой оптического распознавания символов Cognitive Cuneiform LE по всему миру.

  • Подписан ОЕМ-контракт с ведущим мировым производителем офисного оборудования компанией Xerox о комплектации многофункциональных устройств Xerox 3006 и Pro-610 системой распознавания CuneiForm.
  • Выпущена версия OCR CuneiForm '96, в которой впервые в мире применены алгоритмы адаптивного распознавания.

Адаптивное распознавание — метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont). Система генерирует внутренний шрифт для каждого вводимого документа, основываясь на хорошо пропечатанных символах, то есть используется динамическая настройка (адаптация) на конкретные входные символы. Таким образом, метод совмещает универсальность и технологичность бесшрифтового подхода и высокую точность распознавания шрифтового, что позволяет кардинальным образом повысить качество распознавания.

1997 год - В системе CuneiForm впервые применены технологии, основанные на нейронных сетях. Алгоритмы, использующие нейронные сети для распознавания символов, строятся следующим образом. Поступающее на распознавание изображение символа (растр) приводится к некоторому стандартному размеру (нормализуется). Значения яркости в узлах нормализованного растра используются в качестве входных параметров нейронной сети. Число выходных параметров нейронной сети равняется числу распознаваемых символов. Результатом распознавания является символ, которому соответствует наибольшее из значений выходного вектора нейронной сети.

  • Подписан новый ОЕМ-контракт с компанией Canon на комплектацию многофункциональных устройств, поставляемых в Россию, системой CuneiForm; [11][12]
  • Подписан новый ОЕМ-контракт с компанией OKI Europe Limited на комплектацию многофункциональных устройств OKI FAX 4100 и OKI FAX 5200, поставляемых в Россию, системой CuneiForm;[13]
  • Выход первой в мире OCR-системы CuneiForm MMX Update для процессора Intel-MMX;[14]
  • Сканеры NeuHause комплектуются системой распознавания CuneiForm;
  • Выход первой в России системы сетевого сканирования CuneiForm 98 NeST.

1999 год

  • Подписан новый ОЕМ-контракт с компанией Olivetti на комплектацию многофункциональных устройств поставляемых в Россию системой CuneiForm;
  • Заключено дистрибуторское соглашение с ведущим европейским дистрибутором ПО компанией WSKA (Франция) на распространение OCR Cuneiform Direct в Европе;
  • Вышла новая версия системы распознавания CuneiForm 2000 в которой реализован метод “Когнитивного анализаТМ: внутрь ядра распознавания встроена экспертная система, которая позволяет проводить анализ оценок альтернатив, получаемых на выходе от каждого алгоритма распознавания, и выбирать оптимальный вариант.
  • Разработан метод "Меридианной сегментации таблицТМ" для повышения точности воссоздания исходной формы таблицы в выходном документе;
  • Разработан механизм воссоздания формы исходного документа - “What you scan is what you getTM“. Дело в том, что до настоящего времени пользователи систем распознавания тратили достаточное количество времени (которое часто превышало время самого сканирования и распознавания) для придания документу его исходной формы, добиваясь того, чтобы каждый фрагмент находился на нужном месте. Особенно это касается документов со сложной топологией: многоколончатые тексты с заголовками, аннотациями, графическими иллюстрациями, таблицами, и т.д.

2001 год - Подписан OEM-контракт о комплектации оборудования, производимого компанией Canon (сканеры, многофункциональные устройства), программным обеспечением Cognitive Technologies (OCR CuneiForm,) на территории стран Восточной Европы.

Перспективы развития[править | править вики-текст]

12 декабря 2007 года была выпущена freeware-версия OCR CuneiForm и анонсировано открытие её исходных текстов[15].[16][17]

2 апреля 2008 года были опубликованы исходные тексты OCR Cuneiform под лицензией BSD[18], а осенью — исходные тексты интерфейса системы[19].

Последняя версия OpenSource версии для Windows не обновлялась с 14.02.2009. Эта версия больше не предлагается для скачивания. Вместо неё на странице загрузки доступна версия от 11.11.2008

В 2009 году выпущены графические интерфейсы к открытой версии Cuneiform на основе библиотеки Qt 4 — Cuneiform-Qt[20], YAGF. Начиная с версии 0.9.0[21] открытую версию для Linux можно использовать в качестве библиотеки.

Графические интерфейсы для CuneiForm[править | править вики-текст]

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. Порт Cuneiform для Linux.
  2. Текст лицензии.
  3. ~anb-symmetrica/cuneiform-linux/cuneiform-multilang : revision 400
  4. Компания - деловой еженедельникСделано в России
  5. Контракт Hewlett-Packard и Cognitive Techologies"Законные" сканеры HP научатся читать по-русски, Коммерсант, 01.09.1994
  6. Cканеры HP под флагом CuneiFormCRN
  7. Hewlett-Packard presents new products in Moscow, Algonet
  8. HP и Cognitive углубляют партнерство, PCweek
  9. Мир ПК. Жемчужины российского ПО
  10. Samsung выбрал OCR фирмы Cognitive Technology для комплектации многофункциональных устройств,PCweek, 10.09.1996
  11. Владимир Митин Многофункциональные аппараты Canon обрели новое качество,PCweek, 12.05.1998
  12. Владимир Митин Альянс компаний Canon - Cognitive Technologies развивается успешно, PCweek, 29.02.2000
  13. Cognitive Technologies и OKI жмут на газ, PCweek
  14. Неформальный маркетинг HP, Computer World
  15. OCR CuneiForm — первый промышленный Open Source проект в области распознавания
  16. Российская система распознавания текстов CuneiForm станет открытойСybersecurity, 06.12.2007
  17. CuneiForm возвращается, Computerworld, 24.12.2007
  18. Cognitive Technologies открыла код OCR Cuneiform
  19. Cognitive Technologies открыла код OCR Cuneiform
  20. Cuneiform-Qt
  21. Cuneiform Linux 0.9.0 is released

Ссылки[править | править вики-текст]