Оптическое распознавание символов

Материал из Википедии — свободной энциклопедии

Перейти к: навигация, поиск

Оптическое распознавание символов (англ. Optical Character Recognition, OCR) — механическая или электронная конвертация изображений символов и букв в текст, редактируемый на компьютере. Перевод осуществляется программным путём, после получения изображения со сканера или фото.

Текст, преобразованный из графической формы в символьную (текстовую), можно далее обрабатывать любыми текстовыми редакторами.

[править] Программы распознавания символов

Название Лицензия Операционные системы Заметки
FineReaderOnline.ru Коммерческая Online Online OCR сервис, позволяющий распознать многоязычный текст из отсканированного документа или фотографии. Конвертирует результат в редактируемые форматы (PDF, PDF/A, DOC, RTF, XLS, TXT.

На данный момент до 50 страниц в день можно распознавать бесплатно.

OnlineOCR.ru Коммерческая Online Online OCR сервис позволяет распознать многоязыковой текст из сканированного документа или фотографии. Конвертирует результат в редактируемые форматы (PDF, DOC, XLS, TXT, HTML)
img2txt.ru Коммерческая Online Online OCR сервис позволяет распознать многоязыковой текст из сканированного документа или фотографии. Конвертирует результат в редактируемые форматы (RTF, TXT, HTML)
ExperVision TypeReader & RTK Коммерческая [уточнить] Windows,Mac OS X,Unix,Linux,OS/2 Получала высокие оценки в начале 1990-х.
ABBYY FineReader Коммерческая собственническая Windows; Linux, Mac OS (не для конечного потребителя) Для работы с различными языками требуется поддержка соответствующего языка.
OmniPage Коммерческая (Nuance EULA) [уточнить] Windows, Mac OS Производство Nuance Communications
Readiris Коммерческая [уточнить] Windows, Mac OS Производство бельгийской I.R.I.S. Group. Содержит региональные пакеты для распознавания азиатских языков и языков среднего востока.
Persian Reader Коммерческая [уточнить] Windows Специальзируется на персидском языке (фарси).
Kirtas Technologies Arabic OCR Коммерческая Windows Может распознавать арабские и английские символы на одной странице.
Zonal OCR Коммерческая [уточнить] Windows Zonal OCR помогает автоматизировать извлечение данных из компьютерных изображений.
ViewWise компании Computhink Коммерческая [уточнить] Windows Система управления документами
CuneiForm BSD Windows (с GUI), Linux, Mac OS, FreeBSD (CLI) Промышленная, многоязычная система, умеет сохранять форматирование текста и распознаёт запутанные таблицы произвольной структуры
GOCR GPL Кросс-платформенная В начальной стадии разработки
Microsoft Office Document Imaging Коммерческая Windows, Mac OS X
Microsoft Office OneNote 2007 Коммерческая Windows
NovoDynamics VERUS Коммерческая? [уточнить]  ? Специализируется на языках среднего востока
Ocrad GPL Unix-like, OS/2
Brainware Коммерческая [уточнить] Windows Извлечение данных из документов и их обработка; например счета, извещения, накладные и платёжки
HOCR GPL Linux Распознавание текстов на иврите
OCRopus Apache Linux Расширяемая система распознавания, которая может использовать Tesseract
ReadSoft Коммерческая [уточнить] Windows Сканирование, распознавание и классификация деловых бумаг например договоров, счетов и платёжных поручений.
RelayFax Network Fax Manager
компании Alt-N Technologies
Коммерческая [уточнить] Windows Многоязычная система используется для преобразования факсов в доступные для правки форматы документов (doc, pdf, и т.д…).
Scantron Cognition Коммерческая [уточнить] Windows Для работы с различными языками требуется поддержка соответствующего языка.
SILVERCODERS OCR Server Коммерческая [уточнить] Linux Серверная многоязыковая система, имеет высокое качество распознавания, может сохранять форматирование текста и распознаёт запутанные таблицы произвольной структуры
SimpleOCR Freeware and commercial versions Windows
SmartScore Коммерческая [уточнить] Windows, Mac OS Для распознавания нотной записи
Tesseract Apache Windows, Mac OS X, Linux, OS/2 Разрабатывается компанией Google
WeOCR MIT/X Consortium Интерфейс: Браузер; Сервер: POSIX, Unix Платформа для браузерных систем распознавания символов. Страница проекта: WeOCR

[править] См. также