Tesseract

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Tesseract
Тип

оптическое распознавание символов

Разработчики

Hewlett-Packard, Google

Написана на

C++

Интерфейс

командная строка

Операционная система

Linux, Mac OS X и др. UNIX-подобные, Windows

Первый выпуск

середина 1980-х

Последняя версия

3.02 (28 октября 2012[1])

Лицензия

Apache 2.0

Сайт

http://code.google.com/p/tesseract-ocr/

Tesseract (англ. тессеракт) — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. Google купил её и открыл исходные тексты под лицензией Apache 2.0[2] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0[3][4]) осуществляется с помощью дополнительных модулей.

История[править | править вики-текст]

Ядро программы Tesseract было разработано в Бристольской лаборатории Hewlett Packard и в Hewlett Packard Co, Greeley штат Колорадо в 1985—1994 годах. В 1996 были проведены значительные изменения и подготовлен порт для Windows. Затем, с 1998 года — частичная миграция с Си на Си++. Значительная часть кода изначально написана на Си, но проводились доработки для совместимости с Си++ компиляторами.[2]

В настоящее время Tesseract 3.0 собирается под Linux с GCC 2.95 и старше и под Windows с Visual C++ 2008 Express и старше (поддержка Visual C++ 6 была удалена в версии 3.0[3]). Код на C++ часто использует множество макросов для реализации контейнеров.

Графические интерфейсы для Tesseract[править | править вики-текст]

Для Linux
Для Windows

Зависимости[править | править вики-текст]

Интересные факты[править | править вики-текст]

Программа Tesseract используется менеджером загрузок Tucan Manager для распознавания текстов в тестах CAPTCHA.

Примечания[править | править вики-текст]

Ссылки[править | править вики-текст]