Поточное сканирование документов

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Поточное сканирование документов, сканирование анкет — один из способов быстрой обработки результатов анкетирования широкого круга респондентов.

Этапы процесса[править | править код]

Сканирование бумажных документов[править | править код]

Эффективность данного этапа определяется в большей степени качеством используемого оборудования.

Современные поточные сканеры оснащены системой автоматической подачи документов, что позволяет сократить ручной труд и достигнуть скорости оцифровки до 200 изображений в минуту на один сканер.

Распознавание информации[править | править код]

На этапе распознавания используются программные OCR-компоненты. Качество результирующих записей зависит от степени готовности анкеты к машинному чтению и тщательности предварительной настройки программного обеспечения.

Верификация данных[править | править код]

Производится автоматическая верификация полученных после распознавания данных. Наиболее частые проверки — проверка на ожидаемый тип данных (число/чекбокс/строка), проверка на присутствие значений. Все проблемные места, отмеченные на данном этапе, маркируются для передачи на стадию коррекции.

Коррекция данных[править | править код]

Оператор обрабатывает информацию, полученную на стадии верификации данных, и вносит изменения в результирующую запись вручную (ввод с клавиатуры, выбор из списка заранее заданных ответов). На данном этапе повторно производится «обучение» программного комплекса. Все накопленные правки анализируются алгоритмами и применяются для дальнейшей работы с данным набором анкет.

Экспорт данных[править | править код]

Оцифрованные структурированные данные выгружаются в необходимом формате для дальнейшего анализа результатов анкетирования.

Производительность систем ввода анкет[править | править код]

На этапах сканирования и распознавания анкет важную роль играет применяемая техника. Использование профессиональных промышленных сканеров и мощных станций распознавания позволит добиться максимальной скорости оцифровки (около 96000 анкет за 1 рабочий день для 1 сканера). Узким местом на пути получения готовой базы данных является этап коррекции данных. Для обеспечения минимального количества ошибок операторы вручную обрабатывают информацию, помеченную на этапе верификации данных. Процедура занимает много времени и требует серьёзного специализированного обучения сотрудников.