reCAPTCHA

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Логотип reCAPTCHA.

reCAPTCHA — система, разработанная в университете Карнеги — Меллон для защиты веб-сайтов от интернет-ботов (см. CAPTCHA), и одновременной помощи в оцифровке текстов книг. В сентябре 2009 года reCAPTCHA была приобретена компанией Google. На начало 2011 года, reCAPTCHA осуществляла оцифровку архивов газеты «The New York Times» и книг, доступных в Google Book Search.

В ходе обычной проверки веб-ресурсом факта, что пользователь не является автоматическим алгоритмом или программой, пользователю предъявляется одно случайно сгенерированное слово, изображение которого искажено, и одно слово из оцифрованного документа, которое не смогла распознать система оптического распознавания. Оба слова пользователь должен ввести в поле ввода в виде текста. Система reCAPTCHA предоставляет изображения для распознавания и собирает результаты, после чего передает их организаторам оцифровки материалов.

Содержание

[править] Принцип работы

Modern-captcha.jpg

В отличие от традиционных систем распознавания пользователя как человека, путём введения определённого набора символов и цифр, система reCAPTCHA предлагает пользователю ввести два слова. Одно из них уже распознано и известно системе, другое слово системе неизвестно и не может быть распознано программой распознавания текста. Проверка ввода осуществляется по тому слову, которое известно системе. Неизвестное системе слово, введённое пользователем, сохраняется и используется в качестве возможного варианта распознания. Конечное распознание слова определяется путём вычисления наиболее часто используемого слова для ввода. Система reCAPTCHA широко используется такими сервисами, как Facebook, TicketMaster, Twitter, bash.org.ru, StumbleUpon и «Живой журнал», что позволяет использовать полученные результаты для распознания различной литературы, предназначенной для оцифровки. Эффективность подобного метода достаточно высока, поскольку системе предоставляется множество распознанных вариантов.

[править] Частичный обход

Обычно пользователю предлагается два слова, одно из которых является словарным английским, а другое — нет. Для прохождения теста достаточно ввести только не словарное слово.
Начиная с мая 2011 года, нужное слово выводится при помощи двойного наложения контура букв друг на друга.
С недавних пор нужное слово выводится при помощи наложения на слово волнообразной линии.

[править] Критика

reCAPTCHA используется для распознавания отсканированных текстов. Вводящие ответ пользователи вынуждены вводить примерно вдвое больше текста, чем в других системах CAPTCH’и, но не получают за этого никакого вознаграждения, а весь доход от использованного распознанного текста остаётся корпорации Google, что расценивается некоторыми как принудительная эксплуатация труда.

Тем не менее, держатели сайтов вправе оставить за собой выбор способа защиты от ботов.

Помимо этого reCAPTCHA подвергается критике пользователей из-за того, что картинки с трудом распознаются даже человеком.

Пользователь не обязан вводить оба слова. Одно из них не проверяется, узнать его довольно легко: в разное время проверяемое слово «зашумлялось» двойным контуром или волнообразной линией. К тому же в непроверяемое слово часто попадают знаки препинания, текст на других языках, математические формулы… Также у непроверяемого слова возможна инверсия цветов фона и букв. На имиджбордах выдвигаются предложения саботировать работу reCAPTCHA вводом ругательств: если достаточное количество пользователей укажут одно и то же ругательство, система, вероятно, внесёт его в электронный документ.

[править] Ссылки

[править] См. также

Личные инструменты
Пространства имён
Варианты
Действия
Навигация
Участие
Печать/экспорт
Инструменты
На других языках