reCAPTCHA

reCAPTCHA - это система CAPTCHA , которая позволяет веб-хостам различать человеческий и автоматический доступ к веб-сайтам. В исходной версии пользователям предлагалось расшифровать трудно читаемый текст или сопоставить изображения. Версия 2 также просила пользователей расшифровать текст или сопоставить изображения, если анализ файлов cookie и рендеринг холста предполагал, что страница загружается автоматически. ^[1] Начиная с версии 3, reCAPTCHA никогда не прерывает работу пользователей и предназначена для автоматического запуска, когда пользователи загружают страницы или нажимают кнопки. ^[2] reCAPTCHA принадлежит Google .

reCAPTCHA

Автор (ы) оригинала	Луис фон Ан Бен Маурер Колин Макмиллен Харшад Бхуджбал Мануэль Блюм
Разработчики)	Google
Первый выпуск	27 мая 2007 г . ; 13 лет назад ( 2007-05-27 )
Тип	Классическая версия: CAPTCHA Новая версия: флажок
Веб-сайт	www .google .com / recaptcha

Первоначальной версией сервиса была платформа для массового сотрудничества, разработанная для оцифровки книг, особенно тех, которые были слишком неразборчивы для сканирования компьютерами . Подсказки проверок используются пары слов из отсканированных страниц, с одним известного словом , используемого в качестве контроля для проверки, а второй используются для краудсорсинга чтения неопределенного слова. ^[3] reCAPTCHA была первоначально разработана Луисом фон Ан , Дэвидом Абрахамом, Мануэлем Блюмом , Майклом Кроуфордом, Беном Маурером, Колином МакМилленом и Эдисоном Таном в главном кампусе Университета Карнеги-Меллона в Питтсбурге . ^[4] Она была приобретена Google в сентябре 2009 года. ^[5] Система помогла оцифровывать архивы The New York Times и впоследствии использовалась Google Книгами для аналогичных целей. ^[6]

Сообщается, что система ежедневно отображает более 100 миллионов CAPTCHA ^[7] на таких сайтах, как Facebook , TicketMaster , Twitter , 4chan , CNN.com , StumbleUpon , ^[8] Craigslist (с июня 2008 г.) ^[9] и в США. Национальные телекоммуникации и Управление информации «s цифровой TV конвертер сайт купон программы (в рамках перехода США DTV ). ^[10]

В 2014 году Google отказался от первоначальной концепции службы, сосредоточив внимание на сокращении количества взаимодействий с пользователем, необходимых для проверки пользователя, и на представлении проблем распознавания человека (таких как идентификация изображений в наборе, удовлетворяющих конкретному запросу), если поведенческий анализ подозревает, что пользователь может быть ботом. Срок службы reCAPTCHA v1 прекращен 31 марта 2018 г.

Источник

Распределенные корректоры были первым проектом, который посвятил свое время расшифровке отсканированного текста, который не мог быть прочитан программами оптического распознавания символов (OCR). Он работает с Project Gutenberg для оцифровки материалов, являющихся общественным достоянием, и использует методы, совершенно отличные от reCAPTCHA.

Программа рекапчи возникла с Гватемальской ученый Луис фон Ahn , ^[11] и помогала в Макартуров стипендиями . Будучи одним из первых разработчиков CAPTCHA, он понял, что «он невольно создал систему, которая растрачивала с шагом в десять секунд миллионы часов самого ценного ресурса: циклов человеческого мозга». ^[12]^[13]

Операция

Пример того, как выглядела задача reCAPTCHA в 2007 году ^[14], содержащая слова «отслеживание» и «поиск». Волнистость и горизонтальный ход были добавлены, чтобы повысить сложность взлома CAPTCHA с помощью компьютерной программы.

Отсканированный текст подвергается анализу с помощью двух разных OCR. Любое слово, которое по-разному расшифровывается двумя программами OCR или которое отсутствует в словаре английского языка, помечается как «подозрительное» и преобразуется в CAPTCHA. Подозрительное слово отображается вне контекста, иногда вместе с уже известным контрольным словом. Если человек правильно набирает контрольное слово, то ответ на сомнительное слово считается вероятным. Если достаточное количество пользователей правильно набирают контрольное слово, но неправильно набирают второе слово, которое OCR не может распознать, тогда цифровая версия документов может в конечном итоге содержать неправильное слово. Идентификация, выполняемая каждой программой OCR, оценивается в 0,5 балла, а каждая интерпретация человеком получает полную оценку. Как только данный идентификатор набирает 2,5 балла, слово считается действительным. Те слова, которым судьи-люди постоянно придают единую идентичность, позже используются как контрольные. ^[15] Если первые три предположения совпадают друг с другом, но не совпадают ни с одним из OCR, они считаются правильным ответом, и слово становится контрольным. ^[16] Когда шесть пользователей отклоняют слово до выбора правильного написания, слово отбрасывается как нечитаемое. ^[16]

Первоначальный метод reCAPTCHA был разработан, чтобы показывать сомнительные слова по отдельности, как коррекцию вне контекста, а не в использовании, например, в фразе из пяти слов из исходного документа. ^[17] Кроме того, контрольное слово может ввести в заблуждение контекст для второго слова, например, запрос «/ metal / / fife /» вводится как «металлический файл » из-за логической связи подачи с металлическим инструментом, который считается более распространен, чем музыкальный инструмент « Файф ». ^{[ необходима цитата ]}

В 2012 году reCAPTCHA начала использовать фотографии, сделанные из проекта Google Street View , в дополнение к отсканированным словам. ^[18]

Google взимает плату за использование reCAPTCHA с тех веб-сайтов, которые делают более миллиона запросов reCAPTCHA в месяц. ^[19]

CAPTCHA для идентификации изображения

Нет CAPTCHA reCAPTCHA

NoCAPTCHA reCAPTCHA

В 2013 году reCAPTCHA начала реализовывать поведенческий анализ взаимодействий браузера, чтобы предсказать, был ли пользователь человеком или ботом. В следующем году Google начал развертывать новый API-интерфейс reCAPTCHA с функцией «no CAPTCHA reCAPTCHA», при которой пользователям с низким уровнем риска нужно всего лишь установить один флажок, чтобы подтвердить свою личность. CAPTCHA все еще может быть представлена, если система не уверена в риске пользователя; Google также представил новый тип задачи CAPTCHA, предназначенный для большей доступности для мобильных пользователей, когда пользователь должен выбрать изображения, соответствующие определенному запросу из сетки. ^[1]^[20]

В 2017 году Google представил новую «невидимую» reCAPTCHA, при которой проверка происходит в фоновом режиме, и никаких проблем не отображается, если считается, что пользователь относится к группе низкого риска. ^[21]^[22]^[23] По словам бывшего "царя мошенничества с кликами" в Google Шумана Гхосемаджумдера , эта возможность "создает новый вид проблемы, с которой могут справиться даже очень продвинутые боты, но при этом создает гораздо меньше проблем для законного человека. " ^[23]

Срок службы reCAPTCHA v1 истек, и он был закрыт 31 марта 2018 г. ^[24]

Выполнение

Тесты reCAPTCHA отображаются с центрального сайта проекта reCAPTCHA, который предоставляет слова для расшифровки. Это делается через API JavaScript, при этом сервер выполняет обратный вызов для reCAPTCHA после отправки запроса. Проект reCAPTCHA предоставляет библиотеки для различных языков программирования и приложений, чтобы упростить этот процесс. reCAPTCHA - это бесплатная услуга, предоставляемая веб-сайтам для помощи в расшифровке ^[25], но программное обеспечение reCAPTCHA не является открытым исходным кодом . ^[26]

Кроме того, reCAPTCHA предлагает плагины для нескольких платформ веб-приложений, включая ASP.NET , Ruby и PHP , чтобы упростить реализацию службы. ^[27]

Безопасность

Пример того, как задачи reCAPTCHA были представлены в 2010 г. ^[28], содержащие слова «и долота»

Основная цель системы CAPTCHA - блокировать спам-боты, разрешая пользователям-людям. 14 декабря 2009 года Джонатан Уилкинс опубликовал документ, описывающий слабые места в reCAPTCHA, которые позволили ботам достичь скорости решения 18%. ^[29]^[30]^[31]

1 августа 2010 года Чад Хоук представил на конференции DEF CON 18 Hacking Conference презентацию, в которой подробно описал метод устранения искажения, добавляемого к изображениям, который позволял компьютерной программе определять действительный ответ в 10% случаев. ^[32]^[33] Система reCAPTCHA была изменена 21 июля 2010 г., до того, как Хоук рассказал о своем методе. Хаук изменил свой метод на то, что он назвал «более простой» CAPTCHA, чтобы определить правильный ответ в 31,8% случаев. Хаук также упомянул о средствах защиты в системе, в том числе о блокировке с высокой степенью защиты, если неверный ответ дается 32 раза подряд. ^[34]

26 мая 2012 года Адам, CP и Джеффбол из DC949 выступили на хакерской конференции LayerOne с подробным описанием того, как им удалось создать автоматизированное решение с точностью 99,1%. ^[35] Их тактика заключалась в использовании методов машинного обучения, подполя искусственного интеллекта, для анализа аудиоверсии reCAPTCHA, доступной для слабовидящих. Google выпустила новую версию reCAPTCHA всего за несколько часов до их выступления, внося серьезные изменения как в аудио, так и в визуальные версии своего сервиса. В этом выпуске аудиоверсия была увеличена с 8 до 30 секунд, и ее гораздо труднее понять как для людей, так и для ботов. В ответ на это и следующее обновление члены DC949 выпустили еще две версии Stiltwalker, которые превзошли reCAPTCHA с точностью 60,95% и 59,4% соответственно. После каждого следующего перерыва Google обновлял reCAPTCHA в течение нескольких дней. Согласно DC949, они часто возвращались к функциям, которые ранее были взломаны.

27 июня 2012 года Клаудиа Крус, Фернандо Учеда и Леобардо Рейес опубликовали документ, в котором показана система, работающая на изображениях reCAPTCHA с точностью 82%. ^[36] Авторы не сказали, может ли их система обрабатывать недавние изображения reCAPTCHA, хотя они заявляют, что их работа представляет собой интеллектуальное распознавание текста и устойчиво к некоторым, если не всем изменениям в базе данных изображений.

В презентации в августе 2012 года, представленной на BsidesLV 2012, DC949 назвал последнюю версию «невероятно невозможной для людей» - они также не смогли решить их вручную. ^[35] Организация веб-доступности WebAIM сообщила в мае 2012 года: «Более 90% респондентов [пользователей программ чтения с экрана] считают CAPTCHA очень или несколько сложной задачей». ^[37]

Критика

Первоначальная итерация reCAPTCHA подвергалась критике как источник неоплачиваемой работы, помогающей в транскрибировании усилий. ^[38]

Google получает прибыль от пользователей reCAPTCHA в качестве бесплатных сотрудников для улучшения своих исследований в области ИИ. ^[39]

Конфиденциальность

Текущая версия системы подвергалась критике за то, что она полагалась на файлы cookie для отслеживания и продвигала привязку к поставщику со службами Google; администраторам рекомендуется включать код отслеживания reCAPTCHA на все страницы своего веб-сайта для анализа поведения и «риска» пользователей, который определяет уровень трений, возникающих при использовании запроса reCAPTCHA. Google заявил в своей политике конфиденциальности, что пользовательские данные, собранные таким образом, не используются для персонализированной рекламы. Также было обнаружено, что система отдает предпочтение тем, у кого есть активная учетная запись Google , и демонстрирует более высокий риск для тех, кто использует анонимные прокси-серверы и службы VPN. ^[21]

Когда Google анонсировал reCAPTCHA v3.0, были высказаны опасения относительно конфиденциальности, поскольку он позволяет Google отслеживать пользователей на веб-сайтах, не принадлежащих Google. ^[21]

В апреле 2020 года Cloudflare перешла с reCAPTCHA на hCaptcha, сославшись на опасения по поводу конфиденциальности в связи с потенциальным использованием Google данных, которые они вспоминают с помощью reCAPTCHA, для таргетированной рекламы ^[40], а также для сокращения операционных расходов, поскольку значительная часть клиентов Cloudflare бесплатна, а не платящие клиенты. В ответ Google сообщил журналу PC Magazine, что данные reCAPTCHA никогда не используются в целях персонализированной рекламы. ^[19]

Доступность

Состояния Google, справочный центр , который рекапчи не поддерживается для слепоглухих сообщества, ^[41] эффективно блокирующие таких пользователей из всех страниц, использующей службу. Однако в настоящее время reCAPTCHA имеет самый длинный список соображений доступности среди всех служб CAPTCHA. ^[42]

Интерфейс

В одном из вариантов задач CAPTCHA изображения не выделяются постепенно, а затемняются при нажатии и заменяются новым изображением, которое постепенно появляется, напоминая « ударить моль» .

Критика была нацелена на то, как долгое время изображения исчезали и появлялись. ^[43]

Производные проекты

рекапчи также создал проект Mailhide, который защищает адреса электронной почты на веб - страницах от того собирают на спамеров . ^[44] По умолчанию адрес электронной почты был преобразован в формат, который не позволял поисковому роботу видеть полный адрес электронной почты; например, [email protected] был бы преобразован в mai ... @ example.com. Затем посетитель нажимал на «...» и вводил CAPTCHA, чтобы получить полный адрес электронной почты. Можно также отредактировать код всплывающего окна, чтобы адрес не был виден. Поддержка Mailhide была прекращена в 2018 году, поскольку он полагался на reCAPTCHA v1. ^[45]

дальнейшее чтение

Дзиеза, Джош (1 февраля 2019 г.). «Почему CAPTCHA стали такими сложными?» . Грань .
Шваб, Кэтрин (27 июня 2019 г.). «У новой reCAPTCHA от Google есть темная сторона» . Быстрая компания .

Внешние ссылки

Официальный веб-сайт
Репозиторий
ReCAPTCHA: Работа, о которой вы даже не подозревали. Архивировано 24 ноября 2011 года в двухстраничной статье Wayback Machine в журнале The Walrus.
Луис; Маурер, Бенджамин; Макмиллен, Колин; Авраам, Давид; Блюм, Мануэль (2008). «reCAPTCHA: распознавание персонажей с помощью средств веб-безопасности». Наука . 321 (5895): 1465–1468. Bibcode : 2008Sci ... 321.1465V . CiteSeerX 10.1.1.141.6563 . DOI : 10.1126 / science.1160379 . PMID 18703711 . S2CID 18371056 .
Массивные масштабы онлайна сотрудничество , разговор ТЭДА на Луисе фон Ahn

[No_CAPTCHA-1] Shet, Vinay (3 декабря 2014 г.). «Вы робот? Представляем 'No CAPTCHA reCAPTCHA ' » . Архивировано 3 сентября 2020 года . Проверено 24 февраля 2021 года .

[2] "reCAPTCHA v3" . Архивировано 25 сентября 2020 года . Проверено 8 сентября 2020 года .

[3] Ан, Луис фон, Массовое онлайн-сотрудничество , заархивировано из оригинала 15 июля 2020 г. , получено 14 апреля 2020 г.

[4] «reCAPTCHA: О нас» . Архивировано из оригинала на 11 июня 2010 года . Проверено 14 августа 2018 года .

[AutoK4-1-5] «Обучение компьютеров чтению: Google приобретает reCAPTCHA» . Архивировано 6 июля 2013 года . Проверено 16 сентября 2009 года .

[6] «Расшифровка старых текстов, одно странное, пышное слово за раз» . Нью-Йорк Таймс . 28 марта 2011 года. Архивировано 17 ноября 2017 года . Проверено 20 ноября 2017 года .

[AutoK4-2-7] «Часто задаваемые вопросы по reCAPTCHA» . Архивировано 5 июля 2010 года . Проверено 12 июня 2011 года .

[BBCreport-8] Рубенс, Пол (2 октября 2007 г.). «Спам-оружие помогает сохранить книги» . BBC. Архивировано 6 июля 2013 года . Проверено 3 октября 2007 года .

[craig-9] «Борьба со спамом, оцифровка книг» . Блог Craigslist. Июнь 2008. Архивировано 6 июля 2010 года . Проверено 17 июня 2008 года .

[AutoK4-5-10] "Программа TV Converter Box" . dtv2009.gov . Архивировано из оригинала на 4 ноября 2009 года.

[CBC2-11] " " Полное интервью: Луис фон Ан на Duolingo ", Spark, ноябрь 2011 г." . Канадская радиовещательная корпорация. 30 ноября 2011 года. Архивировано 3 июня 2012 года . Проверено 10 июля 2013 года .

[AutoK4-6-12] Хатчинсон, Алекс (март 2009). «Человеческие ресурсы: работа, о которой вы даже не подозревали». Морж . С. 15–16.

[AutoK4-9-13] Хатчинсон, Алекс (12 марта 2009 г.). «Человеческие ресурсы: работа, о которой вы даже не подозревали» . Морж . Архивировано 3 декабря 2015 года . Проверено 7 декабря 2015 года .

[14] «reCAPTCHA: Использование Captcha для оцифровки книг» . TechCrunch . 16 сентября 2007 г.

[AutoK4-8-15] Тиммер, Джон (14 августа 2008 г.). «CAPTCHA работают? Для оцифровки старых, поврежденных текстов, рукописей» . Ars Technica . Архивировано 24 января 2009 года . Проверено 9 декабря 2008 года .

[Ahn,_Ben_Maurer_2008-16] а б Луис; Маурер, Бен; Макмиллен, Колин; Авраам, Давид; Блюм, Мануэль (2008). "рекапчи: Человек на основе распознавания символов с помощью мер Web Security " ». Наука . +321 (5895):. 1465-1468 Bibcode : 2008Sci ... 321.1465V . CiteSeerX 10.1.1.141.6563 . дои : 10.1126 / science.1160379 . PMID 18703711 . S2CID 18371056 .

[DM-17] « « сомнительная достоверность результатов, если слова представлены вне контекста », Группы Google, 29 августа 2008 г.» . Архивировано 30 апреля 2011 года . Проверено 10 июля 2013 года .

[18] Перес, Сара (29 марта 2012 г.). «Google Now использует ReCAPTCHA для декодирования адресов просмотра улиц» . TechCrunch . Архивировано 18 августа 2012 года . Проверено 10 июля 2013 года .

[d-19] а б «Cloudflare отвергает Google ReCAPTCHA из-за проблем с конфиденциальностью и затрат» . PCMAG . Архивировано 19 июля 2020 года . Проверено 18 июля 2020 года .

[oneclick-20] Гринберг, Энди (3 декабря 2014 г.). «Теперь Google может сказать, что вы не робот, одним щелчком мыши» . Проводной . Архивировано 2 октября 2015 года . Проверено 1 октября 2015 года .

[Fast_Company-21] а б в Шваб, Кэтрин (27 июня 2019 г.). «У новой reCAPTCHA от Google есть темная сторона» . Быстрая компания . Архивировано 28 июня 2019 года . Проверено 8 апреля 2020 года .

[22] Амадео, Рон (9 марта 2017 г.). «Google reCAPTCHA становится« невидимым », без проблем отделяет ботов от людей» . Ars Technica . Архивировано 6 августа 2020 года . Проверено 14 апреля 2020 года .

[:1-23] а б «Google просто сделал Интернет чуть менее раздражающим» . Популярная наука . 10 марта 2017 года. Архивировано 5 февраля 2021 года . Проверено 5 апреля 2017 года .

[24] «API Google reCAPTCHA v1 прекращает работу в марте 2018 года» . ПрограммируемыйWeb . Архивировано 20 июня 2020 года . Проверено 14 апреля 2020 года .

[FAQ-25] «FAQ» . reCAPTCHA.net. Архивировано из оригинального 16 июля 2012 года.

[google-26] «reCAPTCHA: остановить спам, читать книги» . Архивировано 19 июня 2020 года . Проверено 14 января 2014 года .

[google2-27] «Руководство разработчика - reCAPTCHA - разработчики Google» . Архивировано 24 ноября 2017 года . Проверено 14 января 2014 года .

[28] Гринберг, Энди (18 июня 2010 г.). «Те тесты на скремблированные слова для остановки спам-ботов тоже трудны для людей» . Forbes . Архивировано 9 сентября 2017 года . Проверено 10 сентября 2017 года .

[Strong_CAPTCHA_Guidelines-29] «Сильные принципы CAPTCHA» (PDF) . Архивировано 23 июля 2011 года (PDF) . Проверено 31 января 2011 года .

[Register_Article-30] "Google reCAPTCHA взломана новой атакой" . Архивировано 10 августа 2017 года . Проверено 10 августа 2017 года .

[H-online_Article-31] "Google ReCAPTCHA помят" . Архивировано 10 марта 2010 года . Проверено 31 января 2011 года .

[Speaker_Program-32] "Def Con 18 Speakers" . defcon.org. Архивировано 20 октября 2010 года . Проверено 17 ноября 2010 года .

[Decoding_reCAPTCHA-33] «Расшифровка бумаги reCAPTCHA» . Чад Хоук. Архивировано из оригинального 19 августа 2010 года.

[Decoding_reCAPTCHA_pptx-34] «Расшифровка reCAPTCHA Power Point» . Чад Хоук. Архивировано из оригинального 24 -го октября 2010 года.

[Project_Stiltwalker-35] а б «Проект Stiltwalker» . Архивировано 2 июля 2012 года . Проверено 28 мая 2012 года .

[36] Клаудиа Крус-Перес; Олег Старостенко; Фернандо Учеда-Понга; Висенте Аларкон-Акино; Леобардо Рейес-Кабрера (30 июня 2012 г.). «Взлом reCAPTCHA с непредсказуемым коллапсом: эвристическая сегментация и распознавание». В Карраско-Очоа - Хесус Ариэль; Мартинес-Тринидад, Хосе Франсиско; Ольвера Лопес, Хосе Артуро; Бойер, Ким Л. (ред.). Распознавание образов . Конспект лекций по информатике. 7329 . Мексика. С. 155–165. DOI : 10.1007 / 978-3-642-31149-9_16 . ISBN 978-3-642-31148-2.

[webAIM-37] "Результаты опроса пользователей программы чтения с экрана №4" . Архивировано 10 декабря 2017 года . Проверено 19 апреля 2013 года .

[38] Харрис, Дэвид Л. (23 января 2015 г.). «В иске женщины из Массачусетса Google обвиняется в использовании бесплатного труда для расшифровки книг и газет» . Бостонский деловой журнал . Архивировано 28 апреля 2015 года . Проверено 4 сентября 2015 года .

[39] «Нет CAPTCHA: еще одна уловка, изобретенная Google, чтобы получить от вас бесплатный цифровой труд» . Архивировано 12 ноября 2020 года . Проверено 3 декабря 2020 года .

[40] «Переход с reCAPTCHA на hCaptcha» . Блог Cloudflare . 8 апреля, 2020. архивации с оригинала на 12 августа 2020 года . Проверено 18 июля 2020 года .

[41] «Архивная копия» . Архивировано 6 августа 2020 года . Проверено 11 мая 2020 года .CS1 maint: заархивированная копия как заголовок ( ссылка )

[42] «Архивная копия» . Архивировано 26 ноября 2020 года . Проверено 10 декабря 2020 года .CS1 maint: заархивированная копия как заголовок ( ссылка )

[GitHub-fading-43] "ReCaptcha чрезвычайно медленное исчезновение · Проблема № 268 · google / recaptcha" . GitHub . Архивировано 14 октября 2020 года . Проверено 14 октября, 2020 .

[Mailhide-44] «Mailhide: Бесплатная защита от спама» . Архивировано 2 января 2012 года . Проверено 15 мая 2011 года .

[MailhideDiscontinued-45] «Mailhide: Служба прекращена» . Архивировано 7 ноября 2012 года . Проверено 3 марта 2019 года .

[1]