Сводная группа исследователей из Университет Ланкастера (Великобритания), Северо-западного университета (Китай) и Пекинского университета (Китай) представила доклад, посвященный новому алгоритму для взлома текстовых CAPTCHA.
Созданный специалистами алгоритм базируется на принципах генеративно-состязательной сети (Generative adversarial network, GAN). GAN-решения применяются в случаях, когда алгоритм не может получить доступ к большому количеству исходных данных, необходимых для обучения. Тогда как классическому алгоритму машинного обучения требуются миллионы единиц информации для «тренировки», чтобы добиться нужной степени точности, GAN работает иначе. Генеративно-состязательной сети нужно куда меньше изначальных данных, так как «генеративный» компонент, по сути, отвечает за их производство. Сгенерированные по образу и подобию имеющихся образов данные отдаются решающему их алгоритму, и система фактически обучает сама себя, будто изначально имела доступ к неограниченному количеству нужной информации.
Исследователи направили свой алгоритм на решение текстовых CAPTCHA, принимая во внимание тот факт, что в реальной жизни атакующий не смог бы собрать миллионы образцов настоящих CAPTCHA, получив их от сайтов или API (скорее всего такое поведение быстро обнаружат и блокируют). Поэтому специалисты ограничились лишь 500 CAPTCHA, произведенными 11 сервисами на 32 сайтах из топ-50 по версии Alexa. В отчете подчеркивается, что на сбор такого объема данных уходит не более 2 часов.
В итоге в распоряжении команды оказались CAPTCHA с таких ресурсов, как Wikipedia, Microsoft, eBay, Baidu, Google, Alipay, JD, Qihoo360, Sina, Weibo, Sohu. На основании этих данных алгоритм сгенерировал еще 200 000 «искусственных» CAPTCHA, но которых и тренировался.
После этого алгоритм "натравили" на настоящие CAPTCHA-системы в интернете, которые ранее уже фигурировали в похожих научно-исследовательских работах. В таблице ниже можно увидеть полученные результаты и их сравнение с результатами других специалистов. Как можно заметить, китайские и британские исследователи сумели превзойти коллег и добились большей точности. Так, их алгоритм со стопроцентной точностью решил CAPTCHA на таких сайтах, как Megaupload, Blizzard и Authorize.NET. Также удалось добиться лучших результатов для Amazon, Digg, Slashdot, PayPal, Yahoo, QQ и так далее.
Кроме того, эксперты отмечают, что их разработка не только более точна, но также позволяет удешевить и ускорить атаку. Так, на решение одной CAPTCHA уходит лишь 0,05 секунд при использовании обычного стационарного ПК. То есть потенциальному злоумышленнику не понадобится прибегать к помощи облачных вычислений и платить за дорогостоящие сервисы или оборудование. Фактически нужен лишь ПК или веб-сервер и можно начинать DDoS-атаку или рассылку спама.