Группа исследователей из европейских стран разработала систему оптического распознавания символов (OCR) специально для поиска URL на фотографиях. Авторы предполагают, что с ее помощью можно повысить эффективность фильтров для блокировки спама и запрещенного контента: порнографии, экстремистских материалов и др.
Для обхода таких фильтров злоумышленники могут внедрять URL вредоносного сайта в графические изображения. Они не распознаются фильтрами и поэтому не блокируются. Обычные системы OCR плохо справляются с распознаванием текста, который на фотографиях обычно искажен и больше похож на картинку CAPTCHA.
Авторы научной работы предложили вполне логичное решение проблемы: нужно ограничить словарь проверяемых слов в соответствии со стандартным шаблоном для существующих URL. В этом случае точность распознавания существенно повышается.
Такой подход напоминает работу систем распознавания речи с ограниченным словарем. Например, если нужно распознавать не произвольную речь, а только цифры от нуля до девяти, до система распознавания речи работает просто идеально, при любом качестве канала связи, независимо от акцента говорящего и других помех. Точно так и здесь: при ограничении словаря на порядок возрастает точность. Кроме того, исследователи применили и другие «трюки», повышающие эффективность OCR.
При тестировании программа обработала 1000 случайных изображений со ссылками на веб-сайты — и успешно распознала 619 из них. Для сравнения, обычная система OCR работала быстрее, но распознала только 83 ссылки.
Научная статья опубликована в журнале International Journal of Reasoning-based Intelligent Systems.