Распознавание URL на фотографиях

Рекомендуем почитать:

Хакер #314. Разведка по плану

Группа исследователей из европейских стран разработала систему оптического распознавания символов (OCR) специально для поиска URL на фотографиях. Авторы предполагают, что с ее помощью можно повысить эффективность фильтров для блокировки спама и запрещенного контента: порнографии, экстремистских материалов и др.

Для обхода таких фильтров злоумышленники могут внедрять URL вредоносного сайта в графические изображения. Они не распознаются фильтрами и поэтому не блокируются. Обычные системы OCR плохо справляются с распознаванием текста, который на фотографиях обычно искажен и больше похож на картинку CAPTCHA.

Авторы научной работы предложили вполне логичное решение проблемы: нужно ограничить словарь проверяемых слов в соответствии со стандартным шаблоном для существующих URL. В этом случае точность распознавания существенно повышается.

Такой подход напоминает работу систем распознавания речи с ограниченным словарем. Например, если нужно распознавать не произвольную речь, а только цифры от нуля до девяти, до система распознавания речи работает просто идеально, при любом качестве канала связи, независимо от акцента говорящего и других помех. Точно так и здесь: при ограничении словаря на порядок возрастает точность. Кроме того, исследователи применили и другие «трюки», повышающие эффективность OCR.

При тестировании программа обработала 1000 случайных изображений со ссылками на веб-сайты — и успешно распознала 619 из них. Для сравнения, обычная система OCR работала быстрее, но распознала только 83 ссылки.

Научная статья опубликована в журнале International Journal of Reasoning-based Intelligent Systems.

Хакер #314. Разведка по плану

Подпишись на наc в Telegram!