Эксперты Римского университета Ла Сапиенца представили доклад, посвященный созданному ими алгоритму, способному с высокой точностью определять, каким именно приложением пользовался человек, даже если речь идет о Tor-трафике.
Исследователи подчеркивают, что их инструмент не помогает деанонимизировать пользователя, то есть узнать его реальный IP-адрес и иные детали. Однако возможно установить, какое именно Android-приложение скрывает Tor-трафик.
Работа специалистов опирается на другой научный доклад, в котором эксперты описывали анализ TCP-пакетов в Tor-трафике и научились определять восемь категорий трафика: браузинг, email, аудио- или видеостриминг, передача файлов, VoIP и P2P.
Итальянские исследователи применили ту же концепцию анализа TCP-пакетов к трафику, однако изучали паттерны присущие известным приложениям для Android. Для этого был создан специальный алгоритм машинного обучения, который тренировали на Tor-трафике Tor Browser для Android, Instagram, Facebook, Skype, uTorrent, Spotify, Twitch, YouTube, DailyMotion и Replaio Radio. В итоге специалисты научились распознавать, какое именно приложение использует человек с точностью 97,3%.
Впрочем, если вдаваться в детали, эти цифры выглядят уже не столь пугающе. Дело в том, что таких результатов алгоритм может добиться лишь в том случае, если от устройства не исходит никакого фонового трафика вообще. То есть пользователь должен работать только с одним приложением. Если на устройстве запущено много приложений, паттерны TCP меняются, и эффективность алгоритма падает.
Кроме того, исследователи отмечают большой процент ложноположительных срабатываний от работы похожих сервисов. К примеру, алгоритм может перепутать Spotify и YouTube, так как эти приложения имеют схожий «рисунок» трафика. Также для распознавания Facebook, Instagram и других похожих продуктов может потребоваться немало времени, так как в работе алгоритма возникают вынужденные «простои», во время которых пользователь уже добрался до нужного контента и попросту читает.
Ознакомиться с докладом специалистов можно здесь (PDF). В будущем исследователи планируют опубликовать код своего алгоритма в открытом доступе.