На хакерской конференции 29C3 Chaos Communication Congress в Гамбурге выступили две девушки с лингвистического факультета, которые представили эффективную технику определения автора анонимных текстов. Техника позволяет работать на текстах разных стилей. Например, можно определить автора научной работы по его сообщениям в чате, и наоборот. На выборке из 100 пользователей подпольных форумов и хакерских чатов система показала точность распознавания 80%.

Один из методов лингвистического анализа — использование служебных слов. Очень часто человек использует одни и те же служебные слова и в научной работе, и в чате. В целом, методика основана на статистическом анализе письменного текста, то есть стилометрии. Стилометрия — прикладная область стилистики, которая занимается анализом текстов в филологии и юридической экспертизе.

Авторы работы считают, что систему стилометрического анализа можно успешно использовать для выявления владельцев ботнетов, продавцов нелегального товара в интернете, авторов вредоносных программ и др. Подобные возможности системы могут заинтересовать правоохранительные органы. Собственно, такие программы создавались и раньше, например, стилометрический фреймворк JStylo или другие программы с использованием скрытого распределения Дирихле (LDA), с помощью которого можно автоматически отличить лексику в разговоре о продаже кредиток от лексики на тему написания эксплойтов. То есть, можно автоматически выявлять разговоры на определённую тематику, сканируя логи сотен подпольных форумов.

Программа осуществила сканирование миллионов сообщений на форумах thebadhackerz.com, blackhatpalace.com, www.carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org и antichat.ru с участием нескольких десятков тысяч авторов дискуссий. Программа сумела определить 300 тем обсуждений на форумах, самые популярные из которых — кардинг, сервисы шифрования, взлом паролей и инструменты для чёрной поисковой оптимизации. На диаграмме показан анализ текстов с российского форума Antichat.ru.

К сожалению, для определения автора текста нужно как минимум 5000 слов, написанных им лично. Поэтому количество авторов на хакерских форумах, которых удалось идентифицировать, снижается до нескольких сотен.

Тексты на других языках, отличных от английского, переводятся на английский и тоже отлично анализируются программой, с определением автора. Однако, использование жаргона leetspeak существенно осложняет задачу.

Выступление девушек-лингвистов на конференции 29C3 Chaos Communication Congress записано на видео.


Видеофайл в формате flv

Оставить мнение