Группа исследователей из Сингапура предложила новый метод выявления вредоносных программ для Android. Он основан на непрерывном машинном обучении и способен на ходу приспосабливаться к новым угрозам. При тестировании метод показал более высокую точность, чем существующие аналоги.
В работе, опубликованной на arxive.org, сингапурские учёные рассматривают особенности разработанной ими технологии и её отличия от предшественников — других методов выявления вредоносных программ при помощи машинного обучения.
Сначала такие методы, как правило, определяют особенности анализируемого приложения — например, выполняемые ими системные вызовы и обращения к программным интерфейсам или используемые ресурсы и привилегии. Затем эти данные передают готовому классификатору, который знаком с характерными чертами вредоносных программ. Он изучает их и выносит вердикт: есть опасность или нет.
Авторы работы полагают, что это заведомо порочный подход. Он подразумевает, что признаки вредоносных программ, которым обучили классификатор, не меняются. В действительности вредоносные программы постоянно эволюционируют. Из-за этого точность классификаторов падает.
Чтобы не оставать от противника, классификаторы необходимо постоянно переучивать. Однако для пакетного обучения нового классификатора нужно перемолоть чудовищный объём информации. Это делает частое переучивание непрактичным.
Предложенная сингапурскими исследователями технология, получившая название DroidOL, использует не пакетное, а непрерывное (online) машинное обучение, пассивно-агрессивный классификатор и анализ графа межпроцедурного потока управления.
На первой стадии DroidOL проводит статический анализ приложений для Android, строит графы межпроцедурного потока управления и помечает вершины, которые обращаются к потенциально опасным программным интерфейсам.
Затем технология использует ядро графа Вейсфейлера-Лемана, чтобы идентифицировать те части графов межпроцедурного потока управления, которые соответствуют потенциально опасному поведению.
Полученный набор данных применяется для обучения пассивно-агрессивного классификатора. Если при обучении он неверно классифицирует приложение, в него вносятся изменения. При отсутствии ошибок изменений не происходит.
После завершения первоначального обучения классификатор готов для практического использования. В дальнейшем классификатор будет искать вредоносные программы и в то же время замечать и адаптироваться к новым чертам вредоносных программ. Его не нужно переучивать, чтобы он не устарел.
Исследователи реализовали DroidOL на базе Soot, популярного средства статического анализа приложений для Android, и библиотеки Scikit-learn, упрощающей реализацию алгоритмов машинного обучения. Величина программы составила около 15,6 тысяч строк кода на Java и Python.
Эффективность DroidOL протестировали на базе, состоящей из 87 тысяч с лишним приложений для Android. Он показал верный результат в 84,29% случаев. Это более чем на 20% лучше, чем алгоритмы Drebin и Allix et. al. при типичных настройках пакетного обучения, и на 3% лучше, чем при постоянном переучивании.