Борцы со спамом взяли на вооружение
методику, изначально разрабатывавшуюся для
анализа ДНК. Технология фильтрации
почтовых сообщений «
названная так по имени талисмана
предохраняющего жилище от злых духов, по словам
разработчиков, позволяет отловить до 97%
входящего спама и при этом обладает
низким коэффициентом допущения ошибок —
0,016%. Она основана на алгоритме Teiresias,
разработанном специалистами
исследовательского центра корпорации IBM,
занимающегося вопросами биоинформатики.
Teiresias был разработан специально для поиска
повторяющихся фрагментов в цепочках ДНК
и аминокислот. Вместо
последовательности символов, из которых
состоит цепочка ДНК, ученые
проанализировали с помощью нового
алгоритма 65 тыс. электронных писем,
отнесенных к категории спама. При этом
каждое письмо рассматривалось как длинная
последовательность символов, аналогично
ДНК. Алгоритм выделил в них 6 млн.
постоянно встречающихся фрагментов, каждый
из них представляет собой
последовательность, встречающуюся более
чем в одном письме. Затем с помощью
того же алгоритма была обработана
последовательность писем, заведомо не относящихся
к категории спама. Фрагменты,
обнаруженные в обеих категориях, были
исключены из списка. После этого с помощью
нового алгоритма была проанализирована
входящая электронная почта, содержащая и спам,
и важные письма. Каждому письму
присваивался индекс, величина которого
характеризовала количество фрагментов
спама, выявленных в нем. «
корректно идентифицировал 64665 писем из 66697 предложенных;
тем самым эффективность выявления спама
составила 96,56%. При этом вероятность
неправильного отнесения нужного письма к категории
спама составила 1 из 6000, то есть 0,016%.
Разработчик одной из наиболее
популярных антиспамерских программ с открытым
исходным кодом SpamAssasin Джастин Мейсон
полагает, что новый алгоритм выглядит
весьма многообещающе. «Думаю, предстоит
сделать еще многое, — цитирует издание New
Scientist его слова. — Что особенно
воодушевляет — так это не алгоритм
сам по себе, а тот факт, что опыт IBM
наглядно продемонстрировал, каким образом
весь спектр технологий биоинформатики
может быть использован в борьбе со спамом».
IBM намеревается использовать алгоритм «
в своем новом фильтре спама под
названием SpamGuru. SpamGuru будет автоматически
поддерживать «белые» и «черные» списки,
конфигурируемые пользователями, а также
даст возможность менять уровень фильтрации.
IBM собирается использовать элементы
технологии SpamGuru в своем продукте Lotus
Workplace Messaging 2.0, который появится на рынке
уже в этом квартале. Тем не менее,
официальное решение о включении SpamGuru в Lotus
Domino пока не принято.
Подписаться
авторизуйтесь
Пожалуйста, войдите, чтобы прокомментировать
0 комментариев