CRM114 (полное название: «Дискриминатор CRM114») - это программа, основанная на статистическом подходе к классификации данных и особенно используемая для фильтрации спама в электронной почте .
Происхождение названия
Название происходит от дискриминатора CRM-114 из фильма Стэнли Кубрика « Доктор Стрейнджлав» - радиооборудования, предназначенного для фильтрации сообщений без определенного префикса кода.
Операция
В то время как другие применяли статистическую байесовскую фильтрацию спама на основе частоты встречаемости отдельных слов в электронной почте, CRM114 обеспечивает более высокий уровень распознавания спама за счет создания обращений на основе фраз длиной до пяти слов. Эти фразы используются для формирования Марковского случайного поля, представляющего входящие тексты. Благодаря этому дополнительному контекстному распознаванию это один из наиболее точных доступных спам-фильтров. Первоначальное тестирование в 2002 году автором Биллом Еразунисом [1] дало точность 99,87%; [2] Холден [3] и TREC 2005 и 2006 гг . [4] [5] дали результаты лучше 99%, со значительными вариациями в зависимости от конкретного корпуса.
CRM114 в классификатор также может быть включен для использования Littlestone в веять алгоритм, символ за характером корреляция , вариант на KNN ( K-ближайший алгоритм соседа ) классификация называется Hyperspace, немного-энтропийный классификатор , который использует энтропийное кодирование для определения сходства, SVM , взаимной сжимаемостью, рассчитанной модифицированным алгоритмом LZ77 , и другими более экспериментальными классификаторами. Фактические сопоставленные характеристики основаны на обобщении скип-грамм .
Алгоритмы CRM114 являются многоязычными (совместимы с кодировками UTF-8 ) и нулевой безопасностью. Набор классификаторов CRM114 для голосования продемонстрировал способность обнаруживать конфиденциальные и неконфиденциальные документы, написанные на японском языке, с коэффициентом обнаружения выше 99,9% и коэффициентом ложных тревог 5,3%. [6]
CRM114 - хороший пример программного обеспечения для распознавания образов , демонстрирующий, как машинное обучение может быть выполнено с помощью достаточно простого алгоритма. Исходный код программы на языке C доступен под лицензией GPL .
На более глубоком уровне CRM114 также является языком сопоставления строковых шаблонов, подобным grep или даже Perl ; хотя он завершен по Тьюрингу, он хорошо настроен для сопоставления текста, и даже простое (рекурсивное) определение факториала занимает почти десять строк. Частично это связано с тем, что синтаксис языка crm114 не позиционный , а склонительный . Как язык программирования, он может использоваться для многих других приложений, помимо обнаружения спама. CRM114 использует механизм регулярных выражений приблизительного соответствия TRE , поэтому можно писать программы, которые не зависят от абсолютно идентичных строк, совпадающих для правильного функционирования.
CRM114 применялся для фильтрации электронной почты в клиенте KMail [7] [8] и ряде других приложений, включая обнаружение ботов в Twitter и Yahoo, [9] [10], а также в качестве фильтра первого уровня в США. Система обнаружения неисправностей транспортных средств Департамента транспорта. [11] Он также использовался в качестве метода прогнозирования для классификации программных модулей, подверженных сбоям. [12]
Смотрите также
Рекомендации
- ^ "Человек-антиспам" , 19 марта 2007 г., Кара Гарретсон, Network World
- ^ "Билл Йеразунис: лучше, чем человек" ,веб-сайт Пола Грэма
- ^ Фильтрация спама II
- ^ Обзор отслеживания спама (2005) - TREC 2005
- ^ Обзор отслеживания спама (2006) - TREC 2005
- ^ https://media.blackhat.com/bh-us-10/whitepapers/Yerazunis/BlackHat-USA-2010-Yerazunis-Confidential-Mail-Filtering-wp.pdf
- ^ «Удаление спама с помощью CRM114 и KMail» . Архивировано 01.10.2019 . Проверено 1 октября 2019 .
- ^ "kmail.antispamrc в KDE / kdepim-addons" .
- ^ Обнаружение автоматизации учетных записей Twitter: вы человек, бот или киборг? », Зи Чу, Стивен Джанвеккио, Хайнинг Ван, Сушил Джаджодиа, Транзакции IEEE на надежных и безопасных вычислениях, 2012 том 9, страницы 811-824, doi : 10.1109 / TDSC.2012.75
- ^ https://www.usenix.org/legacy/events/sec08/tech/full_papers/gianvecchio/gianvecchio_html/index.html
- ^ https://www.oig.dot.gov/sites/default/files/NHTSA%20Safety-Related%20Vehicle%20Defects%20-%20Final%20Report%5E6-18-15.pdf
- ^ https://www.st.cs.uni-saarland.de/edu/softmine2007/Projects/28300004.pdf
Внешние ссылки
- Домашняя страница CRM114 на SourceForge
- Домашняя страница приблизительного сопоставления регулярных выражений TRE