Изображение на основе спам , [3] [4] или изображение спам , является своего рода спама в электронной почте , где спам - сообщения текстуальное встраивается в образы, которые затем прикрепленными к спам - писем. Поскольку большинство почтовых клиентов будут отображать файл изображения непосредственно пользователю, спам-сообщение передается, как только электронное письмо открывается (нет необходимости дополнительно открывать прикрепленный файл изображения).
Очевидно, что цель графического спама - обойти анализ текстового содержимого электронного письма, выполняемый большинством спам-фильтров (например, SpamAssassin, RadicalSpam , Bogofilter, SpamBayes). Соответственно, по той же причине, вместе с прикрепленным изображением, спамеры часто добавляют к электронному письму какой-то «поддельный» текст, а именно ряд слов, которые с наибольшей вероятностью появятся в законных электронных письмах, а не в спаме. Более ранние электронные письма со спамом в виде изображений содержали изображения, в которых текст был чистым и легко читаемым, как показано на рис.1.
Следовательно, инструменты оптического распознавания символов использовались для извлечения текста, встроенного в изображения спама, который затем можно было обрабатывать вместе с текстом в теле письма с помощью фильтра спама или, в более общем смысле, с помощью более сложных методов категоризации текста. [3] [5] Кроме того, подписи (например, хеширование MD5) также были сгенерированы, чтобы легко обнаруживать и блокировать уже известные изображения спама. Спамеры, в свою очередь, отреагировали, применив некоторые методы обфускации к изображениям спама, аналогично CAPTCHA , как для предотвращения чтения встроенного текста инструментами OCR, так и для введения в заблуждение обнаружения на основе сигнатур. Некоторые примеры показаны на рис.2.
В связи с этим возник вопрос об улучшении обнаружения спама в изображениях с помощью компьютерного зрения и методов распознавания образов. [3] [4] [6] [7]
В частности, несколько авторов исследовали возможность распознавания спама в изображениях с обфусцированными изображениями с помощью общих низкоуровневых функций изображения (таких как количество цветов, преобладающий цветовой охват, соотношение сторон изображения, область текста), метаданные изображения и т. Д. [6] [ 7] [8] [9] ( подробный обзор см. В [4] ). Примечательно, что некоторые авторы также пытались обнаружить наличие текста в прикрепленных изображениях с помощью артефактов, обозначающих состязательную попытку его запутать. [10] [11] [12] [13]
Спам в виде изображений начался в 2004 году и достиг своего пика в конце 2006 года, когда более 50% спама составляли изображения. В середине 2007 года он начал снижаться, а в 2008 году практически исчез. [1] Причину этого явления понять непросто. Уменьшение количества спама в изображениях, вероятно, можно объяснить как улучшением предложенных мер противодействия (например, быстрые детекторы спама в изображениях, основанные на визуальных характеристиках), так и более высокими требованиями к полосе пропускания спама в изображениях, которые заставляют спамеров отправлять меньшие объемы спама за заданный промежуток времени. Оба фактора могли сделать спам с изображениями менее удобным для спамеров, чем другие виды спама. Тем не менее, в конце 2011 года было обнаружено возрождение графического спама, и графический спам достиг 8% от всего спам-трафика, хотя и на небольшой период. [2]
Смотрите также
Рекомендации
- ^ a b IBM X-Force® 2010, Отчет о тенденциях и рисках за год (август 2010 г.).
- ^ a b IBM X-Force® 2012, Отчет о тенденциях и рисках за год (сентябрь 2012 г.).
- ^ a b c Джорджио Фумера, Игнацио Пиллаи, Фабио Роли, «Фильтрация спама на основе анализа текстовой информации, встроенной в изображения» .Journal of Machine Learning Research (специальный выпуск по машинному обучению в компьютерной безопасности), vol. 7. С. 2699-2720, 12/2006.
- ^ a b c Баттиста Биджо, Джорджио Фумера, Игнацио Пиллаи, Фабио Роли, Бигджо, Баттиста; Фумера, Джорджио; Пиллаи, Игнацио; Роли, Фабио (2011). «Обзор и экспериментальная оценка методов фильтрации спама в изображениях, письма с распознаванием образов». Письма о распознавании образов . 32 (10): 1436–1446. DOI : 10.1016 / j.patrec.2011.03.022 . Том 32, выпуск 10, 15 июля 2011 г., страницы 1436-1446, ISSN 0167-8655.
- ^ "Плагин Bayes OCR Spam Assassin" .
- ^ а б Арадхай, Х., Майерс, Г., Херсон, Дж. А., 2005. Анализ изображений для эффективной категоризации спам-сообщений электронной почты на основе изображений. В: Proc. Int. Конф. по анализу и распознаванию документов, стр. 914–918.
- ^ a b Дредзе, М., Геварьяху, Р., Элиас-Бахрах, А., 2007. Изучение быстрых классификаторов для графического спама. В: Proc. 4-я конф. по электронной почте и защите от спама (CEAS)
- ^ Wu, C.-T., Cheng, K.-T., Zhu, Q., Wu, Y.-L., 2005. Использование визуальных функций для фильтрации спама. В: Proc. IEEE Int. Конф. по обработке изображений, Vol. III.стр. 501–504.
- ^ Лю, К., Цинь, З., Ченг, Х., Ван, М., 2010. Эффективное моделирование изображений спама. В: Int. Symp. по интеллектуальным информационным технологиям и информатике безопасности. Компьютерное общество IEEE, стр. 663–666.
- ^ «Fuzzy - плагин OCR Spam Assassin's» .
- ^ Баттиста Бигджо, Джорджио Фумера, Игнацио Пиллаи, Фабио Роли, « Фильтрация спама в изображениях с использованием визуальной информации », 14-е Int. Конф. по анализу и обработке изображений (ICIAP 2007), Модена, Италия, IEEE Computer Society, стр.105--110, 09.10.2007.
- ^ Фабио Роли, Баттиста Бигджо, Джорджио Фумера, Игнацио Пиллаи, Риккардо Сатта, «Фильтрация спама в изображениях путем обнаружения состязательного запутанного текста», Семинар по системам обработки нейронной информации (NIPS), Уистлер, Британская Колумбия, Канада, 12 августа 2007 .
- ^ Баттиста Бигджо, Джорджио Фумера, Игнацио Пиллаи, Фабио Роли, «Улучшение фильтрации спама в изображениях с помощью функций текста изображений», Пятая конференция по электронной почте и защите от спама (CEAS 2008), Маунтин-Вью, Калифорния, США, 21 августа 2008 г.