Spamdexing (также известный как поисковый спам , поиск отравлению двигателя , черные шляпы поисковой оптимизация ( SEO ), поисковый спам или веб - спам ) [1] является преднамеренным манипулированием поисковой системы индексов . Он включает в себя ряд методов, таких как построение ссылок и повторение несвязанных фраз, для управления релевантностью или известностью проиндексированных ресурсов способом, несовместимым с целями системы индексирования. [2] [3]
Распознавание спама можно рассматривать как часть поисковой оптимизации , хотя существует множество методов поисковой оптимизации, которые улучшают качество и внешний вид контента веб-сайтов и предоставляют контент, полезный для многих пользователей. [4]
Поисковые системы используют различные алгоритмы для определения рейтинга релевантности. Некоторые из них включают в себя определение представляется ли термин поиска в тексте или URL в виде веб - страницы . Многие поисковые системы проверяют наличие спама и удаляют подозрительные страницы из своих индексов. Кроме того, операторы поисковых систем могут быстро заблокировать список результатов со всех веб-сайтов, использующих спам-индексирование, возможно, в ответ на жалобы пользователей на ложные совпадения. Рост спама в середине 1990-х сделал ведущие поисковые системы того времени менее полезными. Использование неэтичных методов для повышения рейтинга веб-сайтов в результатах поиска по сравнению с тем, что они делали бы в противном случае, в индустрии SEO (поисковой оптимизации) обычно называют «черной SEO». Эти методы больше ориентированы на нарушение правил и рекомендаций по продвижению в поисковых системах. В дополнение к этому, злоумышленники рискуют, что их веб-сайты будут серьезно наказаны алгоритмами ранжирования результатов поиска Google Panda и Google Penguin . [5]
Распространенные методы определения спама можно разделить на два широких класса: контентный спам [4] (или термин «спам» ) и ссылочный спам . [3]
История
Самая ранняя известная ссылка [2] на термин « спамдексинг» сделана Эриком Конви в его статье «Порнография пробирается обратно в Интернет», The Boston Herald , 22 мая 1996 г., где он сказал:
Проблема возникает, когда операторы сайтов загружают свои веб-страницы сотнями посторонних терминов, поэтому поисковые системы перечисляют их среди законных адресов. Этот процесс называется «спамдексингом», комбинацией рассылки спама - в Интернете термин для отправки пользователям нежелательной информации - и « индексации ». [2]
Контентный спам
Эти методы включают изменение логического представления поисковой системы о содержимом страницы. Все они нацелены на варианты модели векторного пространства для поиска информации по текстовым коллекциям.
Наполнение ключевыми словами
Наполнение ключевыми словами предполагает расчетное размещение ключевых слов на странице для увеличения количества ключевых слов, разнообразия и плотности страницы. Это полезно для того, чтобы страница выглядела релевантной для поискового робота и повышала вероятность ее обнаружения. Пример: промоутер схемы Понци хочет привлечь пользователей Интернета на сайт, где он рекламирует свое мошенничество. Он размещает на своей странице скрытый текст, подходящий для фан-страницы популярной музыкальной группы, надеясь, что эта страница будет указана как фан-сайт и получит много посещений от меломанов. Старые версии программ индексирования просто подсчитывали, как часто появлялось ключевое слово, и использовали это для определения уровней релевантности. Большинство современных поисковых систем имеют возможность анализировать страницу на предмет наполнения ключевыми словами и определять, согласуется ли частота с другими сайтами, созданными специально для привлечения трафика из поисковых систем. Кроме того, большие веб-страницы усекаются, поэтому массивные списки словарей не могут быть проиндексированы на одной веб-странице. [ необходима цитата ] (Однако спамеры могут обойти это ограничение размера веб-страницы, просто настроив несколько веб-страниц, независимо или связанных друг с другом.)
Скрытый или невидимый текст
Несвязанный скрытый текст маскируется путем придания ему того же цвета, что и фон, с использованием крошечного размера шрифта или сокрытия его в HTML- коде, например в разделах «без фрейма», атрибутах alt , DIV нулевого размера и разделах «без скриптов». Люди, вручную проверяющие веб-сайты с красным флажком для поисковой компании, могут временно или навсегда заблокировать весь веб-сайт из-за наличия невидимого текста на некоторых его страницах. Однако скрытый текст не всегда является спам-индексом: его также можно использовать для повышения доступности . [ необходима цитата ]
Наполнение мета-тегов
Это включает в себя повторение ключевых слов в метатегах и использование мета-ключевых слов, не связанных с контентом сайта. Эта тактика была неэффективной с 2005 года [ править ]
Дверные страницы
«Шлюзы» или дорвеи - это некачественные веб-страницы, созданные с очень небольшим содержанием, которые вместо этого заполнены очень похожими ключевыми словами и фразами. Они предназначены для высокого ранга в результатах поиска, но не служат никакой цели для посетителей, ищущих информацию. На дверном проеме обычно есть «щелкните здесь, чтобы войти»; Для этой цели также может использоваться автопересылка. В 2006 году Google вытеснил производителя автомобилей BMW за использование «дверных страниц» на немецком сайте компании BMW.de. [6]
Сайты-скребки
Сайты-парсеры создаются с помощью различных программ, предназначенных для «очистки» страниц результатов поисковых систем или других источников контента и создания «контента» для веб-сайта. [ необходима цитата ] Конкретное представление контента на этих сайтах уникально, но представляет собой просто объединение контента, взятого из других источников, часто без разрешения. Такие веб-сайты, как правило, переполнены рекламой (например, рекламой с оплатой за клик ) или перенаправляют пользователя на другие сайты. Сайты-скребки даже могут превосходить оригинальные сайты по их собственной информации и названиям организаций.
Статья крутится
Статья спиннинг включает перезапись существующих статей, а не просто выскабливание содержание других сайтов, чтобы избежать штрафных санкций , налагаемых поисковых систем для дублированного контента . Этот процесс выполняется наемными авторами [ необходима цитата ] или автоматизирован с использованием базы данных тезауруса или нейронной сети .
Машинный перевод
Подобно созданию статей , некоторые сайты используют машинный перевод для отображения своего контента на нескольких языках без редактирования человеком, в результате чего получаются неразборчивые тексты, которые, тем не менее, продолжают индексироваться поисковыми системами, что привлекает трафик.
Ссылочный спам
Ссылочный спам »определяется как ссылки между страницами, которые присутствуют по причинам, не связанным с заслугой. [7] В ссылочном спаме используются алгоритмы ранжирования на основе ссылок, которые дают веб-сайтам более высокий рейтинг, чем больше других сайтов с высоким рейтингом ссылаются на них. Эти методы также направлены на влияние на другие методы ранжирования на основе ссылок, такие как алгоритм HITS . [ необходима цитата ]
Связать фермы
Фермы ссылок - это тесно связанные сети веб-сайтов, которые ссылаются друг на друга с единственной целью - обыгрывать алгоритмы ранжирования в поисковых системах. Их также в шутку называют обществами взаимного восхищения . [8] Использование ферм ссылок значительно сократилось после того, как Google выпустил первое обновление Panda в феврале 2011 года, в котором были внесены значительные улучшения в алгоритм обнаружения спама.
Частные сети блогов
Блог-сети (PBN) - это группа авторитетных веб-сайтов, используемых в качестве источника контекстных ссылок, указывающих на основной веб-сайт владельца для достижения более высокого рейтинга в поисковых системах. Владельцы веб-сайтов PBN используют просроченные домены или аукционные домены, на которые есть обратные ссылки с авторитетных веб-сайтов. Google несколько раз преследовал пользователей PBN и наказывал их, проводя несколько масштабных кампаний по деиндексации с 2014 года [9].
Скрытые ссылки
Размещение гиперссылок там, где посетители их не увидят, используется для увеличения их популярности . Выделенный текст ссылки может помочь повысить рейтинг веб-страницы по соответствию этой фразе.
Атака Сибиллы
Сибла атака является ковкой множественных идентичностей для злого умысла, названных в честь известного множественного расстройства личности пациента « Сиб » [ править ] . Спамер может создать несколько веб-сайтов с разными доменными именами, которые все связаны друг с другом, например, фальшивые блоги (известные как спам-блоги ).
Спам-блоги
Блоги со спамом - это блоги, созданные исключительно для коммерческого продвижения и передачи полномочий по ссылкам на целевые сайты. Часто эти «блоги» создаются вводящим в заблуждение образом, что создает эффект легитимного веб-сайта, но при внимательном рассмотрении они часто будут написаны с использованием вращающегося программного обеспечения или будут написаны очень плохо с трудночитаемым содержанием. По своей природе они похожи на связующие фермы. [ необходима цитата ]
Спам в гостевом блоге
Спам в гостевых блогах - это процесс размещения гостевых блогов на веб-сайтах с единственной целью получения ссылки на другой веб-сайт или веб-сайты. К сожалению, их часто путают с законными формами гостевых блогов с другими мотивами, кроме размещения ссылок. Этот метод прославил Мэтт Каттс , публично объявивший «войну» этой форме ссылочного спама. [10]
Покупка просроченных доменов
Некоторые спамеры со ссылками используют программное обеспечение для сканирования доменов с истекшим сроком действия или отслеживают записи DNS для доменов, срок действия которых истекает в ближайшее время, а затем покупают их, когда срок их действия истекает, и заменяют страницы ссылками на свои страницы. Однако возможно, но не подтверждено, что Google сбрасывает данные ссылок на просроченных доменах. [ необходима цитата ] Чтобы сохранить все предыдущие данные рейтинга Google для домена, желательно, чтобы покупатель получил домен до того, как он будет "отброшен".
Некоторые из этих методов могут применяться для создания бомбы Google, то есть для сотрудничества с другими пользователями, чтобы повысить рейтинг конкретной страницы по определенному запросу.
Начинка печенья
Заполнение файлов cookie включает в себя размещение аффилированного файла cookie отслеживания на компьютере посетителя веб-сайта без его ведома, что затем будет приносить доход лицу, выполняющему загрузку файлов cookie. Это не только генерирует мошеннические партнерские продажи, но также может перезаписывать файлы cookie других аффилированных лиц, по сути крадя их законно заработанные комиссионные.
Использование страниц с возможностью записи во всем мире
Веб-сайты, которые могут редактироваться пользователями, могут использоваться спамодексерами для вставки ссылок на сайты со спамом, если не приняты соответствующие меры по борьбе со спамом.
Автоматические спам-боты могут быстро сделать редактируемую пользователем часть сайта непригодной для использования. Программисты разработали множество автоматических методов предотвращения спама, чтобы блокировать или, по крайней мере, замедлять спам-боты.
Спам в блогах
Спам в блогах - это размещение или запрос ссылок в случайном порядке на других сайтах с помещением желаемого ключевого слова в гиперссылочный текст входящей ссылки. Гостевые книги, форумы, блоги и любой сайт, который принимает комментарии посетителей, являются особыми целями и часто становятся жертвами спама, когда автоматическое программное обеспечение создает бессмысленные сообщения со ссылками, которые обычно неактуальны и нежелательны.
Спам в комментариях
Спам в комментариях - это форма ссылочного спама, возникающая на веб-страницах, которые позволяют пользователям динамически редактировать, например вики , блоги и гостевые книги . Это может быть проблематично, потому что могут быть написаны агенты , которые автоматически случайным образом выбирают редактируемую пользователем веб-страницу, например статью в Википедии, и добавляют ссылки для рассылки спама. [11]
Вики-спам
Вики-спам - это форма ссылочного спама на вики-страницах. Спамер использует открытые возможности редактирования вики-систем для размещения ссылок с вики-сайта на спам-сайт.
Спам в журнале реферера
Спам-реферер имеет место, когда злоумышленник или фасилитатор получает доступ к веб-странице ( рефери ), переходя по ссылке с другой веб-страницы ( реферер ), так что рефери получает адрес реферера в интернет-браузере человека. На некоторых веб-сайтах есть журнал рефереров, который показывает, какие страницы ссылаются на этот сайт. Если робот произвольно обращается ко многим сайтам достаточное количество раз с сообщением или конкретным адресом, указанным в качестве реферера, это сообщение или Интернет-адрес затем появляется в журнале рефереров тех сайтов, которые имеют журналы рефереров. Поскольку некоторые поисковые машины основывают важность сайтов на количестве различных сайтов, на которые ссылаются, спам в журналах рефереров может повысить рейтинг сайтов спамеров в поисковых системах. Кроме того, администраторы сайта, которые заметили записи журнала рефереров в своих журналах, могут перейти по ссылке обратно на страницу реферера спамера.
Контрмеры
Из-за большого количества спама, отправляемого на редактируемые пользователем веб-страницы, Google предложил тег nofollow, который можно было бы встроить в ссылки. Поисковая система на основе ссылок, такая как система PageRank Google , не будет использовать ссылку для повышения оценки связанного веб-сайта, если ссылка содержит тег nofollow. Это гарантирует, что спам-ссылки на сайты, редактируемые пользователем, не поднимут рейтинг сайтов в поисковых системах. Nofollow используется несколькими крупными веб-сайтами, включая Wordpress , Blogger и Wikipedia . [ необходима цитата ]
Другие типы
Зеркальные сайты
Зеркало сайта является хостинг нескольких веб - сайтов с концептуально аналогичного содержания , но с использованием различных URL - адресов . Некоторые поисковые системы дают более высокий рейтинг результатам, в которых искомое ключевое слово появляется в URL-адресе.
Перенаправление URL
Перенаправление URL - это перенаправление пользователя на другую страницу без его или ее вмешательства, например , с использованием тегов обновления META , перенаправления на стороне Flash , JavaScript , Java или сервера . Однако перенаправление 301 или постоянное перенаправление не считается злонамеренным.
Маскировка
Маскировка относится к любому из нескольких способов обслуживания страницы для паука поисковой системы, которые отличаются от тех, которые видят пользователи-люди. Это может быть попытка ввести в заблуждение поисковые системы относительно содержания определенного веб-сайта. Однако маскировка также может использоваться для этического повышения доступности сайта для пользователей с ограниченными возможностями или для предоставления пользователям-людям контента, который поисковые системы не могут обработать или проанализировать. Он также используется для доставки контента в зависимости от местоположения пользователя; Сам Google использует IP-доставку , форму маскировки, для получения результатов. Другой формой маскировки является подмена кода , т. Е. Оптимизация страницы для получения наивысшего рейтинга с последующей заменой другой страницы на ее место после достижения наивысшего рейтинга. Google называет такие переадресации скрытыми переадресациями . [12]
Контрмеры
Пропуск страницы поисковой системой
Страницы, проиндексированные спамом, иногда исключаются поисковой системой из результатов поиска.
Пропуск страницы пользователем
Пользователи могут использовать поисковые операторы для фильтрации. Для Google ключевое слово, которому предшествует "-" (минус), будет исключать сайты, содержащие ключевое слово на своих страницах или в URL-адресах страниц из результатов поиска. Например, поиск «- <нежелательный сайт>» удалит сайты, содержащие слово «<нежелательный сайт>» на своих страницах, и страницы, URL-адрес которых содержит «<нежелательный сайт>».
Пользователи также могут использовать расширение Google Chrome «Персональный черный список (от Google)», запущенное Google в 2011 году как часть контрмер против выращивания контента . [13] [14] С помощью расширения пользователи могли заблокировать определенную страницу или набор страниц от появления в их результатах поиска. По состоянию на 2021 год исходное расширение, похоже, будет удалено, хотя могут использоваться аналогичные функциональные расширения.
Смотрите также
- Получение состязательной информации
- Индекс (поисковая система) - обзор технологии индексации поисковой системы
- TrustRank
- Парсинг веб-страниц
- Microsoft SmartScreen
- Защитник Windows
Рекомендации
- ^ SearchEngineLand , Дэнни Салливана видео объяснения поискового спама, октябрь 2008 года . Проверено 13 ноября 2008.
- ^ a b c "Word Spy - определение спама" (определение), март 2003 г., веб-страница: WordSpy-spamdexing .
- ^ а б Дьёнджи, Золтан ; Гарсиа-Молина, Гектор (2005), «Таксономия веб-спама» (PDF) , Труды Первого международного семинара по состязательному поиску информации в Интернете (AIRWeb), 2005 г. на 14-й Международной конференции в Интернете (WWW 2005) 10 мая. , (Вт) -14 (сб), 2005, Конференц-центр Ниппон (Макухари Мессе), Тиба, Япония. , Нью-Йорк, Нью-Йорк: ACM Press, ISBN 1-59593-046-9
- ^ а б Нтулас, Александрос ; Манассе, Марк ; Наджорк, Марк ; Феттерли, Деннис (2006 г.), «Обнаружение веб-страниц со спамом посредством анализа содержимого», 15-я Международная конференция World Wide Web (WWW 2006), 23–26 мая 2006 г., Эдинбург, Шотландия. , Нью-Йорк, Нью-Йорк: ACM Press, ISBN 1-59593-323-9
- ^ Смарти, Энн (17 декабря 2008 г.). «Что такое BlackHat SEO? 5 определений» . Журнал поисковых систем . Проверено 5 июля 2012 .
- ^ Сигал, Дэвид (13.02.2011). «Маленькие грязные секреты поиска» . Нью-Йорк Таймс . Проверено 3 июля 2012 .
- ^ Дэвисон, Брайан (2000), «Распознавание семейных ссылок в Интернете» (PDF) , семинар AAAI-2000 по искусственному интеллекту для веб-поиска , Бостон: AAAI Press, стр. 23–28.
- ^ «Поисковые системы: технологии, общество и бизнес - Марти Херст, 29 августа 2005 г.» (PDF) . berkeley.edu .
- ^ «Google нацеливается на сайты, использующие частные сети блогов с ручными санкциями за ранжирование» . Земля поисковой машины . 2014-09-23 . Проверено 12 декабря 2016 .
- ^ «Упадок и падение гостевых блогов для SEO» . mattcutts.com . 20 января 2014 г.
- ^ Мишне, Гилад ; Дэвид Кармель; Ронни Лемпель (2005). «Блокировка спама в блогах с несогласием с языковой моделью» (PDF) . Труды Первого международного семинара по состязательному поиску информации в сети . Проверено 24 октября 2007 .
- ^ «Скрытая переадресация - Справка Search Console» . support.google.com .
- ^ «Google 索 結果 の 悪 表示 & 通報 し 検 子質 ア プ に 貢献 る Google 公式 Chrome 拡 張 機能「 Personal Blocklist 」» . gigazine.net .
- ^ «Новинка: блокируйте сайты из результатов Google с помощью« Персонального черного списка »Chrome - Search Engine Land» . searchchengineland.com . 14 февраля 2011 г.