Из Википедии, бесплатной энциклопедии
  (Перенаправлено из Linkspam )
Перейти к навигации Перейти к поиску

Spamdexing (также известный как поисковый спам , поиск отравлению двигателя , черные шляпы поисковой оптимизация ( SEO ), поисковый спам или веб - спам ) [1] является преднамеренным манипулированием поисковой системы индексов . Он включает в себя ряд методов, таких как построение ссылок и повторение несвязанных фраз, для управления релевантностью или известностью проиндексированных ресурсов способом, несовместимым с целями системы индексирования. [2] [3]

Распознавание спама можно рассматривать как часть поисковой оптимизации , хотя существует множество методов поисковой оптимизации, которые улучшают качество и внешний вид контента веб-сайтов и предоставляют контент, полезный для многих пользователей. [4]

Поисковые системы используют различные алгоритмы для определения рейтинга релевантности. Некоторые из них включают в себя определение представляется ли термин поиска в тексте или URL в виде веб - страницы. Многие поисковые системы проверяют наличие спама и удаляют подозрительные страницы из своих индексов. Кроме того, операторы поисковых систем могут быстро заблокировать список результатов со всех веб-сайтов, использующих спам-индексацию, возможно, в ответ на жалобы пользователей на ложные совпадения. Рост спама в середине 1990-х сделал ведущие поисковые системы того времени менее полезными. Использование неэтичных методов для повышения рейтинга веб-сайтов в результатах поисковых систем, чем они могли бы быть в противном случае, обычно называют в индустрии SEO (поисковой оптимизации) «черной шляпой SEO». Эти методы больше ориентированы на нарушение правил и рекомендаций поискового продвижения. В дополнение к этому, злоумышленники рискуют, что их веб-сайты будут серьезно наказаны Google Panda и Google Penguin.алгоритмы ранжирования результатов поиска. [5]

Распространенные методы определения спама можно разделить на два широких класса: контентный спам [4] (или термин «спам» ) и ссылочный спам . [3]

История [ править ]

Самая ранняя известная ссылка [2] к термину Поисковый спам является Эрик Конвей в своей статье «Porn пробирается путь обратно на Web,» The Boston Herald , 22 мая 1996, в котором он сказал:

Проблема возникает, когда операторы сайтов загружают свои веб-страницы сотнями посторонних терминов, поэтому поисковые системы перечисляют их среди законных адресов. Этот процесс называется «спамдексингом», комбинацией рассылки спама - в Интернете термином для отправки пользователям нежелательной информации - и « индексации ». [2]

Контентный спам [ править ]

Эти методы включают изменение логического представления поисковой системы о содержимом страницы. Все они нацелены на варианты модели векторного пространства для поиска информации по текстовым коллекциям.

Наполнение ключевыми словами [ править ]

Наполнение ключевыми словами предполагает расчетное размещение ключевых слов на странице для увеличения количества ключевых слов, разнообразия и плотности страницы. Это полезно для того, чтобы страница выглядела релевантной для поискового робота и повышала вероятность ее обнаружения. Пример: промоутер схемы Понци.хочет привлечь пользователей Интернета на сайт, где он рекламирует свою аферу. Он размещает на своей странице скрытый текст, подходящий для фан-страницы популярной музыкальной группы, надеясь, что эта страница будет указана как фан-сайт и получит много посещений от меломанов. Старые версии программ индексирования просто подсчитывали, как часто появлялось ключевое слово, и использовали это для определения уровней релевантности. Большинство современных поисковых систем имеют возможность анализировать страницу на предмет наполнения ключевыми словами и определять, согласуется ли частота с другими сайтами, созданными специально для привлечения трафика из поисковых систем. Кроме того, большие веб-страницы усекаются, поэтому массивные списки словарей не могут быть проиндексированы на одной веб-странице. [ необходима цитата ] (Однако спамеры могут обойти это ограничение размера веб-страницы, просто настроив несколько веб-страниц, независимо или связанных друг с другом.)

Скрытый или невидимый текст [ править ]

Несвязанный скрытый текст маскируется путем придания ему того же цвета, что и фон, с использованием крошечного размера шрифта или сокрытия его внутри HTML- кода, такого как разделы «без рамки», атрибуты alt , DIV нулевого размера и разделы «без сценария». Люди, вручную проверяющие веб-сайты с красным флажком для поисковой компании, могут временно или навсегда заблокировать весь веб-сайт из-за наличия невидимого текста на некоторых его страницах. Однако скрытый текст не всегда является спам-индексом: его также можно использовать для повышения доступности .

Наполнение мета-тегов [ править ]

Это включает в себя повторение ключевых слов в метатегах и использование мета-ключевых слов, не связанных с контентом сайта. Эта тактика была неэффективной с 2005 года [ править ]

Дверные страницы [ править ]

«Шлюзы» или дорвеи - это некачественные веб-страницы, созданные с очень небольшим содержанием, которые вместо этого заполнены очень похожими ключевыми словами и фразами. Они предназначены для высокого ранга в результатах поиска, но не служат никакой цели для посетителей, ищущих информацию. На дверном проеме обычно есть «щелкните здесь, чтобы войти»; Для этой цели также может использоваться автопересылка. В 2006 году Google вытеснил производителя автомобилей BMW за использование «дверных страниц» на немецком сайте компании BMW.de. [6]

Сайты-скребки [ править ]

Сайты-парсеры создаются с помощью различных программ, предназначенных для «очистки» страниц результатов поисковых систем или других источников контента и создания «контента» для веб-сайта. [ необходима цитата ] Конкретное представление контента на этих сайтах уникально, но представляет собой просто объединение контента, взятого из других источников, часто без разрешения. Такие веб-сайты, как правило, переполнены рекламой (например, рекламой с оплатой за клик ) или перенаправляют пользователя на другие сайты. Сайты-скребки даже могут превосходить оригинальные сайты по их собственной информации и названиям организаций.

Вращение статьи [ править ]

Статья спиннинг включает перезапись существующих статей, а не просто выскабливание содержание других сайтов, чтобы избежать штрафных санкций , налагаемых поисковых систем для дублированного контента . Этот процесс выполняется нанятыми авторами или автоматизирован с использованием базы данных тезауруса или нейронной сети .

Машинный перевод [ править ]

Подобно созданию статей , некоторые сайты используют машинный перевод для отображения своего контента на нескольких языках без редактирования человеком, в результате чего получаются неразборчивые тексты, которые, тем не менее, продолжают индексироваться поисковыми системами, что привлекает трафик.

Страницы без информации, связанной с заголовком [ править ]

Публикация веб-страниц, содержащих информацию, не имеющую отношения к названию, - это практика, вводящая в заблуждение, известная как обман. Несмотря на то, что ведущие поисковые системы, ранжирующие страницы, налагают штрафы, обман является обычной практикой на некоторых типах сайтов, включая сайты со словарями и энциклопедиями.

Спам со ссылками [ править ]

Ссылочный спам »определяется как ссылки между страницами, которые присутствуют по причинам, не связанным с заслугой. [7] В ссылочном спаме используются алгоритмы ранжирования на основе ссылок, которые дают веб-сайтам более высокий рейтинг, чем больше других сайтов с высоким рейтингом ссылаются на них. Эти методы также направлены на влияние на другие методы ранжирования на основе ссылок, такие как алгоритм HITS . [ необходима цитата ]

Связать фермы [ править ]

Фермы ссылок - это тесно связанные сети веб-сайтов, которые ссылаются друг на друга с единственной целью - обыгрывать алгоритмы ранжирования в поисковых системах. Их также в шутку называют обществами взаимного восхищения . [8] Использование ферм ссылок значительно сократилось после того, как Google выпустил первое обновление Panda в феврале 2011 года, в котором были внесены значительные улучшения в алгоритм обнаружения спама.

Частные сети блогов [ править ]

Блог-сети (PBN) - это группа авторитетных веб-сайтов, используемых в качестве источника контекстных ссылок, указывающих на основной веб-сайт владельца для достижения более высокого рейтинга в поисковых системах. Владельцы веб-сайтов PBN используют просроченные домены или аукционные домены, на которые есть обратные ссылки с авторитетных веб-сайтов. Google несколько раз нацеливался на пользователей PBN и наказывал их, проводя несколько масштабных кампаний по деиндексированию с 2014 года [9].

Скрытые ссылки [ править ]

Размещение гиперссылок там, где посетители их не увидят, используется для увеличения их популярности . Выделенный текст ссылки может помочь повысить рейтинг веб-страницы по соответствию этой фразе.

Атака Сибиллы [ править ]

Сибла атака является ковкой множественных идентичностей для злого умысла, названных в честь известного множественного расстройства личности пациента « Сиб ». Спамер может создать несколько веб-сайтов с разными доменными именами, которые все связаны друг с другом, например, фальшивые блоги (известные как спам-блоги ).

Блоги со спамом [ править ]

Блоги со спамом - это блоги, созданные исключительно для коммерческого продвижения и передачи полномочий по ссылкам на целевые сайты. Часто эти «блоги» создаются вводящим в заблуждение образом, что создает эффект легитимного веб-сайта, но при внимательном рассмотрении они часто бывают написаны с использованием вращающегося программного обеспечения или представляют собой очень плохо написанное и трудно читаемое содержание. По своей природе они похожи на связующие фермы.

Спам в гостевом блоге [ править ]

Спам в гостевых блогах - это процесс размещения гостевых блогов на веб-сайтах с единственной целью получения ссылки на другой веб-сайт или веб-сайты. К сожалению, их часто путают с законными формами гостевых блогов с другими мотивами, кроме размещения ссылок. Этот метод прославил Мэтт Каттс , публично объявивший «войну» этой форме ссылочного спама. [10]

Покупка просроченных доменов [ править ]

Некоторые спамеры со ссылками используют программное обеспечение для сканирования доменов с истекшим сроком действия или отслеживают записи DNS для доменов, срок действия которых скоро истекает, а затем покупают их, когда срок их действия истекает, и заменяют страницы ссылками на свои страницы. Однако возможно, но не подтверждено, что Google сбрасывает данные ссылок на просроченных доменах. [ необходима цитата ] Чтобы сохранить все предыдущие данные рейтинга Google для домена, желательно, чтобы покупатель получил домен до того, как он будет "отброшен".

Некоторые из этих методов могут применяться для создания бомбы Google, то есть для сотрудничества с другими пользователями, чтобы повысить рейтинг конкретной страницы по определенному запросу.

Наполнение файлов cookie [ править ]

Заполнение файлов cookie включает в себя размещение аффилированного файла cookie отслеживания на компьютере посетителя веб-сайта без его ведома, что затем будет приносить доход лицу, выполняющему загрузку файлов cookie. Это не только генерирует мошеннические партнерские продажи, но также может перезаписывать файлы cookie других аффилированных лиц, по сути крадя их законно заработанные комиссионные.

Использование страниц с возможностью записи [ править ]

Веб-сайты, которые могут редактироваться пользователями, могут использоваться спамодексерами для вставки ссылок на сайты со спамом, если не приняты соответствующие меры по борьбе со спамом.

Автоматические спам-боты могут быстро сделать редактируемую пользователем часть сайта непригодной для использования. Программисты разработали множество автоматических методов предотвращения спама, чтобы блокировать или, по крайней мере, замедлять спам-боты.

Спам в блогах [ править ]

Спам в блогах - это размещение или запрос ссылок в случайном порядке на других сайтах с помещением желаемого ключевого слова в гиперссылочный текст входящей ссылки. Гостевые книги, форумы, блоги и любой сайт, который принимает комментарии посетителей, являются особыми целями и часто становятся жертвами спама, когда автоматическое программное обеспечение создает бессмысленные сообщения со ссылками, которые обычно неактуальны и нежелательны.

Спам в комментариях [ править ]

Спам в комментариях - это форма ссылочного спама, возникающая на веб-страницах, которые позволяют пользователям динамически редактировать, например вики , блоги и гостевые книги . Это может быть проблематично, потому что могут быть написаны агенты , которые автоматически случайным образом выбирают редактируемую пользователем веб-страницу, например статью в Википедии, и добавляют ссылки для рассылки спама. [11]

Вики-спам [ править ]

Вики-спам - это форма ссылочного спама на вики-страницах. Спамер использует открытые возможности редактирования вики-систем для размещения ссылок с вики-сайта на спам-сайт.

Спам в журнале реферера [ править ]

Спам-реферер имеет место, когда злоумышленник или фасилитатор получает доступ к веб-странице ( рефери ), перейдя по ссылке с другой веб-страницы ( реферер ), так что рефери получает адрес реферера в интернет-браузере человека. На некоторых веб-сайтах есть журнал рефереров, который показывает, какие страницы ссылаются на этот сайт. Если робот произвольно обращается ко многим сайтам достаточное количество раз с сообщением или конкретным адресом, указанным в качестве реферера, это сообщение или Интернет-адрес затем появляется в журнале рефереров тех сайтов, которые имеют журналы рефереров. Поскольку некоторые поисковые системыосновывать важность сайтов на количестве различных сайтов, ссылающихся на них, спам в журналах рефереров может повысить рейтинг сайтов спамеров в поисковых системах. Кроме того, администраторы сайта, которые заметили записи журнала рефереров в своих журналах, могут перейти по ссылке обратно на страницу реферера спамера.

Контрмеры [ править ]

Из-за большого количества спама, отправляемого на редактируемые пользователем веб-страницы, Google предложил тег nofollow, который можно было бы встроить со ссылками. Поисковая система на основе ссылок, такая как система PageRank Google , не будет использовать ссылку для повышения оценки связанного веб-сайта, если ссылка содержит тег nofollow. Это гарантирует, что спам-ссылки на сайты, редактируемые пользователем, не поднимут рейтинг сайтов в поисковых системах. Nofollow используется несколькими крупными веб-сайтами, включая Wordpress , Blogger и Wikipedia . [ необходима цитата ]

Другие типы [ править ]

Зеркало веб-сайтов [ править ]

Зеркало сайта является хостинг нескольких веб - сайтов с концептуально аналогичного содержания , но с использованием различных URL - адресов . Некоторые поисковые системы дают более высокий рейтинг результатам, в которых искомое ключевое слово появляется в URL-адресе.

Перенаправление URL [ править ]

Перенаправление URL - это перенаправление пользователя на другую страницу без его или ее вмешательства, например , с использованием тегов обновления META , перенаправления на стороне Flash , JavaScript , Java или сервера . Однако перенаправление 301 или постоянное перенаправление не считается злонамеренным.

Маскировка [ править ]

Маскировка относится к любому из нескольких способов обслуживания страницы для паука поисковой системы, которые отличаются от тех, которые видят пользователи-люди. Это может быть попытка ввести в заблуждение поисковые системы относительно содержания определенного веб-сайта. Однако маскировка также может использоваться для этического повышения доступности сайта для пользователей с ограниченными возможностями или для предоставления пользователям-людям контента, который поисковые системы не могут обработать или проанализировать. Он также используется для доставки контента в зависимости от местоположения пользователя; Сам Google использует IP-доставку , форму маскировки, для получения результатов. Другой формой маскировки является подмена кода , т. Е., оптимизируя страницу для получения наивысшего рейтинга, а затем заменяя ее другой страницей, как только она будет достигнута. Google называет такие переадресации скрытыми переадресациями . [12]

Контрмеры [ править ]

Автор поисковой системы [ править ]

Страницы, проиндексированные спамом, иногда исключаются поисковой системой из результатов поиска.

Автор поисковой системы [ править ]

Пользователи могут использовать поисковые операторы для фильтрации. Для Google ключевое слово, которому предшествует "-" (минус), будет исключать сайты, содержащие ключевое слово на своих страницах или в URL-адресах страниц из результатов поиска. Например, поиск «- <нежелательный сайт>» удалит сайты, содержащие слово «<нежелательный сайт>» на своих страницах, и страницы, URL-адрес которых содержит «<нежелательный сайт>».

Расширение Google Chrome [ править ]

Сам Google запустил расширение Google Chrome «Персональный черный список (от Google)» в 2011 году как часть мер противодействия выращиванию контента . [13] [14] По состоянию на 2018 год расширение работает только с версией Google Chrome для ПК .

См. Также [ править ]

  • Получение состязательной информации
  • Индекс (поисковая система) - обзор технологии индексации поисковой системы
  • TrustRank
  • Парсинг веб-страниц
  • Microsoft SmartScreen
  • Защитник Windows

Ссылки [ править ]

  1. ^ SearchEngineLand , Дэнни Салливана видео объяснения поискового спама, октябрь 2008 года . Проверено 13 ноября 2008.
  2. ^ a b c "Word Spy - определение спама" (определение), март 2003 г., веб-страница: WordSpy-spamdexing .
  3. ^ а б Дьёнджи, Золтан ; Гарсиа-Молина, Гектор (2005), «Таксономия веб-спама» (PDF) , Труды Первого международного семинара по состязательному поиску информации в Интернете (AIRWeb), 2005 г. на 14-й Международной конференции в Интернете (WWW 2005) 10 мая. , (Вт) -14 (сб), 2005, Конференц-центр Ниппон (Макухари Мессе), Тиба, Япония. , Нью-Йорк, Нью-Йорк: ACM Press, ISBN 1-59593-046-9
  4. ^ a b Нтулас, Александрос ; Манассе, Марк ; Наджорк, Марк ; Феттерли, Деннис (2006 г.), «Обнаружение веб-страниц со спамом посредством анализа содержимого», 15-я Международная конференция World Wide Web (WWW 2006), 23–26 мая 2006 г., Эдинбург, Шотландия. , Нью-Йорк, Нью-Йорк: ACM Press, ISBN 1-59593-323-9
  5. ^ Смарти, Энн (2008-12-17). «Что такое BlackHat SEO? 5 определений» . Журнал поисковых систем . Проверено 5 июля 2012 .
  6. Сегал, Дэвид (13 февраля 2011). «Маленькие грязные секреты поиска» . Нью-Йорк Таймс . Проверено 3 июля 2012 .
  7. ^ Дэвисон, Брайан (2000), "признавая семейственные ссылки на Web" (PDF) , AAAI-2000 семинар по искусственному интеллекту для веба - поиска , Бостон:. AAAI Press, стр 23-28
  8. ^ "Поисковые системы: технологии, общество и бизнес - Марти Херст, 29 августа 2005 г." (PDF) . berkeley.edu .
  9. ^ "Google нацелен на сайты, использующие частные сети блогов с ручными санкциями за ранжирование" . Земля поисковой машины . 2014-09-23 . Проверено 12 декабря 2016 .
  10. ^ «Упадок и падение гостевых блогов для SEO» . mattcutts.com . 20 января 2014 г.
  11. ^ Мишне, Гилад ; Дэвид Кармель; Ронни Лемпель (2005). «Блокировка спама в блогах с несогласием с языковой моделью» (PDF) . Труды Первого международного семинара по состязательному поиску информации в сети . Проверено 24 октября 2007 .
  12. ^ «Скрытые перенаправления - Справка Search Console» . support.google.com .
  13. ^ «Google 検 索 結果 の 悪 質 な サ イ 非 表示 & 通報 し 検 索 子 プ に 貢献 る Google 公式 Chrome 拡 張 機能「 Personal Blocklist » . gigazine.net .
  14. ^ «Новое: блокируйте сайты из результатов Google с помощью« личного черного списка »Chrome - Search Engine Land» . searchchengineland.com . 14 февраля 2011 г.

Внешние ссылки [ править ]