Спамдексинг


Из Википедии, свободной энциклопедии
  (Перенаправлен из поискового спама )
Перейти к навигации Перейти к поиску

Spamdexing (также известная как поисковый спам , поиск отравлению двигателя , черные шляпы поисковой оптимизация , поисковый спам или веб - спам ) [1] является преднамеренным манипулированием поисковой системы индексов . Он включает в себя ряд методов, таких как построение ссылок и повторение несвязанных фраз, для управления релевантностью или известностью проиндексированных ресурсов способом, несовместимым с целями системы индексирования. [2] [3]

Распознавание спама можно рассматривать как часть поисковой оптимизации , хотя существует множество методов поисковой оптимизации, которые улучшают качество и внешний вид контента веб-сайтов и предоставляют контент, полезный для многих пользователей. [4]

Поисковые системы используют различные алгоритмы для определения рейтинга релевантности . Некоторые из них включают в себя определение представляется ли термин поиска в тексте или URL в виде веб - страницы. Многие поисковые системы проверяют наличие спама и удаляют подозрительные страницы из своих индексов. Кроме того, операторы поисковых систем могут быстро заблокировать список результатов со всех веб-сайтов, использующих спамодексирование, возможно, в ответ на жалобы пользователей на ложные совпадения. Рост спама в середине 1990-х сделал ведущие поисковые системы того времени менее полезными. Использование неэтичных методов для повышения рейтинга веб-сайтов в результатах поиска по сравнению с тем, что они могли бы сделать в противном случае, в индустрии SEO (поисковой оптимизации) обычно называют «черным SEO». Эти методы больше ориентированы на нарушение правил и рекомендаций поискового продвижения. В дополнение к этому, злоумышленники рискуют, что их веб-сайты будут серьезно наказаны Google Panda и Google Penguin.алгоритмы ранжирования результатов поиска. [5]

Распространенные методы определения спама можно разделить на два широких класса: контентный спам [4] (или термин «спам» ) и ссылочный спам . [3]

История

Самая ранняя известная ссылка [2] на термин « спамдексинг» сделана Эриком Конви в его статье «Порнография пробирается обратно в Интернет», The Boston Herald , 22 мая 1996 г., где он сказал:

Проблема возникает, когда операторы сайтов загружают свои веб-страницы сотнями посторонних терминов, поэтому поисковые системы перечисляют их среди законных адресов. Этот процесс называется «спамодексингом», комбинацией рассылки спама ( Интернет-термин для отправки пользователям нежелательной информации) и « индексации ». [2]

Контентный спам

Эти методы включают изменение логического представления поисковой системы о содержимом страницы. Все они нацелены на варианты модели векторного пространства для поиска информации по текстовым коллекциям.

Наполнение ключевыми словами

Наполнение ключевыми словами предполагает расчетное размещение ключевых слов на странице для увеличения количества ключевых слов, разнообразия и плотности страницы. Это полезно для того, чтобы страница выглядела релевантной для поискового робота и повышала вероятность ее обнаружения. Пример: промоутер схемы Понци.хочет привлечь пользователей Интернета на сайт, где он рекламирует свою аферу. Он размещает на своей странице скрытый текст, подходящий для фан-страницы популярной музыкальной группы, надеясь, что эта страница будет указана как фан-сайт и получит много посетителей от меломанов. Старые версии программ индексирования просто подсчитывали, как часто появлялось ключевое слово, и использовали это для определения уровней релевантности. Большинство современных поисковых систем имеют возможность анализировать страницу на предмет наполнения ключевыми словами и определять, согласуется ли частота с другими сайтами, созданными специально для привлечения трафика из поисковых систем. Кроме того, большие веб-страницы усекаются, поэтому массивные списки словарей не могут быть проиндексированы на одной веб-странице. [ необходима цитата ] (Однако спамеры могут обойти это ограничение размера веб-страницы, просто настроив несколько веб-страниц, независимо или связанных друг с другом.)

Скрытый или невидимый текст

Несвязанный скрытый текст маскируется путем придания ему того же цвета, что и фон, с использованием крошечного размера шрифта или сокрытия его внутри HTML- кода, такого как разделы «без рамки», атрибуты alt , DIV нулевого размера и разделы «без сценария». Люди, вручную проверяющие веб-сайты с красным флажком для поисковой компании, могут временно или навсегда заблокировать весь веб-сайт из-за наличия невидимого текста на некоторых из его страниц. Однако скрытый текст не всегда является спам-индексом: его также можно использовать для повышения доступности . [6]

Наполнение мета-тегов

Это включает в себя повторение ключевых слов в метатегах и использование мета-ключевых слов, не связанных с контентом сайта. Эта тактика была неэффективной с 2005 года [ править ]

Дверные страницы

«Шлюзы» или дорвеи - это некачественные веб-страницы, созданные с очень небольшим содержанием, которые вместо этого заполнены очень похожими ключевыми словами и фразами. Они предназначены для высокого ранга в результатах поиска, но не служат никакой цели для посетителей, ищущих информацию. На дверном проеме обычно есть «щелкните здесь, чтобы войти»; Для этой цели также может использоваться автопересылка. В 2006 году Google вытеснил производителя автомобилей BMW за использование «дверных страниц» на немецком сайте компании BMW.de. [7]

Сайты-скребки

Сайты -парсеры создаются с помощью различных программ, предназначенных для «очистки» страниц результатов поисковых систем или других источников контента и создания «контента» для веб-сайта. [ необходима цитата ] Конкретное представление контента на этих сайтах уникально, но представляет собой просто объединение контента, взятого из других источников, часто без разрешения. Такие веб-сайты, как правило, переполнены рекламой (например, рекламой с оплатой за клик ) или перенаправляют пользователя на другие сайты. Сайты-скреперы могут даже превосходить оригинальные сайты по их собственной информации и названиям организаций.

Статья крутится

Статья спиннинг включает перезапись существующих статей, а не просто выскабливание содержание других сайтов, чтобы избежать штрафных санкций , налагаемых поисковых систем для дублированного контента . Этот процесс выполняется наемными авторами [ необходима цитата ] или автоматизирован с использованием базы данных тезауруса или нейронной сети .

Машинный перевод

Подобно созданию статей , некоторые сайты используют машинный перевод для отображения своего контента на нескольких языках без редактирования человеком, в результате чего получаются неразборчивые тексты, которые, тем не менее, продолжают индексироваться поисковыми системами, тем самым привлекая трафик.

Ссылочный спам

Ссылочный спам »определяется как ссылки между страницами, которые присутствуют по причинам, не связанным с заслугой. [8] В ссылочном спаме используются алгоритмы ранжирования на основе ссылок, которые дают веб-сайтам более высокий рейтинг, чем больше других высокорейтинговых сайтов ссылаются на них. Эти методы также направлены на влияние на другие методы ранжирования на основе ссылок, такие как алгоритм HITS . [ необходима цитата ]

Связать фермы

Фермы ссылок - это тесно связанные сети веб-сайтов, которые ссылаются друг на друга с единственной целью использования алгоритмов ранжирования в поисковых системах. Их также в шутку называют обществами взаимного восхищения . [9] Использование ферм ссылок значительно сократилось с запуском первого Google Panda Update в феврале 2011 года, в котором были внесены значительные улучшения в алгоритм обнаружения спама.

Частные сети блогов

Сети блогов (PBN) - это группа авторитетных веб-сайтов, используемых в качестве источника контекстных ссылок, указывающих на основной веб-сайт владельца для достижения более высокого рейтинга в поисковых системах. Владельцы веб-сайтов PBN используют просроченные домены или аукционные домены, на которые есть обратные ссылки с авторитетных веб-сайтов. Google несколько раз нацеливался на пользователей PBN и наказывал их, проводя несколько масштабных кампаний по деиндексированию с 2014 года [10].

Скрытые ссылки

Размещение гиперссылок там, где посетители их не увидят, используется для увеличения их популярности . Выделенный текст ссылки может помочь повысить рейтинг веб-страницы по соответствию этой фразе.

Атака Сибиллы

Сибла атака является поковкой множественной идентичности для злого умысла, названной в честь известного диссоциативного расстройства личности больного « Сиб » [ править ] . Спамер может создать несколько веб-сайтов с разными доменными именами, которые все связаны друг с другом, например, фальшивые блоги (известные как спам-блоги ).

Спам-блоги

Блоги со спамом - это блоги, созданные исключительно для коммерческого продвижения и передачи полномочий по ссылкам на целевые сайты. Часто эти «блоги» создаются вводящим в заблуждение образом, что создает эффект легитимного веб-сайта, но при внимательном рассмотрении они часто будут написаны с использованием вращающегося программного обеспечения или будут написаны очень плохо с трудночитаемым содержанием. По своей природе они похожи на связующие фермы. [ необходима цитата ]

Спам в гостевом блоге

Спам в гостевых блогах - это процесс размещения гостевых блогов на веб-сайтах с единственной целью получения ссылки на другой веб-сайт или веб-сайты. К сожалению, их часто путают с законными формами гостевых блогов с другими мотивами, кроме размещения ссылок. Этот метод прославил Мэтт Каттс , публично объявивший «войну» этой форме ссылочного спама. [11]

Покупка просроченных доменов

Некоторые спамеры со ссылками используют программное обеспечение для сканирования доменов с истекшим сроком действия или отслеживают записи DNS для доменов, срок действия которых истекает в ближайшее время, а затем покупают их, когда срок их действия истекает, и заменяют страницы ссылками на свои страницы. Однако возможно, но не подтверждено, что Google сбрасывает данные ссылок на просроченных доменах. [ необходима цитата ] Чтобы сохранить все предыдущие данные рейтинга Google для домена, желательно, чтобы покупатель получил домен до того, как он будет «отброшен».

Некоторые из этих методов могут применяться для создания бомбы Google, то есть для сотрудничества с другими пользователями, чтобы повысить рейтинг конкретной страницы по определенному запросу.

Начинка печенья

Заполнение файлов cookie включает в себя размещение аффилированного файла cookie отслеживания на компьютере посетителя веб-сайта без его ведома, что затем будет приносить доход лицу, выполняющему загрузку файлов cookie. Это не только приводит к мошенническим партнерским продажам, но также может перезаписывать файлы cookie других аффилированных лиц, по сути крадя их законно заработанные комиссионные.

Использование страниц с возможностью записи во всем мире

Веб-сайты, которые могут редактировать пользователи, могут использоваться спамодексерами для вставки ссылок на сайты со спамом, если не приняты соответствующие меры по борьбе со спамом.

Автоматические спам-боты могут быстро сделать редактируемую пользователем часть сайта непригодной для использования. Программисты разработали множество автоматических методов предотвращения спама, чтобы блокировать или, по крайней мере, замедлять спам-боты.

Спам в блогах

Спам в блогах - это размещение или запрос ссылок в случайном порядке на других сайтах с помещением желаемого ключевого слова в гиперссылочный текст входящей ссылки. Гостевые книги, форумы, блоги и любой сайт, принимающий комментарии посетителей, являются особыми целями и часто становятся жертвами спама, когда автоматическое программное обеспечение создает бессмысленные сообщения со ссылками, которые обычно неактуальны и нежелательны.

Спам в комментариях

Спам в комментариях - это форма ссылочного спама, возникающая на веб-страницах, которые позволяют динамическое редактирование пользователями, например вики , блоги и гостевые книги . Это может быть проблематично, потому что могут быть написаны агенты , которые автоматически случайным образом выбирают редактируемую пользователем веб-страницу, например статью в Википедии, и добавляют ссылки для рассылки спама. [12]

Вики-спам

Вики-спам - это когда спамер использует открытые возможности редактирования вики-систем для размещения ссылок с вики-сайта на спам-сайт.

Спам в журнале реферера

Спам-реферер имеет место, когда злоумышленник или фасилитатор получает доступ к веб-странице ( рефери ), переходя по ссылке с другой веб-страницы ( реферер ), так что рефери получает адрес реферера в интернет-браузере человека. На некоторых веб-сайтах есть журнал рефереров, который показывает, какие страницы ссылаются на этот сайт. Если робот произвольно обращается ко многим сайтам достаточное количество раз с сообщением или конкретным адресом, указанным в качестве реферера, это сообщение или Интернет-адрес затем появляется в журнале рефереров тех сайтов, которые имеют журналы рефереров. Поскольку некоторые поисковые системыосновывать важность сайтов на количестве различных сайтов, ссылающихся на них, спам в журналах рефереров может повысить рейтинг сайтов спамеров в поисковых системах. Кроме того, администраторы сайтов, которые заметили записи журнала рефереров в своих журналах, могут перейти по ссылке обратно на страницу реферера спамера.

Контрмеры

Из-за большого количества спама, отправляемого на редактируемые пользователем веб-страницы, Google предложил тег «nofollow», который можно было бы встроить со ссылками. Поисковая система на основе ссылок, такая как система PageRank Google , не будет использовать ссылку для увеличения оценки связанного веб-сайта, если ссылка содержит тег nofollow. Это гарантирует, что спам-ссылки на сайты, редактируемые пользователем, не поднимут рейтинг сайтов в поисковых системах. Nofollow используется несколькими крупными веб-сайтами, включая Wordpress , Blogger и Wikipedia . [ необходима цитата ]

Другие типы

Зеркало веб-сайтов

Зеркало сайта является хостинг нескольких веб - сайтов с концептуально аналогичного содержания , но с использованием различных URL - адресов . Некоторые поисковые системы дают более высокий рейтинг результатам, в которых искомое ключевое слово появляется в URL-адресе.

Перенаправление URL

Перенаправление URL - это перенаправление пользователя на другую страницу без его или ее вмешательства, например , с использованием тегов обновления META , перенаправления на стороне Flash , JavaScript , Java или сервера . Однако перенаправление 301 или постоянное перенаправление не считается злонамеренным.

Маскировка

Маскировка относится к любому из нескольких способов обслуживания страницы для паука поисковой системы, которые отличаются от тех, которые видят пользователи-люди. Это может быть попытка ввести в заблуждение поисковые системы относительно содержания определенного веб-сайта. Однако маскировка также может использоваться для этического повышения доступности сайта для пользователей с ограниченными возможностями или для предоставления пользователям-людям контента, который поисковые системы не могут обработать или проанализировать. Он также используется для доставки контента в зависимости от местоположения пользователя; Сам Google использует IP-доставку , форму маскировки, для получения результатов. Другая форма маскировки - это подмена кода , т. Е., оптимизируя страницу для достижения наивысшего рейтинга, а затем заменяя ее место другой страницей, как только будет достигнуто высшее ранжирование. Google называет такие переадресации скрытыми переадресациями . [13]

Контрмеры

Пропуск страницы поисковой системой

Страницы, проиндексированные спамом, иногда исключаются поисковой системой из результатов поиска.

Пропуск страницы пользователем

Пользователи могут использовать поисковые операторы для фильтрации. Для Google ключевое слово, которому предшествует "-" (минус), будет исключать сайты, содержащие ключевое слово на своих страницах или в URL-адресах страниц из результатов поиска. Например, поиск «- <нежелательный сайт>» удалит сайты, содержащие слово «<нежелательный сайт>» на своих страницах, и страницы, URL-адрес которых содержит «<нежелательный сайт>».

Пользователи также могут использовать расширение Google Chrome «Персональный черный список (от Google)», запущенное Google в 2011 году как часть контрмер против выращивания контента . [14] [15] С помощью расширения пользователи могли заблокировать определенную страницу или набор страниц, чтобы они не отображались в их результатах поиска. По состоянию на 2021 год исходное расширение, похоже, будет удалено, хотя могут использоваться аналогичные функциональные расширения.

Смотрите также

  • Получение состязательной информации
  • Индекс (поисковая система) - обзор технологии индексации поисковой системы
  • TrustRank
  • Веб-скрапинг
  • Microsoft SmartScreen
  • Защитник Windows

использованная литература

  1. ^ SearchEngineLand , Дэнни Салливана видео объяснения поискового спама, октябрь 2008 года . Проверено 13 ноября 2008.
  2. ^ a b c "Word Spy - определение спама" (определение), март 2003 г., веб-страница: WordSpy-spamdexing .
  3. ^ а б Дьёнджи, Золтан ; Гарсиа-Молина, Гектор (2005 г.), «Таксономия веб-спама» (PDF) , Труды Первого международного семинара по состязательному поиску информации в Интернете (AIRWeb), 2005 г. на 14-й Международной конференции в Интернете (WWW 2005) 10 мая. , (Вт) -14 (сб), 2005, Конференц-центр Ниппон (Макухари Мессе), Тиба, Япония. , Нью-Йорк, Нью-Йорк: ACM Press, ISBN 1-59593-046-9
  4. ^ a b Нтулас, Александрос ; Манассе, Марк ; Наджорк, Марк ; Феттерли, Деннис (2006 г.), «Обнаружение веб-страниц со спамом посредством анализа содержимого», 15-я Международная конференция World Wide Web (WWW 2006), 23–26 мая 2006 г., Эдинбург, Шотландия. , Нью-Йорк, Нью-Йорк: ACM Press, ISBN 1-59593-323-9
  5. ^ Смарти, Энн (2008-12-17). «Что такое BlackHat SEO? 5 определений» . Журнал поисковой системы . Проверено 5 июля 2012 .
  6. ^ Монтти, Роджер (2020-10-03). «Все, что вам нужно знать о скрытом тексте и поисковой оптимизации» . Журнал поисковой системы . Проверено 22 ноября 2021 .
  7. Сегал, Дэвид (13 февраля 2011). «Маленькие грязные секреты поиска» . Нью-Йорк Таймс . Проверено 3 июля 2012 .
  8. ^ Дэвисон, Брайан (2000), «Распознавание семейных ссылок в Интернете» (PDF) , семинар AAAI-2000 по искусственному интеллекту для веб-поиска , Бостон: AAAI Press, стр. 23–28
  9. ^ "Поисковые системы: технологии, общество и бизнес - Марти Херст, 29 августа 2005 г." (PDF) . berkeley.edu .
  10. ^ «Google нацеливается на сайты, используя частные сети блогов с ручными санкциями за ранжирование» . Земля поисковой машины . 2014-09-23 . Проверено 12 декабря 2016 .
  11. ^ «Упадок и падение гостевых блогов для SEO» . mattcutts.com . 20 января 2014 г.
  12. ^ Мишне, Гилад ; Дэвид Кармель; Ронни Лемпель (2005). «Блокировка спама в блогах с несогласием языковой модели» (PDF) . Труды Первого международного семинара по состязательному поиску информации в сети . Проверено 24 октября 2007 .
  13. ^ «Скрытые перенаправления - Справка Search Console» . support.google.com .
  14. ^ «Google 検 索 結果 の 悪 質 な サ イ 表示 & 通報 し 検 索 子 プ に 貢献 る Google 公式 Chrome 拡 張 機能「 Персональный черный список 」» . gigazine.net .
  15. ^ «Новое: блокируйте сайты из результатов Google, используя« Персональный черный список »Chrome - Search Engine Land» . searchchengineland.com . 14 февраля 2011 г.

внешняя ссылка

Источник « https://en.wikipedia.org/w/index.php?title=Spamdexing&oldid=1058461311 »