Википедия: Индексация поисковыми системами


Из Википедии, свободной энциклопедии
Перейти к навигации Перейти к поиску

Поисковые системы, такие как Google и Bing , предоставляют результаты поиска, используя компьютерные программы, называемые поисковыми роботами , для «серфинга» в Интернете в поисках новых страниц для добавления в поисковые индексы, а также для обновлений ранее «просканированных» страниц. Эти потенциально навязчивые программы регулируются набором стандартов , которые позволяют владельцам веб-сайтов контролировать, какие страницы разрешено посещать сканерам и по каким ссылкам им разрешено переходить для доступа к новым страницам. В контексте Википедии это означает, что у нас есть возможность контролировать, какие страницы доступны поисковым роботам и, следовательно, какие страницы возвращаются поисковыми системами, такими как Google.

Задний план

С момента создания Википедии весь ее контент был доступен для поисковых роботов и поисковых систем. Robots.txt , файл, контролирующий доступ поисковых роботов, использовался в первую очередь для блокировки отдельных поисковых роботов, которые выполняли чрезмерно долгие или быстрые обходы и, следовательно, истощали системные ресурсы. Это означало, что вдобавок ко всему нашему энциклопедическому содержанию огромное количество дискуссий, споров и драматизма стало доступным для внешнего поиска. Этот материал является предметом большого количества жалоб в OTRS .службы и часто может содержать нежелательную личную информацию о пользователях, нежелательно острые дебаты о темах статей и другой контент, который никак не способствует укреплению репутации Википедии как профессиональной энциклопедии. В 2006 году немецкая Википедия провела «Meinungsbilder» (примерно аналог RfC ) и попросила разработчиков исключить все пространства имен Talk из поисковых роботов (см. T6937 ) в попытке контролировать часть этого контента.

Мощное присутствие Википедии как восьмого по популярности веб-сайта в Интернете дает всем нашим страницам очень большой вес в рейтингах поисковых систем ; страница Википедии, которая соответствует введенному поисковому запросу, почти гарантированно попадет в первую десятку результатов, независимо от фактического содержания страницы. Хотя это чрезвычайно положительный статус для наших статей и контента, он не всегда полезен:


В июне 2006 года MediaWiki была усовершенствована, чтобы предоставить разработчикам возможность исключать отдельные пространства имен из индексации поисковыми роботами. Эта функциональность была расширена в феврале 2008 года, чтобы позволить разработчикам устанавливать политику индексации для отдельных страниц. Наконец, в июле 2008 года пользователям была предоставлена ​​возможность вручную устанавливать политики индексации для отдельных страниц с помощью двух волшебных слов __INDEX__ и __NOINDEX__ ; разработчики могут настроить, на каких страницах работают эти волшебные слова.

До конца 2008 года низкое качество собственной внутренней поисковой системы Википедии означало, что редакторы полагались на Google для поиска материалов для внутренних целей, таких как прошлые обсуждения, полезные страницы справки и другую информацию. В октябре 2008 года функция внутреннего поиска была значительно улучшена , задействовав все функции, уже доступные через поисковые системы, такие как Google, а также включив ряд функций, уникальных для Википедии, таких как автоматическая идентификация перенаправлений и разделов страниц, а также более подходящий поиск. рейтинги. Это сделало внутренний поиск лучшим методом поиска внутреннего контента, чем внешний поиск, такой как Google. В декабре 2008 года новые обновления программного обеспечения MediaWiki позволиливставка встроенных кнопок поиска для поиска в наборах подстраниц, таких как архивы страниц обсуждения или доска объявлений администраторов .


В результате все редакционные страницы были просканированы (введены в поисковые системы, такие как Google). Поскольку это небольшой веб-сайт, это не имело большого значения. Как "веб-сайт 5-10 лучших" это. Диалог с пользователями из Википедии, включая их внутренние действия в качестве редакторов, обычно является «лучшим хитом» для отдельных лиц спустя долгое время после того, как они редактируют, а страницы, отличные от основного пространства, и хорошо патрулируемые части других пространств могут содержать большое количество непроверенных, непроверенных пользовательских записей. которые любой пользователь может разместить в различных пространствах имен. Если они не вызывают серьезных проблем и активно не замечаются, они могут оставаться непроверенными и изучаться как контент Википедии в течение многих лет.

Наши посетители и читатели ищут энциклопедический контент, а не внутренние дискуссии, споры пользователей. Наши читатели на первом месте. Мы хотим, чтобы общественность нашла и увидела значительный объем контента. Это конечный продукт проекта.

Остальное, включая страницы популярных проектов, таких как AFD, и все пространства имен «разговоров», страницы разрешения споров, страницы пользователей и т. д., не приносят большой пользы проекту, если индексируются поисковыми системами. Многие из них также вызывают серьезные опасения по поводу конфиденциальности и легкости поиска вредоносных материалов (споров / обвинений пользователей) в Google, гораздо больше, чем они помогают проекту. Нам не нужны те, которые оглашаются. Это внутренние (редакционные) страницы.

Предполагается, что, наконец, пришло время сократить разрыв. Вместо того, чтобы использовать NOINDEX для отдельных страниц, в основном ad-hoc, я не вижу веских текущих обоснований для какой-либо «внутренней» страницы вообще, и я вижу, что проблемы уменьшаются, убивая ее. Используйте внутренний поиск, чтобы найти такой материал, и убейте поиск всего, что не является действительно общедоступным, как наш "выход/продукт".

Предварительное обсуждение имело место в Wikipedia:Village pump (policy)#NOINDEX всех пространств имен, не связанных с контентом (декабрь 2008 г. - январь 2009 г.). Это предложение разрабатывается, чтобы официально проверить, существует ли консенсус для запроса этих изменений, и определить технические средства для этого.

Предложение

Предлагаемые изменения делятся на две области: технические и процедурные, как описано ниже.

Технические

Пространства имён Wikipedia:, MediaWiki: и Template: subject, а также пространства имён всех обсуждений по умолчанию не индексируются ; то есть никакие страницы в этих пространствах имен не будут найдены поисковыми роботами и, следовательно, не будут отображаться в рейтинге поисковых систем, хотя все страницы будут по-прежнему видны в собственных внутренних результатах поиска Википедии .

Кроме того, волшебные слова __INDEX__ и __NOINDEX__ отключены в пространствах имён MediaWiki: и Help: subject, а также во всех пространствах имён talk. Это имеет эффект «запирания» настройки по умолчанию, поэтому ее нельзя изменить для каждой страницы.

Новые настройки индексации показаны графически в таблице справа.

процедурный

В связи с этими изменениями необходимо разработать новые правила использования волшебных слов __INDEX__ и __NOINDEX__ в тех пространствах имен, где они функционируют.

INDEX в User: namespace
ИНДЕКС в Википедии: пространство имен
  • Такие страницы, как правила , рекомендации и «любые общеизвестные стабильные справочные страницы» (на основе консенсуса) , останутся в индексе .
  • Другие страницы могут индексироваться индивидуально в каждом конкретном случае (на основе консенсуса).
NOINDEX в файле: пространство имен

Некоторый контент (неэнциклопедический материал, такой как отчеты об ошибках , внутренние логотипы проекта и т. д.) может быть неиндексирован на основе консенсуса. Обсуждение NOINDEX для несвободных носителей , вероятно, состоится отдельно от этого предложения.

ИНДЕКС в шаблоне: пространство имен
NOINDEX в категории: пространство имен

Категории «Обслуживание» будут вручную переведены в NOINDEX, все остальные категории (т. е. категории контента) не должны переопределяться и останутся проиндексированными .

NOINDEX в Portal: пространство имен

Выполнение

  • После заполнения этой страницы сообществу будет предложено рассмотреть предложения по изменению статуса индекса различных пространств имен, как описано выше. Различные части этого предложения будут запрашиваться отдельно, чтобы редакторы могли выбирать свои предпочтения для каждого пространства имен.
  • Для тех пространств имен, по которым достигнут консенсус, WMF и техническим пользователям будет предложено определить наиболее подходящий способ реализации решения.

Вопросы-Ответы

  • Будет ли это проблемой, если пользователи будут полагаться на Google для поиска неконтента в Википедии?
Нет. В ноябре 2008 года внутренний поиск по сайту был улучшен . Новый поиск обрабатывает сложные запросы того же типа, что и Google, и другие функции, которые делают его лучше для поиска в этих местах, чем Google.
Например, внутренний поиск может обрабатывать те же логические выражения и поиск по «заголовку страницы», что и расширенный поиск Google, но теперь он также понимает пространства имен, «разделы» страницы, может искать слова с подстановочными знаками в них и т. д., что Гугл не может. Кроме того, многие страницы, которые уже NOINDEXED, могут быть найдены с помощью внутреннего поиска, но Google не может их увидеть.
  • Что нужно знать пользователям?
Пользователям нужно будет использовать внутренний поиск, а не внешний поиск, чтобы найти материал в прошлых обсуждениях. Они обнаружат, что как только они привыкнут нажимать «поиск», а не «Google», будут приняты те же форматы , что и в расширенном поиске Google, а также, что будет доступна более непосредственно полезная информация, относящаяся к википедистам, ищущим прошлые обсуждения, например, ограничение выполнять поиск по определенным пространствам имен или информации о «разделе» и «названии раздела», которой у них не было до использования Google.
Такое изменение требует четкого предварительного уведомления . Пользователи будут уведомлены об изменении за месяц с помощью четкого баннера и сообщений на доске объявлений и будут направлены на полезную ссылку и справочную информацию. Другие средства, облегчающие переход, также будут использоваться в максимально возможной степени. Новые пользователи поймут, что «это то, как ищут обсуждения» так же, как они узнают, как просматривать исторические версии, или разметку, или любое другое редакционное ноу-хау Википедии.
  • Что еще может произойти во время предварительного уведомления за месяц?
К тому времени, когда будет обсуждаться техническая сторона и пройдет месяц уведомления, вполне вероятно, что большинство очевидных страниц пространства проекта, которые необходимо проиндексировать, или те, по которым будет достигнут консенсус, будут помечены как проиндексированные. Пользователи вряд ли будут ждать :)
  • Повлияет ли это на рейтинг Википедии?
Википедия занимает первое место по многим темам, потому что на ее содержание очень много ссылок. Влияние этого предложения очень трудно предсказать.
  • Почему пространство проекта предлагается индексировать именно так?
Краткий ответ : страницы, которые мы хотели бы просмотреть в Projectspace, скорее всего, будут меняться относительно медленно по количеству или местоположению. Те, которые мы не хотим распознавать, будут написаны спонтанно или неясно, и, вероятно, их будет намного больше. Таким образом, мы по умолчанию не индексируем, если не решено.

  • Можно ли на самом деле установить пространство имен как «без индекса, не переопределяемое»?
Краткий ответ: Да, эти настройки могут выполнять как разработчики MediaWiki, так и администраторы en.wiki, хотя наиболее эффективное решение предполагает их комбинацию.
  • Разве эта страница не бессмысленна? С тех пор, как сообщество решило разрешить индексацию страниц в неосновном пространстве?
Сообщество никогда не имело возможности прийти к консенсусу по этому вопросу; как объяснялось выше , возможность ограничивать доступ поисковых роботов к страницам была реализована задолго после создания Википедии, и до недавнего времени плохая функция внутреннего поиска делала неиндексирование невозможным. Теперь, когда ситуация изменилась, мы можем сформировать законный консенсус. Не забывайте, что, даже если ранее сообщество решило , что неосновные страницы должны быть проиндексированы (чего оно не сделало), такой консенсус может измениться со временем по мере изменения ситуации, например, обновленного внутреннего поиска.

Смотрите также

  • Википедия:Обсуждение страниц, не проиндексированных Google
  • MediaWiki:Robots.txt — текущие общие правила исключения из англоязычной Википедии
  • Блог Викимедиа на эту тему Кэри Басса , координатора волонтеров Фонда .
Получено с " https://en.wikipedia.org/w/index.php?title=Wikipedia:Search_engine_indexing&oldid=1054699622 "