Обсуждение этого предложения разделилось. Те, кто поддерживают или выступают против него, в настоящее время не могут пойти на компромисс. Статус этого предложения оспаривается; поэтому до сих пор не удалось достичь консенсуса. Эту страницу не следует цитировать как политику или руководство ; имеет статус эссе . Если вы хотите возобновить дискуссию на эту тему, вам следует обратиться за более широкими вопросами, например, к деревенскому насосу . |
Поисковые системы, такие как Google и Bing , предоставляют результаты поиска, используя компьютерные программы, называемые поисковыми роботами , для «серфинга» в Интернете в поисках новых страниц для добавления в поисковые индексы, а также для обновлений ранее «просканированных» страниц. Эти потенциально навязчивые программы регулируются набором стандартов , которые позволяют владельцам веб-сайтов контролировать, какие страницы разрешено посещать сканерам и по каким ссылкам им разрешено переходить для доступа к новым страницам. В контексте Википедии это означает, что у нас есть возможность контролировать, какие страницы доступны поисковым роботам и, следовательно, какие страницы возвращаются поисковыми системами, такими как Google.
С момента создания Википедии весь ее контент был доступен для поисковых роботов и поисковых систем. Robots.txt , файл, контролирующий доступ поисковых роботов, использовался в первую очередь для блокировки отдельных поисковых роботов, которые выполняли чрезмерно долгие или быстрые обходы и, следовательно, истощали системные ресурсы. Это означало, что вдобавок ко всему нашему энциклопедическому содержанию огромное количество дискуссий, споров и драматизма стало доступным для внешнего поиска. Этот материал является предметом большого количества жалоб в OTRS .службы и часто может содержать нежелательную личную информацию о пользователях, нежелательно острые дебаты о темах статей и другой контент, который никак не способствует укреплению репутации Википедии как профессиональной энциклопедии. В 2006 году немецкая Википедия провела «Meinungsbilder» (примерно аналог RfC ) и попросила разработчиков исключить все пространства имен Talk из поисковых роботов (см. T6937 ) в попытке контролировать часть этого контента.
Мощное присутствие Википедии как восьмого по популярности веб-сайта в Интернете дает всем нашим страницам очень большой вес в рейтингах поисковых систем ; страница Википедии, которая соответствует введенному поисковому запросу, почти гарантированно попадет в первую десятку результатов, независимо от фактического содержания страницы. Хотя это чрезвычайно положительный статус для наших статей и контента, он не всегда полезен:
В июне 2006 года MediaWiki была усовершенствована, чтобы предоставить разработчикам возможность исключать отдельные пространства имен из индексации поисковыми роботами. Эта функциональность была расширена в феврале 2008 года, чтобы позволить разработчикам устанавливать политику индексации для отдельных страниц. Наконец, в июле 2008 года пользователям была предоставлена возможность вручную устанавливать политики индексации для отдельных страниц с помощью двух волшебных слов __INDEX__ и __NOINDEX__ ; разработчики могут настроить, на каких страницах работают эти волшебные слова.
До конца 2008 года низкое качество собственной внутренней поисковой системы Википедии означало, что редакторы полагались на Google для поиска материалов для внутренних целей, таких как прошлые обсуждения, полезные страницы справки и другую информацию. В октябре 2008 года функция внутреннего поиска была значительно улучшена , задействовав все функции, уже доступные через поисковые системы, такие как Google, а также включив ряд функций, уникальных для Википедии, таких как автоматическая идентификация перенаправлений и разделов страниц, а также более подходящий поиск. рейтинги. Это сделало внутренний поиск лучшим методом поиска внутреннего контента, чем внешний поиск, такой как Google. В декабре 2008 года новые обновления программного обеспечения MediaWiki позволиливставка встроенных кнопок поиска для поиска в наборах подстраниц, таких как архивы страниц обсуждения или доска объявлений администраторов .
Этот раздел нуждается в дополнении : Включите сведения о любых разногласиях, возникших из-за индексации Google неконтентных страниц. Вы можете помочь, добавив в него . |
В результате все редакционные страницы были просканированы (введены в поисковые системы, такие как Google). Поскольку это небольшой веб-сайт, это не имело большого значения. Как "веб-сайт 5-10 лучших" это. Диалог с пользователями из Википедии, включая их внутренние действия в качестве редакторов, обычно является «лучшим хитом» для отдельных лиц спустя долгое время после того, как они редактируют, а страницы, отличные от основного пространства, и хорошо патрулируемые части других пространств могут содержать большое количество непроверенных, непроверенных пользовательских записей. которые любой пользователь может разместить в различных пространствах имен. Если они не вызывают серьезных проблем и активно не замечаются, они могут оставаться непроверенными и изучаться как контент Википедии в течение многих лет.
Наши посетители и читатели ищут энциклопедический контент, а не внутренние дискуссии, споры пользователей. Наши читатели на первом месте. Мы хотим, чтобы общественность нашла и увидела значительный объем контента. Это конечный продукт проекта.
Остальное, включая страницы популярных проектов, таких как AFD, и все пространства имен «разговоров», страницы разрешения споров, страницы пользователей и т. д., не приносят большой пользы проекту, если индексируются поисковыми системами. Многие из них также вызывают серьезные опасения по поводу конфиденциальности и легкости поиска вредоносных материалов (споров / обвинений пользователей) в Google, гораздо больше, чем они помогают проекту. Нам не нужны те, которые оглашаются. Это внутренние (редакционные) страницы.
Предполагается, что, наконец, пришло время сократить разрыв. Вместо того, чтобы использовать NOINDEX для отдельных страниц, в основном ad-hoc, я не вижу веских текущих обоснований для какой-либо «внутренней» страницы вообще, и я вижу, что проблемы уменьшаются, убивая ее. Используйте внутренний поиск, чтобы найти такой материал, и убейте поиск всего, что не является действительно общедоступным, как наш "выход/продукт".
Предварительное обсуждение имело место в Wikipedia:Village pump (policy)#NOINDEX всех пространств имен, не связанных с контентом (декабрь 2008 г. - январь 2009 г.). Это предложение разрабатывается, чтобы официально проверить, существует ли консенсус для запроса этих изменений, и определить технические средства для этого.
Пространство имен | Состояние по умолчанию | Переопределение разрешено? |
---|---|---|
Основное пространство | Проиндексировано | Нет |
Пользователь: | не индексируется | да |
Википедия: | не индексируется | да |
Файл: | Проиндексировано | да |
Медиавики: | не индексируется | Нет |
Шаблон: | не индексируется | да |
Помощь: | Проиндексировано | Нет |
Категория: | Проиндексировано | да |
Портал: | Проиндексировано | да |
Все пространства имен Talk ( Talk: , User talk: , File talk: и т. д.) | не индексируется | Нет |
Изменения текущей настройки выделены |
Предлагаемые изменения делятся на две области: технические и процедурные, как описано ниже.
Пространства имён Wikipedia:, MediaWiki: и Template: subject, а также пространства имён всех обсуждений по умолчанию не индексируются ; то есть никакие страницы в этих пространствах имен не будут найдены поисковыми роботами и, следовательно, не будут отображаться в рейтинге поисковых систем, хотя все страницы будут по-прежнему видны в собственных внутренних результатах поиска Википедии .
Кроме того, волшебные слова __INDEX__ и __NOINDEX__ отключены в пространствах имён MediaWiki: и Help: subject, а также во всех пространствах имён talk. Это имеет эффект «запирания» настройки по умолчанию, поэтому ее нельзя изменить для каждой страницы.
Новые настройки индексации показаны графически в таблице справа.
В связи с этими изменениями необходимо разработать новые правила использования волшебных слов __INDEX__ и __NOINDEX__ в тех пространствах имен, где они функционируют.
Некоторый контент (неэнциклопедический материал, такой как отчеты об ошибках , внутренние логотипы проекта и т. д.) может быть неиндексирован на основе консенсуса. Обсуждение NOINDEX для несвободных носителей , вероятно, состоится отдельно от этого предложения.
Категории «Обслуживание» будут вручную переведены в NOINDEX, все остальные категории (т. е. категории контента) не должны переопределяться и останутся проиндексированными .
Чуть более длинный ответ |
---|
Пространство проекта содержит широкий спектр материала. Оно может включать в себя, как и пользовательское пространство, практически любой текст, написанный пользователем , при условии, что на первый взгляд кажется, что он касается проекта или представляет интерес для проекта; обсуждения; споры; негативный материал о пользователях; эссе о точках зрения любого редактора; и значительный другой непроверенный материал. Он также содержит значительное количество действительно ценного материала, который является нашим «выходом/продуктом» в такой же степени, как и любая статья, — наши политики, рекомендации, объяснения процессов, общепризнанные стабильные страницы в Википедии/Викимедиа, справочные данные и так далее. Пространство проекта представляет собой смесь всего этого. Некоторые из них должны быть проанализированы (в целом, последний ценный материал и любой другой «консенсус говорит»). Многое не проверено, и новый материал может быть добавлен в любое время. Поскольку политики и рекомендации могут быть совместно проиндексированы просто с помощью соответствующих шаблонов, а количество стабильных, ценных справочных страниц само по себе довольно стабильно, а количество других страниц растет гораздо быстрее и не контролируется, проще и эффективнее использовать по умолчанию NOINDEX. , а затем проиндексировать как исключение все (или любую группу или категорию страниц), которые, по общему мнению, являются ценными. |
Полный ответ: | |
---|---|
Страница может быть установлена как не индексируемая несколькими способами. Сканеры, используемые поисковыми системами, проверяют наличие файла robots.txt в корневом каталоге веб-сервера и используют его для установки глобальных параметров, по которым поисковые роботы могут получить доступ к путям на сайте. Файл robots.txt Википедии доступен для просмотра по адресу http://en.wikipedia.org/robots.txt . Записи в файл могут быть добавлены либо разработчиками Викимедиа, либо администраторами en.wiki путем редактирования MediaWiki:Robots.txt . Записи, добавленные разработчиками, переопределяют записи, добавленные администраторами en.wiki. Во- вторых, метатеги HTML могут быть добавлены в заголовок отдельных страниц, чтобы заставить поисковые роботы, которые посещают страницу, «игнорировать» ее. Некоторые параметры конфигурации MediaWiki позволяют устанавливать эти теги надля всей вики , для пространства имен и для каждой страницы . Наконец, пользователи вики могут добавить переключатель поведения в вики-разметку страницы, чтобы вручную добавить метаэлемент HTML — переключатель Мета-теги HTML не могут переопределять ограничения, установленные в файле robots.txt, поскольку страница, исключенная файлом robots.txt, никогда не будет выбрана, поэтому, если она имеет локальное переопределение в разметке, это никогда не будет замечено. Наконец, пространства имен, в которых распознаются переключатели Используя эти параметры, мы можем попросить разработчиков реализовать любую перестановку состояния по умолчанию и переопределения для любого пространства имен (используя настройки конфигурации MediaWiki), а также заблокировать как отдельные страницы (используя ), так и иерархии страниц (используя MediaWiki:Robots.txt ) на постоянной основе. |