Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

А в поисковых системах списков веб - страницы на Интернете . Это облегчает исследование, предлагая сразу множество подходящих вариантов. Возможно, полезные элементы в списке результатов включают исходный материал или электронные инструменты, которые может предоставить веб-сайт, например словарь, но сам список в целом также может указывать на важную информацию. Однако для того, чтобы понять эту информацию, может потребоваться понимание.

Ссылки на результаты поисковой системы - это быстрый способ представить (что важно ) или удалить (что не поддается проверке ) исходный материал, в зависимости от их надежности. В Википедии существует высокий спрос на надежность . Определение надежности исходного материала является особенно важным навыком при использовании Интернета, в то время как сама вики только облегчает создание нескольких черновиков. По мере продвижения презентаций и удалений такое разнообразие вариантов ввода, как правило, приводит к желаемой цели - нейтральной точке зрения . В зависимости от типа запроса и типа поисковой системы это разнообразие может быть доступно одному автору.

Некоторые тесты поисковых систем

  1. Популярность - см . Инструмент отслеживания тенденций Google ниже.
  2. Использование - Определите значимость термина. (См., Например , инструмент Google ngram .)
  3. Подлинность - Определите ложную мистификацию или городскую легенду .
  4. Известность - Решите, следует ли выдвигать страницу для удаления.
  5. Существование - узнайте, какие источники (включая веб-сайты) действительно существуют для возможного представления.
  6. Информация - проверьте достоверность фактов и цитат.
  7. Имена и терминология - Определите имена, используемые для вещей (включая альтернативные имена и терминологию).
  8. Авторское право - определите, копируется ли материал , и если да, проверьте лицензирование.

На этой странице описаны как эти тесты веб-поиска, так и инструменты веб-поиска, которые могут помочь в разработке Википедии, а также описаны их предубеждения и ограничения.

Преимущества конкретной поисковой системы можно выделить, используя множество распространенных поисковых систем. Явными преимуществами каждого из них являются их пользовательский интерфейс и, что менее очевидно, их алгоритмы для составления и поиска собственных индексов. Поскольку веб-сканер может быть заблокирован - конкретный или просто общий - разные поисковые системы могут отображать разные веб-сайты, а количество веб-сайтов, доступных по URL, превышает количество индексированных в любой базе данных.

Наиболее распространены поисковые системы Google , Bing и Yahoo . Существуют специализированные поисковые системы для медицины , науки , новостей и права, среди прочего. Существует несколько обобщенных поисковых систем. Они адаптируют ваш запрос ко многим поисковым системам. См. § Общие поисковые системы ниже. Эта страница в основном использует Google вместо Bing или Yahoo , но стремится к общности там, где это возможно. Например, в нем описаны группы Google (группы usenet), ученый Google (академические круги), новости Google., и книги Google .

Добросовестный поиск: практическое правило

Ярлыки
  • РГ: GFG
  • РГ: GOOGLECHECK

Если добавление к статье без источника кажется правдоподобным, подумайте о том, чтобы воспользоваться подходящей поисковой системой, чтобы найти надежный источник, прежде чем решать, следует ли возвращаться.

Тесты поисковых систем

В зависимости от предмета и от того, насколько тщательно он используется, проверка поисковой системы может быть очень эффективной и полезной или давать вводящие в заблуждение или бесполезные результаты. В большинстве случаев проверка поисковой системы - это эвристика первого прохода или «практическое правило ».

Что может делать поисковый тест, а чего нет

Поисковая система может индексировать страницы и текст, которые другие разместили в Интернете, точно так же, как большой индекс в конце книги.

Поисковые системы могут:

  • Предоставьте информацию и приведите к страницам, которые помогают в достижении вышеуказанных целей.
  • Подтвердите, «кто и что сказал» согласно источникам (полезно для нейтрального цитирования)
  • Часто предоставлять полные цитируемые копии исходных документов.
  • Примерно подтвердите, насколько популярно выражение. Однако обратите внимание, что поисковые запросы Google могут сообщать о гораздо большем количестве обращений, чем когда-либо будет возвращено пользователю, особенно для точных цитируемых выражений. Например, поиск в Google по запросу «зеленая золотая рыбка» с кавычками в настоящее время первоначально дает около 22 700 результатов, однако при переходе к последней странице результатов поиска возвращенное количество совпадений составляет 370. См. Также здесь, чтобы рассчитать статистическую значимость. . [1]
  • Более конкретный поиск на определенных веб-сайтах или по комбинированным и альтернативным фразам (или исключая определенные слова и фразы, которые в противном случае могли бы запутать результаты).

Поисковые системы не могут:

  • Гарантируйте, что результаты являются надежными или "истинными" (поисковые системы индексируют любой текст, который люди выбирают для размещения в Интернете, истинный или ложный).
  • Гарантируйте, почему что-то упоминается часто, и что это не связано с маркетингом , репостом в виде интернет-мема , спамом или саморекламой, а не с важностью.
  • Гарантируйте, что результаты отражают использование, которое вы имеете в виду, а не другое использование. (Например, поиск по конкретному Джону Смиту может выявить много «Джона Смита», который имел в виду не тот, который имел в виду, многие страницы, содержащие «Джон» и «Смит» по отдельности, а также пропустить все полезные ссылки, проиндексированные под «J». . Smith "или, если термин заключен в кавычки," John Michael Smith "и" Smith, John ")
  • Гарантируйте, что вы не пропустите важные ссылки, выбрав поисковое выражение.
  • Гарантия того, что мало упомянутые или не упомянутые элементы автоматически не имеют значения.
  • Гарантия того, что конкретный результат является оригинальным экземпляром фрагмента текста, а не перепечаткой, выдержкой, цитатой, неправильным цитированием или нарушением авторских прав.

а поисковые системы часто не будут:

  • Предоставлять новейшие углубленные исследования в той же степени, что и журналы и книги, по быстро развивающимся предметам.
  • Будьте нейтральны .

Тест поисковой системы не может помочь вам избежать работы по интерпретации ваших результатов и принятию решения, что они на самом деле показывают. Само по себе появление в указателе обычно ничего не доказывает.

Тесты поисковых систем и политики Википедии

Проверяемость

Тесты поисковых систем могут выдавать вымышленные, предвзятые, ложные или подобные результаты. Перед использованием или цитированием важно определить, получена ли используемая информация из надежных источников . Менее надежные источники могут быть бесполезными или требовать уточнения их статуса и основы, чтобы другие читатели получили нейтральное и информированное представление о том, насколько надежны источники.

Нейтралитет

Google (и другие поисковые системы) не придерживаются нейтральной точки зрения . Википедия делает. Google индексирует самостоятельно созданные страницы и страницы мультимедиа, для которых не действует политика нейтралитета. В Википедии действует обязательная политика нейтралитета, которая применяется ко всем статьям и всей редакционной деятельности, связанной со статьями.

Таким образом, Google не является источником нейтральных названий - только популярных. Нейтралитет является обязательным в Википедии (включая решение о том, что называть), даже если не где-либо еще, и, в частности, нейтралитет важнее популярности.

(См. WP: NPOV § Нейтральность и Проверяемость для получения информации о балансе политик проверяемости и нейтральности, а также WP: NPOV § Обозначение статей о том, как должны быть названы статьи)

Известность

Исходное количество «попаданий» (результатов поиска) - очень грубая мера важности. Некоторые неважные темы имеют много "хитов", некоторые - мало или вообще отсутствуют, по причинам, обсуждаемым далее на этой странице.

Одно только число совпадений может лишь изредка «доказать» что-либо о известности , без дальнейшего обсуждения типа совпадений, того, что искали, как искали и какую интерпретацию давать результаты. С другой стороны, изучение типов возникающих попаданий [ требуется разъяснение ] (или их отсутствия) часто действительно дает полезную информацию, связанную с известностью.

Кроме того, поисковые системы не устраняют неоднозначность и, как правило, соответствуют частичным поискам. (Однако, как описано ниже, вы можете исключить частичные совпадения, процитировав фразу, которую нужно сопоставить): Хотя Мадонна в скалах , безусловно, является энциклопедической и заметной записью, это не икона поп-культуры. Однако из-за совпадения Мадонны как частичного совпадения, а также из-за других упоминаний Мадонны, не связанных с картиной, результаты подсчета результатов поиска в Google или Bing будут непропорциональными по сравнению с любой столь же известной картиной эпохи Возрождения. Чтобы исключить частичное совпадение при поиске фразы в Google, процитируйте фразу, которая должна быть сопоставлена, следующим образом: «Мадонна в скалах» .

Использование поисковых систем

Выражения для поисковых систем (примеры и учебник)

В этом разделе объясняются некоторые поисковые выражения, используемые в веб-поиске Google [2] . Подобные подходы будут работать во многих других поисковых системах и других поисковых системах Google, но всегда читайте их справочные страницы для получения дополнительной информации, поскольку возможности и работа поисковых систем часто различаются. Обратите внимание, что если вы вошли в учетную запись Google при поиске в Google, это может повлиять на результаты, которые вы получаете, на основе вашей истории поиска. [3] Также не забудьте проверить «Языки для отображения результатов (поиска)» в «Настройках поиска». [4] )

Самым полезным инструментом поисковой системы может быть использование кавычек для поиска точного соответствия фразе. Однако в такой поисковой системе, как Google, есть как простой, так и расширенный поиск с дополнительными параметрами поиска. Расширенный поиск упрощает ввод дополнительных параметров, которые могут помочь в поиске. В следующих сворачиваемых разделах приведены основные примеры и помощь по использованию поисковых систем с Википедией.

Специализированные поисковые системы, такие как медицинские бумажные архивы, имеют свою собственную специализированную структуру поиска, которая здесь не рассматривается.

Конкретное использование поисковых систем в Википедии

  • Google Trends может позволить вам найти, какое отображение слова или имени чаще всего ищут, например, это (примечание: спортивная категория) или что-то подобное . Пример "Приливная волна" и "Цунами" , см. Также пример Google Книг ниже.
  • Схема охвата Google Книг ближе к традиционным энциклопедиям, чем к Интернету в целом; если он имеет системную предвзятость, то это сильно отличается от системного предубеждения Google в Интернете. Множественные совпадения с точной фразой в поиске Google Книг убедительно свидетельствуют о реальном использовании фразы или концепции. Вы можете сравнить использование таких терминов, как «Приливная волна» и «Цунами» . Поиск в Google Книгах может найти опубликованные в печати свидетельства важности человека, события или концепции. Его также можно использовать для замены «общеизвестного» факта, не полученного из источников, печатной версией того же факта. [5]
  • Группы Google или другие носители с датами могут помочь установить время и контекст ранних упоминаний слова или фразы. Поиск в группах Google .
  • Новости Google могут помочь оценить, заслуживает ли что-то внимание. Раньше Новости Google были менее подвержены манипуляциям со стороны саморекламы, но с появлением псевдоновостных сайтов, предназначенных для сбора доходов от рекламы или продвижения определенных программ, этот тест часто оказывается не более надежным, чем другие, в областях, представляющих общественный интерес, и индексирует множество «новостных» источников, отражающих определенные точки зрения. Архив новостей насчитывает много лет, но может быть бесплатным только в течение ограниченного периода времени. Результаты новостей часто включают пресс-релизы, которые не являются нейтральными независимыми источниками.
  • Google Scholar предоставляет свидетельства того, сколько раз публикация, документ или автор цитировались или цитировались другими. Лучше всего подходит для научных или академических тем. Может включать магистерские и докторские диссертации, патенты и юридические документы. Поиск Google Scholar .
  • Темы, которые якобы выделяются популярными ссылками, могут иметь проверенный тип ссылки и популярность. Предполагаемая заметная проблема, на которую имеется всего несколько сотен ссылок в Интернете, может быть не очень заметной; действительно популярные интернет-мемы могут иметь миллионы или даже десятки миллионов ссылок. [6] Однако обратите внимание, что в некоторых областях заметная тема может иметь очень мало ссылок; например, можно ожидать лишь нескольких ссылок на некоторые археологические объекты, а некоторые вопросы вообще не будут отражены в Интернете.
  • Темы, которые якобы являются подлинными, могут быть проверены, чтобы проверить, указаны ли на них надежные независимые источники; это хороший тест на мистификации и тому подобное.
  • Нарушения авторских прав с веб-сайтов часто можно выявить (как описано выше).
  • Альтернативные варианты написания и употребления могут быть проверены на их относительную частоту (например, для обсуждения, которое является наиболее распространенным из двух одинаково нейтральных и приемлемых терминов). Google Trends может сравнивать использование в категории «Новости» (например, «Приливная волна» и «Цунами» ), но это может быть ненадежным для более старых новостей. [7]
  • Группы Google ( группы новостей USENET ) существенно отличаются от веб-сайтов и представляют собой, по большей части, разговоры на английском, которые ведут люди на различные темы. Поскольку источники сильно различаются, количество обращений несопоставимо, однако групповой поиск особенно полезен при выявлении вопросов, которые могут быть обсуждены или наличие которых могло быть искусственно раздуто с помощью рекламных методов; подозрительно, если фраза получает, скажем, 100 000 обращений в Интернет, но только 10 обращений к группам.

Интерпретация результатов

Общий

Ярлык
  • WP: ХИТЫ

Никогда не следует полагаться на грубый подсчет попаданий, чтобы доказать известность. Внимание вместо этого следует обратить на то , что (книги, новости, научные статьи и веб - страницы) можно найти, и действительно ли они делают продемонстрировать знаменитость или недостижение, знаменитость в каждом конкретном случае. Подсчет попаданий всегда был и, скорее всего, всегда будет оставаться крайне ошибочным инструментом для измерения известности, и его не следует рассматривать как окончательный или окончательный. Управляемый образец найденных результатов должен быть открыт индивидуально и прочитан, чтобы действительно проверить их актуальность.

В случае Google (и других поисковых систем, таких как Bing и Yahoo!) счетчик посещений вверху страницы ненадежен и обычно не должен сообщаться. Счетчик совпадений на предпоследней (предпоследней) странице результатов может быть немного более точным. Для поисковых запросов с небольшим количеством зарегистрированных совпадений (менее 1000) фактическое количество совпадений, необходимое для достижения нижней части последней страницы результатов, может быть более точным, но даже это не всегда точно. Google возвращает разные результаты поиска в зависимости от таких факторов, как ваша предыдущая история поиска и на какой сервер Google вы случайно попали. [8] [9]

Другие полезные соображения при интерпретации результатов:

  • Объем статьи: если она узкая, требуется меньше ссылок. Попытайтесь классифицировать точку зрения, будь то NPoV или другая; например, обратите внимание на разницу между онтологией и онтологией (информатикой) .
  • Тема статьи: Если речь идет о каком-то историческом человеке, одного-двух упоминаний в достоверных текстах может хватить; если это какой-то интернет- неологизм или популярная песня , она может быть на 700 страницах и все еще может считаться «недостаточно существующей», чтобы показать какую-либо известность для целей Википедии.

Предубеждения, о которых нужно знать

В большинстве случаев результаты поиска следует анализировать с осознанностью и осторожным скептицизмом, прежде чем полагаться на них. Общие предубеждения включают:

Общие предубеждения

Общие (Интернет или люди в целом):

  • Личная предвзятость - тенденция быть более восприимчивой к убеждениям, с которыми вы знакомы, с которыми согласны или распространены в его повседневной культуре, и игнорировать убеждения и взгляды, которые противоречат его предпочтительным взглядам.
  • Культурная предвзятость и предвзятость в отношении использования компьютеров - Смещение в сторону информации из развитых стран и богатых слоев общества, использующих Интернет (доступ в Интернет). В странах, где использование компьютеров не так распространено, часто будет меньше ссылок на столь же примечательный материал, который, следовательно, может показаться (по ошибке) незначительным.
  • Чрезмерный вес - может непропорционально представлять некоторые вопросы, особенно связанные с популярной культурой (некоторым вопросам может быть уделено гораздо больше места, а другим - гораздо меньше, чем справедливо отражает их положение): популярность - это не известность .
  • Источники не всегда доступны - некоторые источники доступны для всех, но многие из них предназначены только для оплаты или о них не сообщается в Интернете.

Общие поисковые системы (Google, поиск Bing и т. Д.):

  • Темная сеть - поисковые системы исключают огромное количество страниц, и это может включать систематическую предвзятость, так что некоторые вопросы исключены непропорционально (например, потому что они обычно видны на сайтах, которые не позволяют индексировать Google, или содержание по техническим причинам не может быть проиндексированы ( Flash- или графические веб-сайты и т. д.)
  • Поисковые системы как инструмент продвижения - существует отрасль, стремящаяся повлиять на позицию, популярность и рейтинги сайта в таких поисковых запросах или продать рекламное пространство, связанное с поисками и позициями в поиске. Некоторые предметы, такие как порнографические актеры , так доминируют эти , что поиски не может быть надежно использованы для создания популярности.
  • Процесс проверки варьируется; некоторые сайты принимают любую информацию, в то время как другие имеют систему обзора или проверки.
  • Самоотражение - иногда другие сайты клонируют контент Википедии, который затем передается в Интернете, и на его основе создается больше страниц (и часто не цитируется), что означает, что в действительности источником большей части результатов поисковой системы являются просто копии собственного предыдущего текста Википедии, а не подлинные источники.
  • Предвзятость популярного использования - популярное использование и городские легенды часто сообщаются из-за их правильности
    • Примеры:
      1. Поиск неправильного Чарльза Виндзора дает в 10 раз больше результатов, чем правильный Чарльз Маунтбеттен-Виндзор .
      2. Поиск наиболее распространенного написания Эль-Ниньо часто приводит к тому, что оно пишется как "Эль-Ниньо" без диакритического знака .
      3. Городские легенды часто ходят повсюду, например, сотни сайтов сообщают, что Конституция США отправилась в плавание в 1779 году, хотя точная дата - 1797 год.
  • Скорее всего, будет больше сообщений о популярных взглядах и мнениях . Например, может быть много ссылок на иглоукалывание и подтверждение того, что люди часто страдают аллергией на мех животных , но только при тщательном исследовании выясняется, что есть медицинские рецензируемые оценки первого, а у людей обычно нет. аллергия на мех, но на липкую кожу и частички слюны ( перхоть ) внутри шерсти.
  • Предвзятость при выборе языка - например, говорящий на арабском языке, ищущий информацию о гомосексуализме на арабском языке, скорее всего, найдет страницы, которые отражают другое предубеждение, чем говорящий на английском языке, выполняющий поиск на английском по той же теме, поскольку популярные и СМИ взгляды и убеждения о гомосексуализме могут сильно различаться. между англоязычными странами (США, Великобритания, Австралия и т. д.), которые, как правило, включают более высокую долю групп, принимающих гомосексуализм, и арабоязычными странами (Ближний Восток), которые, как правило, включают более низкую долю.

Другой:

  • Обратите внимание, что другие поисковые запросы Google, особенно Поиск книг Google , имеют системную предвзятость, отличную от поисковых запросов Google в Интернете, и дают интересную перекрестную проверку и несколько независимую точку зрения.

Рейтинги Alexa

Ярлык
  • РГ: АЛЕКСА

В некоторых случаях полезно оценить относительную популярность веб-сайта. Alexa Internet - инструмент для этого ( Hitwise и Quantcast - другие). Чтобы проверить рейтинг Alexa для определенного веб-сайта, посетите alexa.com и введите URL-адрес.

Система измерения Alexa основана на панели инструментов, которую пользователи должны выбрать для установки, которую можно установить в нескольких браузерах, включая Internet Explorer и Mozilla Firefox, в разных операционных системах. Источники предвзятости включают как веб-сайты, пользователи которых непропорционально часто не устанавливают такие панели инструментов, так и веб-мастера, которые устанавливают панель инструментов Alexa с единственной целью повышения своих рейтингов. В частности, рейтинг Alexa не является частью рекомендаций для веб-сайтов по нескольким причинам:

  • Ниже определенного уровня рейтинги Alexa по сути бессмысленны из-за ограниченного размера выборки. Сама Alexa утверждает, что ранги ниже 100 000 ненадежны. [10]
  • Рейтинги Alexa различаются и включают в себя значительную систематическую погрешность, что означает, что рейтинги часто не отражают популярность, а только популярность среди определенных групп пользователей (см. Раздел « Проблемы Alexa Internet» ). В целом, оценка Alexa основана на измерениях с помощью панели инструментов , установленной пользователем , но это очень изменчивый инструмент, и есть большие части сообщества пользователей Интернета (особенно корпоративные пользователи, многие продвинутые пользователи, многие пользователи с открытым исходным кодом и не-Windows). ), которые не используют его и чьи ссылки в Интернете поэтому игнорируются.
  • Рейтинги Alexa не отражают энциклопедической значимости и наличия надежных исходных материалов, если это так. О веб-сайте с высоким рейтингом вполне может быть ничего не написано о нем, или о веб-сайте с плохим рейтингом вполне может быть написано много об этом.
  • У ряда несомненно известных тем есть веб-сайты с плохим рейтингом Alexa.

Оценки Quantcast

  • Чтобы получить статистику, посетите http://quantcast.com , введите URL-адрес и нажмите «Поиск».
  • Для лиц , которые подписываются на Quantcast службы «s, Quantcast заявляет , что их измерение трафика„проверенный“ . Это может обеспечить лучшую надежность, чем результаты Alexa, поскольку не зависит от установки плагина пользователем.
  • Для организаций, которые не подписываются на «количественную оценку», Quantcast объявляет их измерения трафика «оценочными».
  • Здесь применяются те же положения о надежности и значимости, которые перечислены в § Рейтинги Alexa .

Иностранные языки, нелатинские шрифты и старые имена

Часто для элементов неанглийского происхождения или написания нелатинского алфавита значительно большее количество совпадений является результатом поиска в правильном алфавите или для различных транскрипций - обязательно отметьте " Языки для отображения результатов (поиска) " в " Поиске" Настройки ». [4] Например, арабское имя нужно искать в исходном алфавите, что легко сделать с помощью Google (при условии, что кто-то знает, что искать), но могут возникнуть проблемы, если, например, на английском, французском и немецком языках веб-страницы расшифровывают имя, используя различные соглашения. Даже для веб-страниц только на английском языке может быть много вариантов одного и того же арабского или русского названия. Имена на других языках (русский, англосаксонский) , Возможно , придется искать и в том числе и за исключением отчества , а также поиск имен и других слов , в сильно флективных языках следует учитывать , что прибывающие в общее число посещений может потребоваться поиск для форм с различными случае -endings или других грамматических вариации не очевидны для тех, кто не знает языка. Имена из многих культур традиционно даются вместе с титулами, которые считаются частью имени, но также могут быть опущены (как в « Гази Мустафа Кемаль Паша» ).

Даже в древнеанглийском правописание и рендеринг старых имен могут допускать десятки вариаций для одного и того же человека. Упрощенный поиск одного конкретного варианта может на порядок не соответствовать присутствию в сети.

Подобный поиск требует определенной лингвистической компетенции, которой обладает не каждый отдельный википедист, но сообщество Википедии в целом включает много двуязычных и многоязычных людей, и для номинантов и избирателей в АдГ важно, по крайней мере, осознавать свои собственные ограничения, а не делать неверные предположения, когда языковые или транскрипционные ошибки могут быть фактором.

Проблемы с подсчетом отдельных страниц в Google

Также обратите внимание, что количество совпадений поисковой строки, о которых сообщают поисковые системы, является лишь приблизительным. Например, Google будет вычислять фактическое количество совпадений только после того, как пользователь перейдет по всем страницам результатов до последней, и даже тогда он наложит ограничения на цифру. Иногда оценка количества совпадений может значительно отличаться (на один или несколько порядков ) от общего количества результатов, показанных на последней странице результатов.

Поиск по конкретному сайту может помочь определить, происходит ли большинство совпадений с одного и того же веб-сайта; один веб-сайт может обеспечить сотни тысяч посещений.

Для поисковых запросов, которые возвращают много результатов, Google использует процесс, который исключает результаты, которые «очень похожи» на другие перечисленные результаты, как путем игнорирования страниц с существенно похожим содержанием, так и путем ограничения количества страниц, которые могут быть возвращены из любого заданного домена. Например, поиск по «Taco Bell» выдаст только пару страниц с tacobell.com, хотя многие в этом домене определенно будут соответствовать. Кроме того, список различных результатов Google составляется путем выбора сначала 1000 лучших результатов, а затем удаления дубликатов без замены. Следовательно, список отдельных результатов всегда будет содержать менее 1000 результатов, независимо от того, сколько веб-страниц фактически соответствует условиям поиска. Например, из примерно 742 миллионов страниц, относящихся к "Microsoft", в настоящее время Google возвращает 572 "отчетливые »результаты (на 14 декабря 2010 г.[11] ). Следует проявлять осторожность при оценке относительной важности веб-сайтов, дающих более 1000 результатов поиска.

Ограничения поисковой системы - технические примечания

Ярлык
  • WP: GOOGLELIMITS

Многие, возможно, большинство существующих общедоступных веб-страниц не индексируются. Каждая поисковая система захватывает разный процент от общей суммы. Никто не может точно сказать, какая часть захвачена.

Предполагаемый размер всемирной паутины составляет не менее 11,5 миллиардов страниц [12], но гораздо более глубокая (и большая) сеть , по оценкам, насчитывает более 3 триллионов страниц, и существует в базах данных, содержимое которых поисковые системы не индексируют. Эти динамические веб-страницы форматируются веб-сервером, когда пользователь запрашивает их, и поэтому не могут быть проиндексированы обычными поисковыми системами. Веб-сайт Управления США по патентам и товарным знакам является примером; Хотя поисковая система может найти свою главную страницу, поиск в базе данных отдельных патентов можно выполнить только путем ввода запросов на самом сайте. [13]

Google, как и все поисковые системы в Интернете, может находить только ту информацию, которая действительно была доступна в Интернете. По-прежнему существует значительный объем информации, которой нет в Интернете.

Google, как и все основные службы поиска в Интернете, следует протоколу robots.txt и может быть заблокирован сайтами, которые не хотят, чтобы их контент индексировался или кэшировался Google. Сайты, содержащие большое количество защищенного авторским правом контента (галереи изображений, подписные газеты, веб-комиксы, фильмы, видео, справочные службы), обычно включающие членство, будут блокировать Google и другие поисковые системы. Другие сайты также могут блокировать Google из-за перегрузки или проблем с пропускной способностью сервера, на котором размещен контент.

Поисковые системы также могут быть не в состоянии читать ссылки или метаданные, для которых обычно требуется плагин браузера, Adobe PDF или Macromedia Flash, или если веб-сайт отображается как часть изображения. Поисковые системы также не могут слушать подкасты или другие аудиопотоки или даже видео, в которых упоминается поисковый запрос. Точно так же поисковые системы не могут читать PDF-файлы, состоящие из отсканированных фотографий, или просматривать сжатые (.zip) файлы.

Форумы, сайты только для членства и только по подписке (поскольку робот Googlebot не регистрируется для доступа к сайту) и сайты, циклически повторяющие их содержание, не кэшируются и не индексируются никакими поисковыми системами. По мере того, как все больше сайтов переходят на дизайн AJAX / Web 2.0, это ограничение станет более распространенным, поскольку поисковые системы только имитируют переход по ссылкам на веб-странице. Настройки страницы AJAX (например, Google Maps) динамически возвращают данные на основе манипуляции с Javascript в реальном времени.

Google также стал жертвой эксплойтов перенаправления [ мертвая ссылка ] , из-за которых он может возвращать больше результатов по определенному поисковому запросу, чем существующие страницы с фактическим содержанием.

Google и другие популярные поисковые системы также являются целью для «улучшения результатов поиска» поисковой системы, также известной как оптимизаторы поисковых систем , поэтому также может быть возвращено много результатов, которые ведут на страницу, которая служит только в качестве рекламы. Иногда страницы содержат сотни ключевых слов, разработанных специально для привлечения пользователей поисковых систем на эту страницу, но на самом деле служат рекламой, а не страницей с содержанием, связанным с ключевым словом.

Количество обращений, о котором сообщает Google, является лишь оценкой, которая, как было показано, в некоторых случаях неизбежно отклоняется почти на порядок, особенно для счетчиков обращений, превышающих несколько тысяч. [14] [15] Для таких общих слов, которые приводят к нескольким тысячам запросов в Google, более точные данные можно найти в свободно доступных корпусах текстов, таких как British National Corpus (для британского английского) и Corpus of Contemporary American English (для американского английского) оценка относительных частот двух слов.

Пример ограничений

Сайт Саммита по экономическим преступлениям довольно недружелюбен к Google и Интернет- архивам . Он очень тяжелый с графикой, что дает Google практически ничего, что нужно искать, и многие страницы в версии Internet Archive отсутствуют. Итак, хотя вы можете обратиться к конференции на высшем уровне по борьбе с экономическими преступлениями 2002 года , обзорная ссылка, которая сообщит вам, кто представил, что не работает. Архив экономических преступлений конференции на высшем уровне 2004 еще хуже , как это было в трех местах , и ни один из архивных ссылок не говорит вам что - нибудь о документах , представленных.

Через Интернет-архив у вас есть доказательства того, что некоторая информация о «Влияние достижений компьютерных технологий на обработку доказательств» существовала в Интернете. [16] Однако сегодня Google не может найти эту информацию! Программа, о которой известно, что она является частью Саммита по экономическим преступлениям 2002 года и когда-то была размещена на веб-сайте в Интернете, в настоящее время не может быть найдена Google.

Общие поисковые системы

Ярлык
  • H: CSE

Наиболее распространенными поисковыми системами являются Google, Bing и Yahoo, но наиболее полезные поисковые системы, которые зависят от контекста, могут быть не самыми распространенными.

Группы Google архивируют Usenet . Поскольку он охватывает более двадцати лет, это один из старейших архивов в истории, восходящий к истокам Интернета.

Специализированные поисковые системы

Google Scholar хорошо работает в тех областях, которые ориентированы на бумажные документы и представлены в Интернете во всех (или почти во всех) уважаемых местах. Эта поисковая система является хорошим дополнением к коммерчески доступной сети знаний Thompson ISI Web of Knowledge, особенно в областях, которые недостаточно хорошо освещены в последней, включая книги, доклады конференций, неамериканские журналы, общие журналы в области стратегии и т. Д. менеджмент, международный бизнес, [17] Обучение английскому языку и образовательные технологии. [18] Анализ алгоритма PageRank , используемого Google Scholar, показал, что эта поисковая система, как и ее коммерческие аналоги, предоставляет адекватную информацию о популярности конкретного источника, [19]хотя это автоматически не отражает реального научного вклада конкретной публикации. [19]

MedLine , теперь часть PubMed , является оригинальной поисковой системой с широким охватом , созданной более четырех десятилетий назад и индексирующей даже более ранние статьи. Таким образом, особенно в области биологии и медицины, «связанные статьи» PubMed являются прокси-сервером Google Scholar для старых статей, не представленных в Интернете. Например, журнал Stroke размещает в Интернете статьи 1970-х годов. В этой статье 1978 года [2] Google Scholar перечисляет 100 цитирующих статей , а PubMed перечисляет 89 связанных статей.

Во многих странах существует большое количество юридических библиотек в Интернете, в том числе: Библиотека Конгресса , Библиотека Конгресса (THOMAS) , Верховный суд Индианы , FindLaw (США); Юридическая библиотека и источники Кентского университета (Великобритания).

См. Также этот список поисковых систем .

Обобщенные поисковые системы

Существует несколько обобщенных поисковых систем. Они адаптируют ваш запрос ко многим поисковым системам. Веб-браузеры предлагают выбор поисковых систем для использования в окне поиска, и их можно использовать по одной для экспериментов с результатами поиска. Мета-поисковые системы используют сразу несколько поисковых систем. Десять популярных обзоров с сайта About.com предлагают обзоры. Плагин веб-браузера может добавить поисковую систему или метапоисковую машину в ваш список вариантов.

Смотрите также

  • Википедия: Расширенный поиск источников
  • {{ Найти источники }} , шаблон, разработанный для помощи при поиске в Google Книгах, архиве новостей и Академии.
  • {{ Google }}
  • Мета: зеркальный фильтр , способ отфильтровать сайты из поиска Google для удаления сайтов, которые отражают контент Викимедиа.
  • Википедия: поисковые запросы и числа в Google
  • Википедия: вы не можете исправить Google через Википедию - для устранения ошибок в панелях знаний Google

Рекомендации

  1. ^ Например, если в Google Книгах 16 обращений под одним именем, а 24 - под другим, существует лишь 70% уверенности в том, что второе имя действительно встречается чаще.
  2. ^ Операторы поиска Google и дополнительная справка по поиску
  3. ^ Персонализация истории поиска
  4. ^ a b Настройки поиска Google
  5. ^ Избегайте указания автора: "Букс, ООО", поскольку ООО "публикует" необработанные распечатки статей из Википедии.
  6. ^ Поиск в Google: АЙБ ИЛИ АЙБАБТУ ИЛИ "Вся ваша база"
  7. ^ Google отвечает на вопрос о частоте встречаемости слов в источниках новостей
  8. ^ Такуя, Фунахаши; Хаято, Ямана (2010). «Проверка надежности подсчетов посещений поисковых систем» (PDF) . Материалы 10-й международной конференции «Современные тенденции в веб-инженерии» . Отдел компьютерных наук и инженерии, Университет Васэда . Дата обращения 5 мая 2015 .
  9. Салливан, Дэнни (21 октября 2010 г.). «Почему Google не может правильно подсчитывать результаты» . SearchEngineLand.com . Дата обращения 5 мая 2015 .
  10. ^ [1]
  11. ^ Поиск в Google по запросу "Microsoft"
  12. ^ Гулли, Антонио; Синьорини, Алессио (28 августа 2005 г.). «Индексируемая сеть составляет более 11,5 миллиардов страниц» . Цитировать журнал требует |journal=( помощь )
  13. ^ Еще, Элвин; Мюррей, Брайан Х. (2000). «Калибровка Интернета». Cyveillance. Цитировать журнал требует |journal=( помощь )
  14. ^ Марк Либерман (2009), « Цитаты с кавычками и без », Language Log .
  15. ^ Либерман, Марк (2005), « Ставя под сомнение реальность », Language Log ; и другиесообщения языкового журнала, на которые есть ссылки.
  16. ^ http://web.archive.org/web/20011212161658/http://www.summit.nw3c.org/Programs_Agenda.htm
  17. ^ Харцинг, AWK; ван дер Валь, Р. (2008). Google Scholar как новый источник для анализа цитирования? Этика в науке и экологическая политика , т. 8, вып. 1. С. 62–71.
  18. van Aalst, Jan. (2010) Использование Google Scholar для оценки влияния журнальных статей на образование. Исследователь в области образования 39: 387.
  19. ^ а б Маслов, С .; Реднер, С. (2008). Перспективы и недостатки распространения алгоритма Google PageRank на сети цитирования. Journal of Neuroscience, 28, 11103–11105.

дальнейшее чтение

  • Джо Мерт (30 апреля 2006 г.). "Argumentum ad Googlum" . Наука, антинаука и геология .- Меерт замечает, что «Искушение найти быстрый ответ означает, что во многих случаях люди не утруждают себя тщательной проверкой источника». и что «люди будут искать конкретную фразу, которая может быть вырвана из контекста, чтобы поддержать их аргумент». Он заявляет, что «опасно и безответственно думать, что мы можем уйти от сложной дискуссии в Google», и что он «давно понял, что ничто не может заменить подробное исследование темы».
  • Рич Тернер (29 февраля 2004 г.). "Argumentum ad Googlum; Почему получение миллиона просмотров в Google ничего не доказывает" . Ворчит . Архивировано из оригинала 3 марта 2016 года.- Тернер указывает, что «то, что что-то попадает в Google, это не значит, что это правильно», и приводит несколько примеров неправильных вещей, которые собирают тысячи совпадений в результатах поиска Google.
  • Телуолл, М. (2008). Количественные сравнения результатов поисковых систем, Журнал Американского общества информационных наук и технологий, 59 (11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
  • Телуолл, М. (2008). Извлечение точных и полных результатов из поисковых систем: пример использования Windows Live. Журнал Американского общества информационных наук и технологий, 59 (1), 38–50. http://www.scit.wlv.ac.uk/~cm1993/papers/2007_Accurate_Complete_preprint.doc
  • Gomes, et al. (2000). Обнаружение повторяющихся документов по запросу. http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=1&p=1&f=G&l=50&d=PTXT&S1=661520=PN. / 6615209 и RS = PN / 6615209
  • Телуолл, М. (2008). Количественные сравнения результатов поисковых систем, Журнал Американского общества информационных наук и технологий, 59 (11), 1702–1710. http://www.scit.wlv.ac.uk/~cm1993/papers/SearchEngineComparisons_preprint.doc
  • Наков, Преслав и Херст, Марти (2005). Исследование использования посещений страниц в поисковых системах в качестве прокси для частот n-грамм, Труды последних достижений в обработке естественного языка 2005 http://biotext.berkeley.edu/papers/nakov_ranlp2005.pdf
  • Барони, Марко и Уэяма, Мотоко (2006) Создание корпусов общего и специального назначения путем сканирования веб-страниц, Труды 13-го Международного симпозиума NIJL, языковые корпуса, их компиляция и применение. http://tokuteicorpus.jp./result/pdf/2006_004.pdf