Эта статья написана как руководство или путеводитель . ( Март 2021 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
Протокол Sitemaps позволяет веб-мастеру информировать поисковые системы об URL-адресах веб-сайта, доступных для сканирования. Карта сайта - это XML- файл, в котором перечислены URL-адреса сайта. Это позволяет веб-мастерам включать дополнительную информацию о каждом URL-адресе: когда он последний раз обновлялся, как часто он меняется и насколько он важен по отношению к другим URL-адресам сайта. Это позволяет поисковым системам более эффективно сканировать сайт и находить URL-адреса, которые могут быть изолированы от остального содержимого сайта. Протокол Sitemaps является протоколом включения URL и дополняет robots.txt
протокол исключения URL.
История [ править ]
Google впервые представил Sitemaps 0.84 в июне 2005 года, чтобы веб-разработчики могли публиковать списки ссылок со своих сайтов. Google, Yahoo! и Microsoft объявили о совместной поддержке протокола Sitemaps в ноябре 2006 года. Версия схемы была изменена на «Sitemap 0.90», но никаких других изменений внесено не было.
В апреле 2007 года Ask.com и IBM объявили о поддержке файлов Sitemap. Также Google, Yahoo, MSN объявили об автоматическом обнаружении файлов Sitemap через robots.txt
. В мае 2007 года правительства штатов Аризона, Калифорния, Юта и Вирджиния объявили, что они будут использовать карты сайта на своих веб-сайтах.
Протокол Sitemaps основан на идеях [1] из «Веб-серверов, удобных для сканирования» [2] с улучшениями, включая автоматическое обнаружение robots.txt
и возможность указывать приоритет и частоту изменения страниц.
Цель [ править ]
В этом разделе не процитировать любые источники . ( Апрель 2020 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) |
Файлы Sitemap особенно полезны для веб-сайтов, на которых:
- Некоторые области веб-сайта недоступны через удобный для просмотра интерфейс.
- Веб-мастера используют богатый контент Ajax , Silverlight или Flash, который обычно не обрабатывается поисковыми системами .
- Сайт очень большой, и у поисковых роботов есть шанс пропустить часть нового или недавно обновленного контента.
- Когда на веб-сайтах есть огромное количество страниц, которые изолированы или плохо связаны друг с другом, или
- Когда на веб-сайте мало внешних ссылок
Формат файла [ править ]
Формат протокола Sitemap состоит из тегов XML. Сам файл должен быть в кодировке UTF-8 . Файлы Sitemap также могут быть просто текстовым списком URL-адресов. Их также можно сжать в формате .gz.
Ниже показан образец файла Sitemap, который содержит только один URL и использует все необязательные теги.
<? xml version = "1.0" encoding = "utf-8"?> <urlset xmlns = "http://www.sitemaps.org/schemas/sitemap/0.9" xmlns: xsi = "http: //www.w3 .org / 2001 / XMLSchema-instance " xsi: schemaLocation = " http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd " > <url> <LOC> http://example.com/ </ LOC> <LastMod> 2006-11-18 </ LastMod> <ChangeFreq> ежедневно </ ChangeFreq> <приоритет> 0,8 </ приоритет> </ url> </urlset>
Протокол Sitemap XML также расширен, чтобы обеспечить способ перечисления нескольких файлов Sitemap в файле «индекса Sitemap». Максимальный размер файла Sitemap в 50 МБ или 50 000 URL-адресов [3] означает, что это необходимо для крупных сайтов.
Ниже приводится пример индекса Sitemap со ссылкой на одну отдельную карту сайта.
<? xml version = "1.0" encoding = "UTF-8"?> <sitemapindex xmlns = "http://www.sitemaps.org/schemas/sitemap/0.9" > <sitemap> <loc> http: // www .example.com / sitemap1.xml.gz </loc> <lastmod> 2014-10-01T18: 23: 17 + 00: 00 </lastmod> </sitemap> </sitemapindex>
Определения элементов [ править ]
Определения элементов показаны ниже: [3]
Элемент | Необходимый? | Описание |
---|---|---|
<urlset> | да | Элемент уровня документа для Sitemap. Остальная часть документа после элемента «<? Xml version>» должна содержаться в этом. |
<url> | да | Родительский элемент для каждой записи. |
<sitemapindex> | да | Элемент уровня документа для индекса Sitemap. Остальная часть документа после элемента «<? Xml version>» должна содержаться в этом. |
<sitemap> | да | Родительский элемент для каждой записи в индексе. |
<loc> | да | Предоставляет полный URL-адрес страницы или карты сайта, включая протокол (например, http, https) и косую черту в конце, если этого требует хост-сервер сайта. Это значение должно быть короче 2048 символов. Обратите внимание, что амперсанды в URL-адресе должны быть экранированы как & . |
<lastmod> | Нет | Дата последнего изменения файла в формате ISO 8601 . Это может отображать полную дату и время или, при желании, может быть просто датой в формате ГГГГ-ММ-ДД. |
<changefreq> | Нет | Как часто страница может меняться:
«Всегда» используется для обозначения документов, которые меняются каждый раз при доступе к ним. «Никогда» используется для обозначения заархивированных URL-адресов (т. Е. Файлов, которые больше не будут изменены). Это используется только в качестве руководства для поисковых роботов и не используется для определения того, как часто страницы индексируются. Не относится к |
<priority> | Нет | Приоритет этого URL-адреса по отношению к другим URL-адресам на сайте. Это позволяет веб-мастерам предлагать сканерам, какие страницы считаются более важными. Допустимый диапазон от 0,0 до 1,0, причем 1,0 является наиболее важным. Значение по умолчанию - 0,5. Рейтинг всех страниц сайта с высоким приоритетом не влияет на результаты поиска, так как он используется только для того, чтобы сообщить сканерам, насколько важны страницы сайта друг для друга. Не относится к |
Поддержка элементов, которые не требуются, может варьироваться от одной поисковой системы к другой. [3]
Другие форматы [ править ]
Текстовый файл [ править ]
Протокол Sitemaps позволяет Sitemap быть простым списком URL-адресов в текстовом файле. Спецификации файлов XML-файлов Sitemap также применимы к текстовым Sitemap; файл должен иметь кодировку UTF-8, иметь размер не более 50 МБ (без сжатия) или содержать более 50 000 URL-адресов. Карты сайта, которые превышают эти ограничения, следует разбить на несколько карт сайта с файлом индекса карты сайта (файл, который указывает на несколько карт сайта). [4]
Канал синдикации [ править ]
Канал синдикации - это разрешенный метод отправки URL-адресов поисковым роботам; это рекомендуется в основном для сайтов, на которых уже есть каналы синдикации. Один заявленный недостаток заключается в том, что этот метод может предоставлять сканерам только недавно созданные URL-адреса, но другие URL-адреса все еще могут быть обнаружены во время обычного сканирования. [3]
Может быть полезно иметь фид синдикации в виде дельта-обновления (содержащего только новейшее содержание) в дополнение к полной карте сайта.
Представление поисковой системы [ править ]
Если файлы Sitemap отправляются непосредственно в поисковую систему ( проверяются ), она возвращает информацию о статусе и любых ошибках обработки. Детали, связанные с отправкой, зависят от разных поисковых систем. Местоположение карты сайта также можно включить в robots.txt
файл, добавив следующую строку:
Sitemap: <sitemap_location>
Это <sitemap_location>
должен быть полный URL-адрес карты сайта, например:
https://www.example.org/sitemap.xml
Эта директива не зависит от строки пользовательского агента, поэтому не имеет значения, где она находится в файле. Если на веб-сайте есть несколько карт сайта, могут быть включены несколько записей Sitemap: robots.txt
или URL может просто указывать на основной файл индекса карты сайта.
В следующей таблице перечислены URL-адреса отправки карты сайта для нескольких основных поисковых систем:
Поисковый движок | URL для отправки | Страница помощи | Рынок |
---|---|---|---|
Baidu | https://zhanzhang.baidu.com/dashboard/index | Панель управления веб-мастером Baidu | Китай, Сингапур |
Bing (и Yahoo! ) | https://www.bing.com/webmaster/ping.aspx?siteMap= | Инструменты Bing для веб-мастеров | Глобальный |
https://www.google.com/webmasters/tools/ping?sitemap= | Отправка файла Sitemap | Глобальный | |
Яндекс | https://webmaster.yandex.com/site/map.xml | Файлы Sitemap | Россия, Украина, Беларусь, Казахстан, Турция |
URL-адреса файлов Sitemap, отправленные с использованием URL-адресов для отправки файлов Sitemap, должны быть закодированы в URL-адресе , например: замена :
(двоеточие) на %3A
, /
(косая черта) на %2F
. [3]
Ограничения для индексации поисковой системой [ править ]
Карты сайта дополняют, а не заменяют существующие механизмы на основе сканирования, которые поисковые системы уже используют для обнаружения URL-адресов. Использование этого протокола не гарантирует, что веб-страницы будут включены в поисковые индексы, и не влияет на способ ранжирования страниц в результатах поиска. Ниже приведены конкретные примеры.
- Google - Поддержка веб-мастеров по файлам Sitemap: «Использование карты сайта не гарантирует, что все элементы в вашей карте сайта будут просканированы и проиндексированы, поскольку процессы Google полагаются на сложные алгоритмы для планирования сканирования. Однако в большинстве случаев ваш сайт выиграет от имея карту сайта, и вы никогда не будете наказаны за ее наличие ". [5]
- Bing - Bing использует стандартный протокол sitemaps.org и очень похож на протокол, упомянутый ниже.
- Yahoo - после того, как Yahoo! Inc. и Microsoft, Yahoo! Site Explorer объединен с Bing Webmaster Tools
Ограничения для файлов Sitemap [ править ]
Файлы Sitemap имеют ограничение в 50 000 URL-адресов и 50 МБ на карту сайта. Файлы Sitemap можно сжать с помощью gzip , что снизит потребление полосы пропускания. Поддерживаются несколько файлов Sitemap, при этом файл индекса Sitemap служит точкой входа. Файлы индекса Sitemap не могут содержать более 50 000 файлов Sitemap и должны иметь размер не более 50 МБ (52 428 800 байт) и могут быть сжаты. У вас может быть несколько файлов индекса Sitemap. [3]
Как и во всех файлах XML, любые значения данных (включая URL-адреса) должны использовать управляющие коды сущностей для символов амперсанд (&), одинарные кавычки ('), двойные кавычки ("), меньше (<) и больше (>). .
Лучшая практика для оптимизации индекса карты сайта для возможности сканирования поисковой системой - убедиться, что индекс ссылается только на карты сайта, а не на другие индексы карты сайта. Согласно Google, вложение индекса карты сайта в индекс карты сайта недопустимо. [6]
Дополнительные типы файлов Sitemap [ править ]
Google поддерживает ряд дополнительных типов XML-файлов Sitemap, выходящих за рамки протокола Sitemaps, что позволяет веб-мастерам предоставлять дополнительные данные о содержании своих веб-сайтов. Карты сайта для видео и изображений предназначены для повышения рейтинга веб-сайтов в поиске изображений и видео. [7] [8]
Карты сайта для видео [ править ]
Карты сайта для видео содержат данные, относящиеся к встраиванию и автоматическому воспроизведению, предпочтительные эскизы для отображения в результатах поиска, дату публикации, продолжительность видео и другие метаданные. [8] Карты сайта для видео также используются, чтобы позволить поисковым системам индексировать видео, встроенные на веб-сайт, но размещенные на внешнем сервере, например на Vimeo или YouTube .
Карты сайта для изображений [ править ]
Карты сайта изображений используются для указания метаданных изображения, таких как информация о лицензировании, географическое положение и подпись к изображению. [7]
Файлы Sitemap для Новостей Google [ править ]
Google поддерживает тип карты сайта Google Новостей для облегчения быстрого индексирования важных новостных тем. [9] [10]
Многоязычные и многонациональные карты сайта [ править ]
В декабре 2011 года Google объявил аннотации для сайтов, которые хотят нацелить на пользователей многих языков и, при желании, стран. Несколько месяцев спустя Google объявил в своем официальном блоге [11], что они добавляют поддержку для указания аннотаций rel = "alternate" и hreflang в файлах Sitemap. Вместо (до тех пор единственного) элементов ссылки HTML опция Sitemaps предлагала множество преимуществ, включая меньший размер страницы и более простое развертывание для некоторых веб-сайтов.
Вот один пример многоязычной карты сайта:
Если, например, у нас есть сайт, ориентированный на англоязычных пользователей http://www.example.com/en
и пользователей греческого языка http://www.example.com/gr
, до тех пор единственным вариантом было добавить аннотацию hreflang либо в HTTP-заголовок, либо в виде HTML-элементов на обоих URL-адресах, подобных этому.
<link rel = "alternate" hreflang = "en" href = "https://www.example.com/en" /> <link rel = "alternate" hreflang = "gr" href = "https: // www. example.com/gr " />
Но теперь в качестве альтернативы можно использовать следующую эквивалентную разметку в файлах Sitemap:
<url> <loc> https://www.example.com/en </loc> <xhtml: ссылка rel = "альтернативный" hreflang = "gr" href = "https://www.example.com/gr" /> <xhtml: ссылка rel = "альтернативный" hreflang = "ru" href = "https://www.example.com/en" /> </url> <url> <loc> https://www.example.com/gr </loc> <xhtml: ссылка rel = "альтернативный" hreflang = "gr" href = "https://www.example.com/gr" /> <xhtml: ссылка rel = "альтернативный" hreflang = "ru" href = "https://www.example.com/en" /> </url>
См. Также [ править ]
- Карта биосайт
- Метаданные
- Ресурсы ресурса
- Yahoo! Site Explorer
- Инструменты Google для веб-мастеров
Ссылки [ править ]
- ^ ML Нельсон; Дж. А. Смит; дель Кампо; Х. Ван де Сомпель; X. Лю (2006). «Эффективный автоматизированный сбор веб-ресурсов» (PDF) . WIDM'06 .
- ^ О. Brandman, Дж чо, Гарсия-Молина и Нарейенен Шивакумар (2000). «Веб-серверы, удобные для сканирования». Труды ACM SIGMETRICS Performance Evaluation Review, том 28, выпуск 2 . DOI : 10.1145 / 362883.362894 .CS1 maint: несколько имен: список авторов ( ссылка )
- ^ a b c d e f "XML-формат файлов Sitemap" . Sitemaps.org. 2016-11-21 . Проверено 1 декабря 2016 .
- ^ «Создайте и отправьте карту сайта - Справка Search Console» . Support.google.com . Проверено 30 ноября 2020 .
- ^ "О Google Sitemaps" . 2016-12-01 . Проверено 1 декабря 2016 .
- ^ "Отчет о файлах Sitemap - Справка Search Console" . support.google.com . Проверено 15 апреля 2020 .
- ^ a b «Файлы Sitemap для изображений» . Консоль поиска Google . Проверено 28 декабря 2018 .
- ^ a b «Файлы Sitemap для видео» . Консоль поиска Google . Проверено 28 декабря 2018 .
- ^ Bigby, Garenne. «Почему вам следует использовать карту сайта для Новостей Google» . Dyno Mapper . Проверено 28 декабря 2018 .
- ^ "Файлы Sitemap для Новостей Google" . Консоль поиска Google . Проверено 28 декабря 2018 .
- ^ «Аннотации многоязычных и многонациональных сайтов в файлах Sitemap» . Центральный блог Google для веб-мастеров . Пьер Фар. 24 мая 2012 г.
Внешние ссылки [ править ]
- Официальный веб-сайт
- «Основные поисковые системы объединяются для поддержки общего механизма представления веб-сайтов» . 16 ноября 2006 г.
- Группы новостей Google
- Карты сайта (в архиве)
- Справка для веб-мастеров - Карта сайта