Существует множество заблуждений относительно работы XML-файла sitemap. Это эффективный инструмент, но как и в случае с любым эффективным инструментом, никогда не помешает узнать предысторию и справочную информацию.

Индексация

Пожалуй, главное заблуждение состоит в том, что XML sitemap помогает индексировать страницы. Но Google не индексирует страницы, если его вежливо об этом попросить. Google индексирует страницы:

а) потому что их находит и сканирует;

б) считает их качество достаточно высоким.

Если указать Google на страницу и попросить ее проиндексировать, это ни к чему не приведет.

Размещая XML-файл sitemap в Search Console, вы тем самым подсказываете Google, что страницы в XML sitemap, по вашему мнению, достаточно высокого качества, чтобы их индексировать. Но это всего лишь подсказка, что страница важна…

Последовательность

Одна из самых распространенных ошибок — недостаток последовательности относительно конкретной страницы. Например, если вы блокируете определенную страницу в robots.txt, а затем добавляете ее в XML sitemap, — это ошибка. «Смотри, Google… — говорит sitemap, — есть хорошая страница для индексации». А затем robots.txt ее блокирует….

В общем, не включайте страницу в XML sitemap, чтобы затем установить значение метатега robots как «noindex,follow.»

«noindex» означает: «не индексировать страницу»; “nofollow” — «гиперссылки не прослеживаются с данной страницы». Если хотите, чтобы Google не индексировал страницу, установите значения «noindex,follow.»

В целом, все страницы сайта делятся на две категории, их можно поместить в две корзины:

  1. Справочные страницы (Utility) (нужные пользователям, но не все из них уместны в качестве посадочных страниц).
  2. «Вкусные», высококачественные посадочные страницы.

 

файл sitemap xml

Все, что находится в корзине #1, лучше блокировать в robots.txt или с помощью значений метатега «noindex,follow», и не добавлять в XML sitemap.

Все, что в корзине #2, не нужно блокировать в robots.txt, должно быть в XML sitemap и без «noindex,».

Общее качество сайта

Очевидно, что Google пытается улучшать общее качество сайтов. Рассмотрим это с точки зрения поисковой системы. Допустим, есть хорошая страница с прекрасным контентом, который соответствует всем требованиям — от алгоритма Panda до соцсетей.

Google «понимает», что на каждом сайте есть определенное количество «справочных» страниц, но эти страницы не всегда используются как посадочные в поиске: страницы для обмена контентом с другими, ответ на комментарии, вход в аккаунт, восстановление пароля…

Вот примерная картина того, что вы хотели бы представить Google. Сайт на 1000 страниц…. Из них 475 страниц с прекрасным контентом. Другие можно игнорировать — это справочные страницы. Теперь Google сканирует эти 475 страниц и с помощью своих метрик определяет, что 175 из них уровня «A», 200 — «B+,» и 100 — «B» или «B-.» Это довольно неплохие средние показатели, которые свидетельствуют о том, что пользователя можно отправлять на сайт.

Сравним это с сайтом, у которого 1 000 страниц в XML sitemap. Google рассматривает эти 1 000 страниц, которые вы обозначили как страницы с хорошим контентом, в итоге оказывается, что более половины из них — страницы уровня «D» или «F». И, в целом, сайт никудышний; Google, вероятно, не отправит на него пользователей.

Скрытый контент

Google использует то, что вы помещаете в XML sitemap как подсказку относительно важного на сайте. Но если страница не присутствует в XML sitemap, это еще не значит, что Google ее проигнорирует.

Важно найти страницы, о которых вы могли забыть и которые поисковая система все же проиндексирует, — дабы избежать «средних оценок» от Google. Для этого нужно установить значения метатега «noindex,follow» (или заблокировать страницу в robots.txt). В общем, самые слабые страницы, которые Google индексирует, следует размещать последними.

Noindex vs. robots.txt

Есть разница между использованием метатегов и robots.txt, чтобы не допустить индексацию страницы.

sitemap xml

На этом примере блокируются ненастоящие страницы — а скрипты отслеживания, таким образом ссылочная масса не теряется, у этих страниц нет тега header со ссылками на главное меню и пр.

google xml sitemaps

На страницы типа Contact Us или Privacy Policy, вероятно, ведут несколько страниц сайта — посредством либо главного меню, либо меню футера.

Управление сканированием

robots.txt обычно используют, когда у Googlebot возникают сложности со сканированием, когда на сканирование справочных страниц уходит много времени, — и лишь затем, чтобы обнаружить значения метатега «noindex,follow». Если подобного так много, что Googlebot не может пробраться к важным страницам, тогда стоит заблокировать страницы в robots.txt.

В ряде случаев очистка XML sitemap и блокирование справочных страниц приносит результат:

карта sitemap xml

Если у вас есть ядро страниц, которые регулярно обновляются (блог, новая продукция, страницы категорий продукции) и множество страниц для индексации (отдельные страницы с товаром), но не за счет повторного сканирования и индексации ключевых страниц, тогда вы можете поместить ключевые страницы в XML sitemap. Так вы укажете Google на страницы, которые считаете более важными по сравнению с теми, что заблокированы и которых нет в файле sitemap.

Отладка проблем индексации

google xml sitemaps настройка

Вот где XML sitemap по-настоящему полезен в плане SEO: когда вы предоставляете множество страниц для индексации в Google, и лишь несколько из них фактически индексируются. Search Console не сообщит, какие страницы индексируются, а только общее число индексируемых в каждом XML-файле sitemap.

Допустим, у вас есть e-commerce-площадка и 100,000 страниц с товаром, 5,000 страниц категорий и подкатегорий. XML sitemap содержит 125,000 страниц, и оказывается, что Google индексирует 87,000 из них. Но какие именно 87,000?

Во-первых, страницы категорий и подкатегорий, скорее всего, важные целевые страницы. Создается отдельно category-sitemap.xml и subcategory-sitemap.xml. Вы ожидаете увидеть 100% индексации — если этого нет, добавляете больше контента, наращиваете ссылочную массу на страницы, или и то и другое. Может обнаружиться, что страницы категорий товаров или подкатегорий не индексируются, потому что в них только один товар (или нет вообще) — в таком случае понадобится настроить значение метатега «noindex,follow» и перетянуть их из XML sitemap.

Есть вероятность, что проблема кроется в нескольких из 100,000 страниц с продукцией, но в каких именно?

Составьте гипотезу и разделите страницы с продукцией по нескольким разным XML sitemap, чтобы проверить гипотезу. Их может быть несколько — ничего, если какая-то ссылка дублируется в нескольких файлах sitemap.

Можно начать с трех гипотез:

  1. Не индексируются страницы без изображений/фотографий.
  2. Не индексируются страницы, в уникальных описаниях которых меньше 200 слов.
  3. Не индексируются страницы, на которых нет комментариев/отзывов.

Создайте XML-файл sitemap с существенным количеством страниц, которые бы относились к каждой из трех перечисленных гипотез. Не обязательно помещать все страницы в эти три группы — достаточно примерного объема страниц, чтобы сделать вывод относительно индексации. Можно по 100 страниц в каждую группу.

Цель — с помощью общего процента индексации любого sitemap определить, что именно на страницах препятствует индексации, а что ей способствует.

Как только вы обнаружите проблему, сможете либо изменить контент на странице (ссылки на страницы), либо прекратить индексацию страниц. К примеру, у 20,000 из ваших 100,000 страниц в описании продукции меньше 50 слов. Если это не  высокочастотные ключевые слова, и если это описание производителя, тогда, скорее всего, нет смысла пытаться вручную добавлять дополнительные 200 слов к каждой из 20 тысяч страниц. Также, возможно, стоит установить значение «noindex,follow» для всех страниц, у которых в описании продукции меньше 50 слов. Поскольку Google и так не будет их индексировать, к тому же они понижают рейтинг сайта. Не забудьте удалить их из XML-файла sitemap.

Динамические XML sitemap

Не нужно вручную синхронизировать XML sitemap с метатегами robots на 100,000 страниц. XML-файлы sitemap не обязательно должны быть статическими, более того, не нужно даже расширение .XML, чтобы поместить их в Search Console.

Вместо этого создайте логику обработки правил, которая бы определяла, добавляется ли страница в XML sitemap или нет, используйте ту же логику  на странице, чтобы установить метатег robots как индексируемый или неиндексируемый.

Когда описание продукции из канала производителя обновляется и описание увеличивается с 42 слов до 215, страница на вашем сайте чудесным образом появляется в XML-файле sitemap и к метатегу robots добавляется «index,follow.»

Video sitemap

Как насчет video XML sitemap? Эти файлы остались в далеком 2015; Wistia их уже даже не генерирует. Лучше использовать на веб-странице JSON-LD и макет schema.org/VideoObject.

Итог

  1. Важна последовательность — если страница блокируется в файле robots.txt или метатегом robots «noindex,» лучше исключить ее из XML sitemap.
  2. Используйте XML-файлы sitemap как поисковые инструменты, чтобы найти и устранить проблемы, связанные с индексацией; позволяйте Google индексировать те страницы, которые нужно.
  3. Если у вас большой сайт, используйте динамические XML sitemap — не пытайтесь вручную синхронизировать все это между robots.txt, meta robots и XML sitemap.