Краулинговый бюджет — один из SEO-концептов, который часто остается без внимания. Веб-мастерам по большей части не приходится беспокоиться о данном предмете, но если сайт крупный, тогда оптимизация краулингового бюджета обязательна. Поскольку это помогает увеличить рейтинг сайта и органический трафик.
Как Google определяет краулинговый бюджет для веб-ресурсов? В этой статье описана базовая механика процесса. Краулеры, веб-пауки или боты — все это компьютерные программы, которые в течение продолжительного времени посещают веб-страницы и собирают определенную информацию. Выделяют три типа программ:
- краулеры поисковых систем;
- веб-сервисов;
- хакерские краулеры.
У многих сервисов — SEO-инструментов, туристических сайтов, или площадок для сравнения цен — имеются свои веб-индексы и краулеры.
Краулинговый бюджет — это число посещений сайта, которые совершает бот поисковой системы в единицу времени. Например, в течение месяца Googlebot может сканировать определенный сайт 1,000 раз. Таким образом, 1K — это краулинговый бюджет на месяц. Нет каких-либо универсальных ограничений в том, что касается частоты или количества сканирований сайтов.
Чем важен краулинговый бюджет?
Чем больше краулинговый бюджет и чем лучше менеджмент, тем быстрее Google будет находить важные веб-страницы.
Определение бюджета
В Google Search Console содержатся достаточно общие, но важные данные для этого шага. Зайдите в свой аккаунт Search Console, затем: Crawl -> Crawl Stats.
Здесь вы узнаете, сколько ваших страниц ежедневно сканируются.
На этом скриншоте сообщается, что Google ежедневно сканирует 32 страницы сайта. За месяц: 32*30=960.
Конечно, эти данные могут меняться. Но так вы сможете составить общее представление о том, сколько страниц Google может просканировать за определенный период.
Если нужна более детальная статистика, понадобится проанализировать серверные логи. Месторасположение файлов журналов зависит от конфигурации.
Apache обычно сохраняет их здесь:
- /var/log/httpd/access_log
- /var/log/apache2/access.log
- /var/log/httpd-access.log
Эти файлы сложно читать и анализировать (понадобятся знания регулярных выражений уровня джидая), либо специализированные инструменты.
Как поисковики формируют краулинговый бюджет?
Об этом нет точных сведений. Нельзя с определенностью сказать, как поисковые системы формируют краулинговый бюджет для сайтов. Считается, что Google учитывает два фактора:
- Популярность — более популярные страницы сканируются чаще других
- Запаздывание («staleness» error, или ошибка из-за устаревания данных) — Google не позволяет данным о страницах устаревать.
Судя по всему, термином «популярность» Google заменяет устаревший PageRank.
В 2010 бывший сотрудник Google Мэтт Каттс сказал, что «ориентировочное число страниц, которые мы сканируем, пропорционально вашему PageRank».
Сейчас PageRank уже не предается всеобщей огласке, поэтому можно сказать, что краулинговый бюджет пропорционален количеству обратных ссылок и значимости сайта «в глазах» Google.
Как насчет внутренних ссылок? Возможно ли увеличить скорость сканирования конкретной страницы, если направить на нее больше внутренних ссылок? Чтобы ответить на эти вопросы, мы решили выяснить, есть ли связь между внутренними/внешними ссылками и статистическими данными. Были созданы данные для 11 сайтов и проведено простое сравнение.
С помощью инструмента Website Auditor мы создали проекты для 11 сайтов. Подсчитали количество внутренних ссылок, ведущих на каждую страницу каждого из этих сайтов. Затем с помощью SEO Spyglass проверили проекты для этих же 11 сайтов. В каждом проекте проверили статистику и скопировали анкорные ссылки и несколько внешних ссылок, ведущих на каждую страницу. Затем анализировалась статистика сканирования в журналах веб-сервера, чтобы посмотреть, как часто Googlebot посещает страницы. Все данные в таблице.
Эти данные свидетельствуют о наличии корреляции (0,978) между числом посещений краулера и числом внешних ссылок. В то же время, корреляция между посещениями и внутренними ссылками очень слабая (0,154).
Это говорит о том, что обратные ссылки куда весомее для сайта, чем внутренние ссылки.
Означает ли это, что единственный способ улучшить краулинговый бюджет — привлекать ссылки и публиковать свежий контент? Если говорить в общем о ссылочном профиле сайта, то да. Собирайте ссылки, часто обновляйте контент, и краулинговый бюджет будет расти пропорционально.
Но что касается отдельных страниц… Примеры, которые будут описываться дальше, показывают, что можно попросту тратить краулинговый бюджет, даже не отдавая себе в этом отчет.
Но при хорошем менеджменте можно удвоить количество сканирований отдельных страниц — однако краулинговый бюджет все еще будет пропорционален количеству обратных ссылок каждой страницы.
1. Важные страницы должны быть доступны, менее важные — заблокированы
Файлы .htaccess и robots.txt не должны блокировать важные страницы сайта. У ботов должен быть доступ к файлам CSS и Javascript. Вместе с тем, стоит блокировать контент, который в поисковой выдаче не нужен. В первую очередь, это дублирующий контент, страницы, которые подвергаются редизайну, динамически генерируемые URL и прочее.
- Запустите Website Auditor (инструмент для создания и управления robots.txt.), скачать его можно на сайте разработчика.
- Перейдите к вкладке Pages. Кликнув по иконке Robots.txt, вы увидите содержимое файла robots.txt.
- Чтобы добавить новое правило в robots.txt, кликните Add rule. Вы можете выбрать инструкцию (Disallow или Allow), краулер (впишите его название или выберите из списка распространенных поисковых ботов), URL или директорию, которую вы также хотели бы заблокировать.
- Существующие правила можно удалять или редактировать.
- Завершив редактирование, кликните Next. Сохраните файл на жестком диске или загрузите его на сайт через FTP.
В модуле Pages можно узнать статистику, относящуюся к краулеру. Кэш Google, Bing и Yahoo, инструкции robots.txt и код состояния HTTP.
Стоит учитывать, что поисковые пауки не всегда следуют инструкциям в файле robots.txt.
И хотя страница блокируется в robots.txt, Google об этом знает. Она не кэшируется, для нее не создается стандартный сниппет.
Вот, что об этом предмете говорит Google:
Директива Disallow файла robots.txt не гарантирует отсутствия страницы в результатах поиска. Поисковая система все равно может просканировать ее с учетом релевантной сторонней информации, такой как входящие ссылки. Если вы хотите строго запретить индексирование страницы, используйте метатег robots со значением noindex или HTTP-заголовок X-Robots-Tag. В этом случае не следует блокировать доступ к странице в файле robots.txt, поскольку робот Google должен просканировать ее, чтобы обнаружить тег и выполнить директиву.
Если вы устанавливаете директиву disallow для больших файлов, блокируя папки, Googlebot может посчитать, что это сделано по ошибке и продолжить сканирование ограниченных зон.
2. Избегайте длинных цепочек переадресации
Если имеет место неоправданно большое количество редиректов 301 и 302, краулеры на каком-то этапе могут остановиться и нужная страница не будет сканироваться. Более того, каждый перенаправленный URL — это потеря элемента из краулингового бюджета. Проверьте, нет ли последовательных двух, трех редиректов, а также убедитесь, что они по-настоящему нужны.
Полный список редиректов можно найти в WebSite Auditor.
- Откройте свой проект и перейдите к модулю Site Audit.
- Кликните по Pages with 302 redirect и Pages with 301 .
- Кликните Pages with long redirect chains, чтобы получить список URL с более чем двумя последовательными редиректами.
3. Управление параметрами URL
Популярные системы управления контентом генерируют множество динамических URL, некоторые из которых могут вести на одну и ту же страницу. По умолчанию поисковые боты обрабатывают эти URL как отдельные страницы; в результате весь краулинговый бюджет может быть исчерпан, также может появиться дублирующийся контент. Если движок веб-сайта или CMS добавляет параметры URL, которые не влияют на контент страниц, удостоверьтесь, что Googlebot об этом знает. Добавьте эти параметры в своем аккаунте Google Search Console (Сканирование-> Параметры URL).
4. Поиск и устранение ошибок HTTP
Любой URL, который Google сканирует, в т.ч. CSS и JavaScript, приходится на один из элементов краулингового бюджета. Незачем тратить бюджет на страницы 404 или 503, не так ли? Проверьте наличие недоступных ссылок или серверных ошибок, исправьте их как можно скорее.
- В проекте Website Auditor перейдите: Site Structure > Site Audit.
- Кликните Broken links. На панели справа есть список недоступных ссылок на сайте, которые нужно исправить.
- Затем кликните Resources with 4xx status code и Resources with 5xx status code, чтобы узнать список ресурсов, которые возвращают ошибки HTTP.
5. Использование RSS
Паук Google достаточно регулярно посещает RSS-каналы. Если определенные разделы на вашем сайте обновляются часто (блог, страницы с рекомендуемыми товарами, раздел новой продукции) — не забудьте создать для всего этого RSS-канал и добавить в Google Feed Burner.
6. Обновляйте sitemap
XML-файлы sitemap играют важную роль в сканировании сайта. Эти файлы сообщают поисковым системам, как организован контент, и позволяют ботам находить новый контент быстрее.
XML sitemap следует регулярно обновлять и освобождать от мусора (неканонические страницы, URL, которые перенаправляют на другие страницы, и блокирующиеся страницы).
Список таких URL выдаст инструмент Website Auditor.
- В проекте WebSite Auditor перейдите к модулю Site Audit
- Кликните Pages with 4xx status code, чтобы получить список страниц 4xx, если они есть. Скопируйте URL в отдельный файл (подойдет любая таблица или текстовый редактор).
- Кликните Pages with 301 redirect, после чего появится список страниц 301. Скопируйте их также.
- Повторите то же с Pages with 302 redirect.
- Кликните Pages with rel=’canonical’, чтобы получить список канонических и неканонических страниц. Добавьте эти URL в список.
В Website Auditor также присутствует удобный генератор XML sitemap. Кликните Sitemap, чтобы создать XML.
Если у вас большой сайт со множеством разделов, не будет лишним создать отдельный sitemap для каждого из них, что позволит быстро находить разделы сайта с ошибками сканирования. К примеру, у вас может быть sitemap для доски обсуждений, еще один sitemap для блога и еще для основных страниц сайта. Для e-commerce-площадок уместно создавать отдельные sitemap для больших товарных категорий.
Проверьте, что все файлы sitemap доступны краулерам. Вы можете добавить ссылки на файлы sitemap в robots.txt и зарегистрировать их в Search Console.
7. Структура сайта и внутренние ссылки
И хотя нет прямой связи между внутренними ссылками и вашим бюджетом, структура сайта все еще остается важным фактором, который позволяет сделать контент доступным поисковым ботам.
У древовидной структуры сайта множество преимуществ, в частности, UX.
Есть хороший ориентир: держать важные разделы сайта на расстоянии не более 3 кликов от любой страницы. Добавьте важные страницы и категории в меню сайта или футер.
Как можно видеть, SEO — это не только «ценный контент» и «ссылки из авторитетных источников». Вы сделали яркий фасад сайта, теперь не будет лишним спуститься в подвал, поохотиться на пауков, и так улучшить позиции в выдаче.