За последние годы Google Webmaster Tools существенно изменился. Изменилось даже название сервиса — Google Search Console. И теперь, когда Google Analytics не предоставляет данные о ключевых словах, приходится больше полагаться на Search Console.
В старом Webmaster Tools отсутствовали, в частности, разделы «Search Analytics» и «Links to Your Site». И хотя мы никогда не будем полностью довольны инструментами Google, все же эти сервисы предоставляют полезную информацию (время от времени) для эффективного SEO продвижения сайта.
Ошибки сканирования сайтов (Crawl Errors)
Одно из изменений, произошедших в последние годы в Search Console — интерфейс ошибок (Crawl Errors). Поисковая консоль включает в себя два главных раздела: Site Errors и URL Errors. Категоризация ошибок таким образом выглядит достаточно наглядно — ведь важно различать ошибки на уровне сайта и ошибки на уровне страницы.
Первые представляются более критичными т.к. влияют на юзабилити сайта в целом. Ошибки URL, с другой стороны, относятся к отдельным страницам, т.е. не требуют столь срочного устранения.
1) Ошибки сайта
В разделе Site Errors показаны общие ошибки веб-сайта за последние 90 дней.
Если вы производили определенную активность за последние 90 дней, это будет выглядеть так:
Если за последние 90 дней у вас не было ошибок, вы увидите следующее:
Ошибки должны проверяться как минимум каждые 90 дней. Регулярные проверки — это лучший вариант.
A) Ошибки DNS
Если у Googlebot возникают сложности с DNS, это значит, что нет возможности установить связь с вашим доменом из-за проблем с маршрутизацией DNS или нерабочего DNS-сервера.
Если возникает серьезная проблема с DNS, ее необходимо сразу же устранить. Бывают и незаметные сложности, которые мешают Google сканировать сайт.
DNS является важным аспектом, т.к. это первое, что открывает доступ к сайту.
Google рекомендует использовать инструмент Fetch as Google. Также можно проконсультироваться насчет возможного наличия проблем у DNS-провайдера. И убедиться в том, что сервер высвечивает код ошибок 404 или 500.
Другие полезные инструменты:
Б) Ошибки сервера
Ошибки сервера чаще всего связаны с тем, что серверу требуется слишком много времени на ответ. Ошибки DNS означают, что Googlebot не может даже обнаружить ваш URL из-за сложностей, связанных с DNS, тогда как серверные ошибки не позволяют загрузить страницу, даже несмотря на то, что Googlebot может подключиться к вашему сайту.
Серверные ошибки, как правило, случаются из-за перегруженности сайта большим объемом трафика. Во избежание этого следует лишний раз проверить, что хостинг-провайдер справляется со внезапным притоком веб-трафика.
Официальная информация Google по устранению ошибок: «Используйте Fetch as Google, чтобы выяснить, может ли Googlebot получить доступ к сайту. Если Fetch as Google возвращает контент домашней страницы без каких-либо проблем, можно предположить, что у Google есть доступ к вашему сайту».
Прежде, чем переходить к устранению серверных ошибок, необходимо установить характер ошибки:
- Истечение времени ожидания (Timeout)
- Усеченные заголовки (Truncated headers)
- Обрыв соединения (Connection reset)
- Усеченный отклик (Truncated response)
- Отказано в соединении (Connection refused)
- Не удалось установить соединение (Connect failed)
- Истечение времени ожидания соединения (Connect timeout)
- Нет отклика (No response)
В) Ошибки доступа к файлу robots.txt
Это значит, что Googlebot не может извлечь ваш файл robots.txt, расположенный по адресу [вашдомен.com]/robots.txt.
Search Console help:
«Файл robots.txt нужен лишь в том случае, если на сайте присутствует определенный контент, который вы бы хотели добавить в индекс поисковых систем. Если хотите, чтобы поисковые системы индексировали весь контент сайта, файл robots.txt не нужен».
Это важный аспект. Для небольших веб-сайтов, которые нечасто обновляются, устранение данной ошибки не требует такой уж безотлагательности. Файл robots.txt более важен для сайтов, которые ежедневно публикуют новый контент.
Если Googlebot не может загрузить ваш robots.txt, Google не будет сканировать сайт, а равно и индексировать новые страницы и изменения. Это может привести к существенным проблемам в продвижении сайта под Google.
Важно проверить конфигурации файла robots.txt и страницы, доступные для сканирования Googlebot. Убедиться, что линия «Disallow: /» отсутствует, за исключением ситуаций, когда по определенным причинам вы не хотите, чтобы сайт появлялся в поисковых результатах.
Лучше вообще обойтись без robots.txt. Если файла robots.txt нет, тогда Google будет сканировать сайт как обычно. Если файл содержит ошибки, Google приостановит сканирование, до тех пор пока ошибки не будут исправлены.
2) Ошибки URL
Ошибки URL влияют только на отдельные страницы сайта, а не на сайт в целом.
Google Search Console выделяет следующие категории ошибок: десктоп, смартфон, простой телефон. Для крупных сайтов этого может быть недостаточно, но для большинства такой подход охватывает все известные проблемы.
Совет: если ошибок слишком много, и вам надоело их исправлять, просто отметьте все как исправленные.
Если вы произвели значительные изменения на сайте в целях устранения ошибок, или же считаете, что многие URL-ошибки уже не повторяются, тогда можно отметить все ошибки как исправленные, и провести повторную проверку через несколько дней.
Через несколько дней информация об ошибках появится вновь, но если вы их действительно устранили, этого не произойдет.
A) Программные ошибки 404 (Soft 404)
Программная ошибка 404 (или т.н. «мягкая ошибка» Soft 404) — это когда страница высвечивает 200 (найдена), вместо 404 (не найдена).
И тот факт, что страница 404 выглядит как 404, еще не значит, что все и на самом деле так.
«Если на странице появляется сообщение «404 Файл не найден», это не означает, что это страница 404. Если на клетке с жирафом висит табличка «собака», это не значит, что в клетке действительно собака», — support.google.com.
Видимый пользователю аспект страницы 404 — это контент. Визуальное сообщение дает возможность понять, что запрашиваемая страница исчезла. Часто владельцы сайтов предлагают пользователям персонализированные страницы или страницы со списками похожих ссылок.
«Обратная сторона» страницы 404 — это видимый для веб-паука код ответа HTTP.
Google рекомендует: «Настроить веб-сайт так, чтобы при запросе несуществующих страниц возвращался код ответа 404 (страница не найдена) или 410 (страница удалена)».
Еще одна ситуация, когда может появиться программная ошибка 404 — страницы 301, перенаправляющие на другие страницы, например, на главную. В справочном пособии Google о последствиях этого сообщается достаточно неопределенно:
«При возвращении кода для несуществующей страницы, отличного от 404 и 410, (или при перенаправлении на другую страницу, например на главную, вместо возвращения кода 404), могут возникнуть дополнительные проблемы».
Когда множество страниц перенаправляется на главную, Google рассматривает эти страницы как soft 404, а не как 301.
Для страниц, которых больше не существует:
- Удостоверьтесь, что при запросе несуществующих страниц возвращается код ответа 404 (страница не найдена) или 410 (страница удалена), а не 200 (успешный запрос).
- Сделайте перенаправление (301) для каждой старой страницы на соответствующую страницу сайта.
- Не перенаправляйте большое количество «мертвых» страниц на главную. Они должны быть 404, или перенаправляться на похожие страницы.
Для рабочих страниц:
- Удостоверьтесь, что существует достаточный объем контента на странице, т.к. небольшой объем может спровоцировать ошибку soft 404.
- Soft 404 — это некий гибрид 404 и обычных страниц, — отсюда и сложности. Проведите проверку на предмет наличия у большей части страниц ошибки soft 404.
Б) 404
Ошибка 404 означает, что Googlebot пытался сканировать страницу, которой нет на сайте. Googlebot находит страницы 404, когда другие сайты или страницы ведут к этим не существующим страницам.
Google сообщает, что «В общем, ошибки 404 не влияют на рейтинг сайта в Google, поэтому их можно смело игнорировать».
Но если это важная страница, игнорировать ошибку 404 нельзя.
Совет Рэнда Фишкина:
«Если страница:
а) Не получает важные ссылки от внешних источников,
а) Посещаемость страницы невысока,
в) И/или у нее нет заметного URL-адреса, на который посетители могут заходить,
Тогда можно оставить страницу как 404».
Если важные страницы высвечиваются как 404:
- Удостоверьтесь, что опубликованная страница из вашей CMS не находится в режиме черновика и не удалена.
- Проверьте, появляется ли эта ошибка на версиях сайта с www или без www, http или https.
Проще говоря, если ваша страница «мертвая», оживите ее. Если вы не хотите делать ее рабочей, сделайте перенаправление 301 на корректную страницу.
Как сделать, чтобы старые 404 не показывались в отчете о сканировании
Если 404 URL не важен, просто игнорируйте его, как советует Google. Но чтобы ошибок не было видно в отчете, придется проделать дополнительную работу. Google показывает только ошибки 404, если ваш сайт или внешний сайт ведут на страницу 404.
Найти ссылки, ведущие на страницу 404, можно так: Crawl Errors > URL Errors.
Затем кликните URL, который хотите исправить
Искомая ссылка быстрее найдется в исходом коде страницы:
Довольно трудоемкий процесс, но если действительно нужно, чтобы старые 404 не присутствовали в отчете, понадобится удалить ссылки с каждой страницы.
В) Отказ в доступе (Access denied)
Отказ в доступе означает, что Googlebot не может сканировать страницу.
Причины:
- Вы требуете от пользователей ввести логин и пароль, чтобы зайти на сайт, и таким образом Googlebot блокируется
- Ваш файл robots.txt блокирует доступ Googlebot к отдельным URL, папкам, или сайту в целом
- Хостинг-провайдер препятствует доступу Googlebot к сайту, или же сервер требует от пользователей аутентификацию через прокси-сервер
Ошибка, сходная с soft и 404. Если блокируемая страница важна и должна индексироваться, тогда требуется незамедлительное вмешательство. Если нет — можно игнорировать подобные ошибки.
Для исправления понадобится устранить элементы, блокирующие доступ Googlebot:
- Уберите вход по логину (логин на странице или всплывающее окно) для страниц, которые нужны для индексации
- Убедитесь, что в файле robots.txt содержатся страницы, которые Googlebot не должен сканировать
- Используйте Fetch as Google, чтобы узнать, как Googlebot сканирует ваш сайт
- Просканируйте сайт с помощью инструмента Screaming Frog
И хотя эти ошибки не так распространены, как 404, сложности по части доступа могут негативно влиять на рейтинг сайта, если важные страницы заблокированы.
Решение некоторых технических вопросов, о которых шла речь в статье, представляется задачей довольно трудоемкой. Никто не хочет искать кажущиеся незначительными ошибки URL, или наоборот впадать в панику при появлении экрана с тысячами ошибок на сайте. Но с опытом и неоднократным повторением действий формируется мышечная память, и пользователь практически автоматически сортирует важные ошибки и те, которые можно игнорировать.