SEO польза и шок от анализа скачков сканирования Googlebot

//SEO польза и шок от анализа скачков сканирования Googlebot

SEO польза и шок от анализа скачков сканирования Googlebot

Владельцы сайтов действительно не знают полной истории о том, кто или что сканирует их сайты, пока они не проанализируют свои журналы сервера. Обозреватель Гленн Гейб делится тематическим исследованием, которое иллюстрирует некоторые идеи, которые можно почерпнуть из анализа файла журнала сервера.

Недавно я начал помогать сайту, на которое негативно повлияло обновление алгоритма 17 мая. Сайт долгое время занимался серфингом в области качества, увеличиваясь с некоторыми качественными обновлениями и иногда снижаясь. Поэтому я начал копаться через анализ обхода и аудит сайта.

Как только я начал анализировать сайт, я заметил несколько странных всплесков на страницах, сканированных в отчете Crawl Stats в Google Search Console (GSC). Например, Google обычно сканирует около 3000 страниц в день, но первые два пика подскочили до почти 20 000. Затем еще два превысили 11 000.

Излишне говорить, что мне было интересно узнать, почему эти спайки произошли. Были ли на сайте технические проблемы с SEO? Был ли внешний фактор, вызывающий всплеск? Или это аномалия Googlebot? Я быстро обратился к моему клиенту о том, что я вижу.

Шипы при сканировании: иногда ожидаются, иногда не

Я спросил своего клиента, внесли ли они какие-либо масштабные изменения, основанные на моих рекомендациях, которые могли вызвать скачок при сканировании. Они еще не были. Помните, я только начал помогать им.

Кроме того, я только что завершил два крупномасштабных обхода сайта и не видел каких-либо странных технических проблем SEO, которые могли бы привести Googlebot к обходу многих дополнительных страниц или ресурсов: сбои в кодировании, которые могут заставить Google выполнять сканирование многих почти дублированные страницы, искаженное разбиение на страницы, фасетная навигация и так далее. Я не нашел ни одной из этих проблем на сайте (по крайней мере, на основе первого набора обходов).

Теперь стоит отметить, что Google может увеличить обход, когда он видит крупномасштабные изменения на сайте — например, миграцию сайта, редизайн или многие URL-адреса, изменяющиеся на сайте. Аналитик Google в отношении веб-мастеров Джон Мюллер объяснил это несколько раз.

Ниже показано, как это выглядит. Это с сайта, на котором я помогал с миграцией https (а не с сайтом, который я рассматриваю в этом сообщении). Обратите внимание на скачок при сканировании сразу после миграции. Это абсолютно нормально:

Но это не то, что произошло в этой ситуации. На сайте еще не было никаких масштабных изменений. После рассмотрения ситуации мое решение было ясным:

ОТКЛЮЧИТЬ ФАЙЛЫ LOG!

Мощность журналов сервера

Файлы журналов содержат необработанные данные о деятельности сайта, включая посещения пользователей и ботов поисковой системы. Используя журналы, вы можете копать в каждом посещении и событии, чтобы узнать, какие страницы и ресурсы просматриваются, возвращаемые коды ответов, источники ссылок, IP-адреса и многое другое. Я очень хотел взглянуть, учитывая шип в ползании.

Если вы никогда не сталкивались с файлами журналов, вы должны знать, что они могут стать довольно большими. Например, не редкость видеть файлы журналов сотнями мегабайт в размере файла (или даже больше для сайтов с большим объемом). Вот один из файлов журналов, с которыми я работал. Это 696 МБ.

Войдите, встретите лягушку

Мой следующий шаг состоял в том, чтобы запустить мое приложение для анализа журналов, Screaming Frog Log Analyzer (SFLA). Большинство из вас знает Screaming Frog Spider, который является потрясающим для обхода сайтов, но некоторые до сих пор не знают, что Дэн Шарп и его команда амфибийных оптимизаторов также создали анализатор журналов убийц.

Я запустил SFLA и импортировал журналы. Мой клиент отправил мне файлы журнала, начиная с нескольких дней до каждого всплеска, через несколько дней после этого. Они сделали это для каждого из всплесков, которые я видел в отчете об ошибках сканирования в Google Search Console (GSC). Теперь пришло время копаться. Я перетащил файлы журнала в SFLA и терпеливо ждал их импорта.

Хьюстон, у нас есть проблема …

При анализе первого набора файлов журналов панель управления в SFLA рассказала интересную историю. Диаграмма кодов ответов показала огромный всплеск в 404-х годах, с которым столкнулся робот Googlebot. Это было проблемой.

Я заметил тысячи событий, ведущих к странным URL-адресам, которые выглядели как загруженные страницы, содержащие видео, а сайт моего клиента не содержал ни одного из этих URL-адресов. Большинство из 404 в течение этого периода времени были связаны с странными URL-адресами.

Но некоторые из этих событий «Googlebot» не выглядели правильно. Подробнее об этом.

Сюжет утолщается: Spoofing

Я всегда предупреждаю людей, прежде чем они врываются в свои файлы журналов, чтобы они могли видеть некоторые тревожные вещи. Помните, что журналы содержат все события на сайте, включая всю активность бота. К сожалению, не редкость видеть, как многие боты просматривают сайт, чтобы получить интеллект … или по более развратным причинам.

Например, вы можете увидеть, как сканеры пытаются узнать больше о вашем сайте (как правило, от конкурентов). Вы также можете увидеть попытки взлома. Например, события из случайных IP-адресов забивают вашу страницу входа в WordPress.

Когда вы сначала обнаружите это, вы можете выглядеть так:

Итак, вот втирание с шипом в 404 году, которое я всплыл из «Googlebot». Я быстро заметил много поддельных событий Googlebot (с нескольких разных IP-адресов). Screaming Frog Log Analyzer имеет отличную функцию «проверить ботов», в которой я в полной мере использовал.

Было интересно узнать, что настоящий робот Googlebot за этот период времени (через отчеты GSC), в то время как поддельные роботы Google также забивали сайт за это время. Но я не мог найти никаких проверенных всплесков робота Googlebot в файлах журналов.

Итак, мы собрали и исследовали некоторые неправильные IP-адреса — и видели, что они НЕ от Google. Мой клиент теперь имеет дело с этими IP-адресами. Это разумная вещь, особенно если вы видите возвращающиеся посещения определенных IP-адресов, спуфирующих робота Googlebot. Мы прошли этот процесс и для второго пика.

Это был отличный пример снятия капюшона и поиска каких-то сумасшедших проблем в вашем двигателе (или с добавлением топлива к вашему двигателю). Вы могли бы либо закрыть капюшон в шоке, чтобы никогда не смотреть снова, или вы могли бы решить проблемы на долгий срок. Подметание проблем под ковриком никогда не является решением.

Будет ли настоящий робот-робот встать?

После анализа первых двух шипов я все еще не видел никаких проверенных проблем робота Googlebot. (Я имею в виду Google, фактически сканирующий сайт, а не разные сканеры, спуфирующие робота Googlebot.) Таким образом, статистика сканирования в GSC была всплесками, но журналы сервера отображали нормальную активность от самого робота Google. Это был поддельный робот Google, который, похоже, вызывал проблему.

Проверьте проверенную активность робота Googlebot и подделанную активность ниже:


Сканирование статистики возвращается в нормальное состояние, затем снова всплывает

Мы регулярно проверяем отчеты об ошибках в GSC для мониторинга ситуации (для реального робота Google). Статистика обхода вернулась к норме на некоторое время, но увеличилась в третий и четвертый раз (как видно на первом снимке экрана, который я рассказал выше). Последний всплеск превысил 11 000 страниц.

Проверка журналов выявила много URL-адресов, которые не существуют на сайте (но не URL-адреса видео ранее). И к ним обращался собственно Googlebot (проверенный). Я был рад видеть, что мы, наконец, поймали некоторые реальные проблемы робота Googlebot (а не только подделанные проблемы робота Googlebot).

Эти URL-адреса выглядят полностью искаженными и иногда содержат сотни символов. Это выглядело как сбой в кодировке, который добавлял больше символов и каталогов к каждому связанному URL. Я отправил информацию моему клиенту, и они отправили информацию своему ведущему разработчику. Первоначально они не знали, где Google найдет эти URL-адреса. Я расскажу об этом далее.

Googlebot и 404s: тонкая ситуация для SEO

Чтобы быть ясным, 404-е не являются проблемой, если страницы должны фактически 404. Джон Мюллер Google объяснил это много раз. 404s полностью естественны в Интернете, и они не влияют на качество для сайта.

Вот видео Джона Мюллера, объясняющее это:

И вот страница от Google о том, как Googlebot может столкнуться с 404s на сайте:

  • Ошибки сканирования: ошибки общего URL-адреса
  • Таким образом, как боты, так и люди могут получить доступ к ссылкам, которые приводят к 404-м, так что это может повлиять на удобство использования и производительность. И, как объяснил Мюллер в видеоролике, «это может сделать немного сложнее». Поэтому вам следует обязательно проверить 404s и убедиться, что они действительно должны вернуть 404. Но просто наличие 404s не означает, что ваш сайт будет танком от ранжирование перспективы, получить удар по следующему крупному обновлению алгоритма и так далее. Это важно знать.

    И чтобы указать очевидное, любая страница, из которой 404s будет удалена из индекса Google. Таким образом, страница не может быть ранжирована для запросов, для которых она была ранжирована. Он ушел, и это движение, по которому он ехал. Так что еще раз, убедитесь, что страницы, которые 404, должны 404.

    Например, представьте себе страницу большого объема, например, ниже 404s (по ошибке). Когда URL-адрес выпадет из индекса, сайт потеряет все рейтинги для этой страницы, включая трафик, показы объявлений и т. Д.

    Google также написал статью о центральном блоге веб-мастера о 404-х годах, и если они могут повредить ваш сайт. Между комментарием Мюллера, док-документами и записью в блоге вы можете быть уверены, что только 404-е не вызовут проблем с качеством. Но опять же, важно убедиться, что зловещие поддельные роботы Google не забивают ваш сервер, чтобы попытаться повлиять на время безотказной работы (и долгосрочный SEO).

    Я спросил своего клиента, видел ли сайт какие-либо проблемы с производительностью, основанные на шипах сканирования, которые мы видели, и было здорово услышать, что они вообще не видели никаких проблем. Сайт работает на очень мощном сервере и даже не бросается в глаза, когда «робот Googlebot» сканирует в обход.

    Как Google нашел эти длинные URL-адреса?

    После анализа всплеска при обходе на эти длинные URL-адреса я мог видеть соединение между сломанными URL-адресами и некоторыми файлами JavaScript. Я считаю, что Google находил URL-адреса (или формируя URL-адреса) на основе кода JavaScript.

    Вы заметите, что Google упоминает о возможности этого в документах поддержки, перечисленных выше. Поэтому, если вы просматриваете URL-адреса Google, которые не отображаются на вашем сайте, Googlebot может найти эти URL-адреса с помощью JavaScript или другого встроенного контента. Это также важно знать.

    Что мы узнали (и не узнали)

    Как я уже говорил, копание в журналах сервера может быть полезным и тревожным. С одной стороны, вы можете выявить проблемы, с которыми сталкивается Googlebot, а затем устранить эти проблемы. С другой стороны, вы можете увидеть зловещие вещи, такие как попытки взлома, подделанные роботы Google, которые сканируют ваш сайт, чтобы получить информацию об интеллекте или другие попытки забить сервер.

    Вот некоторые вещи, которые мы узнали, пройдя это упражнение:

  • Мы могли ясно видеть, как подделанные роботы Google обходят сайт, и многие из них поражают странные 404-е. Мой клиент смог адресовать эти злоумышленники, которые забивали сервер.
  • Мы видели, что реальный робот Googlebot (проверенный) просматривал то, что выглядело искаженным URL (на основе ссылок, найденных через JavaScript). Используя эти данные, мой клиент может разобраться в технических проблемах, которые могут привести к этим длинным, искаженным URL-адресам.
  • Мы не обнаружили всех всплесков робота Googlebot, которые отображались в GSC. Это было странно, и я не уверен, что это проблема с сообщением в конце Google или что-то еще. Но опять же, мы действительно нашли настоящие всплески проверенного робота Googlebot, к которому мы обращались.
  • И, возможно, самое главное, мой клиент мог ясно видеть нижестоящее место в SEO — например, многие подделанные роботы Google, которые сканируют сайт, чтобы получить интеллект, или, возможно, по более зловещим причинам. Но по крайней мере мой клиент знает, что это происходит сейчас (через данные). Теперь они могут составить план борьбы с жуликами-богами, если захотят.
  • Резюме: файлы журнала могут выявлять зловещие проблемы ниже поверхности

    Когда вы нарушаете его, владельцы сайтов действительно не знают полной истории о том, кто или что сканирует их сайты, пока они не проанализируют свои журналы сервера. Google Analytics не предоставит эти данные. Вы должны копаться в ваших журналах на поверхностных ботах, обращаясь к вашему сайту.

    Итак, если вы когда-нибудь найдете шип в обходе, и вам интересно, что происходит, не забывайте о своих журналах! Они могут быть бесценным источником данных, которые могут помочь раскрыть тайны SEO (и, возможно, зловещие проблемы, которые необходимо решить). Не бойтесь вникать, чтобы найти ответы. Просто помните, что вам, возможно, придется подтянуться.

    Leave A Comment

    %d такие блоггеры, как:
    ОСТАВЬТЕ ЗАЯВКУ
    Перешедшим от других SEO-компаний приветственная скидка 40%
    Мы Вам перезвоним и подготовим лучшее предложение.
    1. Позвоним
    2. Проведем аналитику
    3. Разработаем прогноз
    4. Презентуем стратегию
    5. Подпишем договор
    6. Запустим проект
    Хотите купить квартиру?
    Обращайтесь и мы Вам поможем
    • Скорость решения вопроса
    • Ваш финансовый интерес
    • Качественное обслуживание
    • Всесторонняя забота о клиенте
    • Работаем на репутацию
    • Поддержка на всех этапах
    * we never share your e-mail with third parties.
    Do you want more traffic?
    Dignissim enim porta aliquam nisi pellentesque. Pulvinar rhoncus magnis turpis sit odio pid pulvinar mattis integer aliquam!
    • Goblinus globalus fantumo tubus dia montes
    • Scelerisque cursus dignissim lopatico vutario
    • Montes vutario lacus quis preambul den lacus
    • Leftomato denitro oculus softam lorum quis
    • Spiratio dodenus christmas gulleria tix digit
    • Dualo fitemus lacus quis preambul pat turtulis
    • Scelerisque cursus dignissim lopatico vutario
    • Montes vutario lacus quis preambul den lacus
    SUBSCRIBE TO OUR NEWSLETTER AND START INCREASING YOUR PROFITS NOW!
    * we never share your e-mail with third parties.
    ОСТАВЬТЕ ЗАЯВКУ
    6 шагов за 31 день для увеличения ваших продаж
    1. Анализируем спрос и предложение
    2. Выделяем тематические сегменты
    3. Создаем группы объявлений
    4. Следим за отдачей от объявления
    5. Корректируем рекламную кампанию
    6. Предоставляем подробные отчеты
    ОСТАВЬТЕ ЗАЯВКУ
    При заказе сайта магазин на Facebook бесплатно!
    И вы получите самый социальный инструмент для продаж.
    1. Проведем аналитику
    2. Подготовим контент
    3. Добавим продукты
    4. Произведем настройку
    5. Синхронизируем магазины
    6. Вам остается наслаждаться




    PGlmcmFtZSB3aWR0aD0iMTAwJSIgaGVpZ2h0PSIxMDAlIiBzcmM9Imh0dHA6Ly9tYWdhemluc2l0ZS5ydS93cC1jb250ZW50L3VwbG9hZHMvMjAxNy8wOS/QodC+0LfQtNCw0L3QuNC1LdGB0LDQudGC0LAt0LIt0JrQuNGI0LjQvdC10LLQtS3QnNC+0LvQtNC+0LLQsC5tcDQ/YXV0b3BsYXk9MSIgZnJhbWVib3JkZXI9IjAiIGFsbG93ZnVsbHNjcmVlbj48L2lmcmFtZT4=
    ЗАЧЕМ СОЗДАВАТЬ САЙТ
    • Goblinus globalus fantumo tubus dia montes
    • Scelerisque cursus dignissim lopatico vutario
    • Montes vutario lacus quis preambul den lacus
    • Leftomato denitro oculus softam lorum quis
    • Spiratio dodenus christmas gulleria tix digit
    • Dualo fitemus lacus quis preambul pat turtulis
    * we never share your e-mail with third parties.
    Do you want massive traffic?
    Dignissim enim porta aliquam nisi pellentesque. Pulvinar rhoncus magnis turpis sit odio pid pulvinar mattis integer aliquam!