Не следует недооценивать силу расширенной фильтрации при анализе данных обхода

//Не следует недооценивать силу расширенной фильтрации при анализе данных обхода

Не следует недооценивать силу расширенной фильтрации при анализе данных обхода

Наш обозреватель разделяет различные способы фильтрации данных обхода для получения информации о действиях.

Помогая клиентам справляться с основными обновлениями алгоритмов, устраняя технические проблемы SEO и многое другое, я часто проверяю крупномасштабные сайты. Это почти всегда требует тщательного обхода сайта. И когда вы пытаетесь использовать gremlins для SEO, которые могут разрушить хаос на сайте, крайне важно нарезать и кубировать данные обхода, чтобы сфокусировать ваш анализ.

При хорошей фильтрации данных вы часто можете создавать типы страниц, разделы или поддомены, которые могут вызывать серьезные проблемы. После всплытия вы можете в значительной степени проанализировать эти области, чтобы лучше понять основные проблемы, а затем решить, что необходимо устранить.

С точки зрения гусениц, я уже рассмотрел два моих фаворита: DeepCrawl и Screaming Frog. Оба являются прекрасными инструментами, и я обычно использую DeepCrawl для обхода предприятия при использовании Screaming Frog для хирургических обходов, которые более сфокусированы. На мой взгляд, комбинация использования DeepCrawl и Screaming Frog — убийца, и я часто говорю, что 1 + 1 = 3 при одновременном использовании обоих инструментов.

Ниже я расскажу о нескольких примерах использования фильтрации в обоих инструментах, чтобы вы могли понять, о чем я говорю. Отфильтровывая данные обхода, вы будете готовы изолировать и направить определенные области сайта для дальнейшего анализа. И после того, как вы начнете это делать, вы никогда не оглядитесь назад. Давайте рок-н-ролл.

Примеры фильтрации в DeepCrawl

Индексируемые страницы

Начнем с базового, но важного фильтра. Проблемы с качеством контента могут быть чрезвычайно проблематичными на нескольких уровнях, и вы определенно хотите удостовериться, что эти проблемы отсутствуют на страницах с индексацией. Когда Google оценивает сайт с точки зрения качества, он учитывает весь ваш сайт. Это включает в себя каждую проиндексированную страницу. Вот видео от Джона Мюллера, объясняющего это.

Итак, поскольку вы сталкиваетесь с проблемами на сайте, отлично фильтровать этот список с помощью индексируемых URL-адресов, чтобы сосредоточить ваш анализ на страницах, которые могут ухудшить качество вашего сайта. И я не говорю, чтобы игнорировать другие URL-адреса, потому что они не индексируются! Вы тоже должны позаботиться о них. Помните, что пользователи взаимодействуют с этими страницами, и вы не хотите, чтобы несчастливые пользователи. Разумно изолировать страницы, которые могут быть проиндексированы при копировании контента и / или других проблем с качеством.

Или, как об исключении конкретных каталогов, а затем сосредоточении внимания на URL-адресах, которые заканчиваются всего двумя или тремя символами (что является фактическим примером URL-адресов, которые я считал проблематичными с точки зрения контента во время конкретного аудита):

Или, как насчет смешивания regex для типа страницы со словом count, чтобы идентифицировать действительно тонкие страницы по типу страницы или каталогу? Вот почему фильтрация настолько мощна (и экономит время).

Вы получите картину. Вы можете включать или исключать любые типы URL или шаблоны, которые вы хотите. И вы можете накладывать фильтры, чтобы отточить отчет. Это потрясающе для фокусировки крупномасштабных обходов.

Канонические проблемы: заголовок ответа

В прошлом году я написал сообщение о том, как проверить X-Robots-Tag, чтобы устранить потенциально опасные директивы роботов (поскольку они могут доставляться через ответ заголовка и быть невидимыми для невооруженного глаза). На крупномасштабных сайтах это может быть чрезвычайно зловещим, так как страницы могут некорректно отображаться, когда они выглядят отлично на поверхности.

Ну, вы также можете установить rel canonical через ответ заголовка. И это может привести к каким-то странным проблемам (что может свести вас с ума, если вы не знаете, как устанавливается rel canonical). И в некоторых ситуациях вы можете получить несколько канонических тегов для одного URL-адреса (один через ответ заголовка и один набор в html). Когда это произойдет, Google может игнорировать все канонические теги, как объяснено в их сообщении в блоге о распространенных ошибках с rel canonical.

Проверяя отчет «Страницы без действительного канонического тега», а затем фильтруя оба URL-адреса rel canonical и rel canonical html URL, вы можете вывести на экран все URL-адреса, у которых есть эта проблема. Затем вы можете вникнуть в свою команду разработчиков, чтобы определить, почему это происходит по коду.

Найдено по URL! Идентификация источника ссылок на ошибки

В ходе крупномасштабного сканирования (например, 404, 500 и других) вы, несомненно, столкнетесь с ошибками сканирования. Простое знание URL-адресов, возвращающих ошибки, часто недостаточно. Вам действительно нужно отслеживать, где эти URL-адреса связаны между собой.

Вы хотите исправить проблемы в масштабе, а не только одноразовые. Для этого отфильтруйте URL-адреса из найденных URL-адресов из любого отчета об ошибках обхода контента (или из отчета, отличного от 200). Затем вы можете использовать регулярное выражение для поверхностных типов страниц и / или каталогов, которые могут сильно ссылаться на страницы, возвращающие ошибки обхода.

Дважды проверьте URL-адреса AMP: все ссылки rel

Использование ускоренных мобильных страниц (AMP)? Чтобы дважды проверить URL-адреса, которые вы ссылаетесь через rel=amphtml в своем html, вы можете проверить отчет «Все ссылки rel» и фильтровать по amphtml. Затем вы можете применить другой фильтр для «URL-адреса», чтобы убедиться, что это действительно URL-адреса amp, на которые вы ссылаетесь. Опять же, это еще один быстрый пример того, как фильтрация может выявить зловещие проблемы, сидящие ниже поверхности.

Загрузить фильтрованный CSV

Я привел несколько примеров выше того, что вы можете сделать с расширенной фильтрацией при анализе данных обхода в DeepCrawl. Но как насчет того, когда вы хотите экспортировать эти данные? Поскольку вы сделали такую ​​отличную фильтрацию работы, вы определенно не хотите потерять отфильтрованные данные при экспорте.

По этой причине у DeepCrawl есть мощный вариант для «Generate Filtered CSV». Используя эту функцию, вы можете легко экспортировать только отфильтрованные данные по сравнению со всей enchilada. Затем вы можете продолжить анализ в Excel или отправить свою команду и / или клиентов. Высокий.

Фильтрация в кричащей лягушке

Для Screaming Frog фильтры не такие надежные, но вы можете фильтровать данные прямо в пользовательском интерфейсе. Многие люди этого не знают, но регулярное выражение поддерживается в окне поиска. Таким образом, вы можете использовать любое из регулярных выражений, которые вы используете в DeepCrawl (или в другом месте), чтобы фильтровать URL-адреса по типу отчета прямо в Screaming Frog.

Например, проверяя коды ответов и хотите быстро проверить эти URL-адреса по каталогам? Затем используйте символы труб для включения определенных типов страниц или каталогов (или шаблонов). Вы увидите изменение отчета в зависимости от регулярного выражения.

И вы можете использовать предварительно отфильтрованные отчеты, а затем слой на своей собственной фильтрации. Например, вы можете проверять страницы с длинными заголовками, а затем фильтровать с помощью регулярного выражения, чтобы начать всплывать определенные типы страниц или шаблоны.

И фильтр применяется ко всем столбцам! Поэтому вы можете использовать регулярное выражение для любого из столбцов, перечисленных в этом конкретном отчете. Например, ниже я начинаю со всех URL-адресов, содержащих канонический URL-адрес, а затем я нахожу URL-адреса, содержащие метку мета-роботов, с помощью «noindex».

Если URL-адрес не индексирован, тогда он не должен содержать канонический URL-адрес (два идут друг против друга). Rel canonical сообщает двигателям, которые являются предпочтительным URL для индексирования, в то время как тег meta robots с помощью noindex сообщает двигателям не индексировать URL. Это бессмысленно. Это просто быстрый пример того, что вы можете сделать с фильтрацией в Screaming Frog. Примечание. Кричащая лягушка имеет отчет о «канонических ошибках», но это быстрый способ фильтровать в пользовательском интерфейсе проблемы с поверхностью.

С точки зрения экспорта вы, к сожалению, не можете экспортировать только отфильтрованные данные. Но вы можете быстро скопировать и вставить отфильтрованные данные в Excel. И кто знает, возможно, умные люди в Screaming Frog построят опцию «экспортные данные».

Сводка: все это в фильтрах

Я трачу много времени на обход сайтов и анализ данных обхода, и я не могу подчеркнуть достаточную мощность фильтрации. И когда вы добавляете поддержку регулярных выражений, вы можете начать нарезку и обработку ваших данных, чтобы выявить потенциальные проблемы. И чем быстрее вы столкнетесь с проблемами на поверхности, тем быстрее вы сможете исправить эти проблемы. Это особенно важно для крупномасштабных сайтов с десятками тысяч, сотен тысяч или даже миллионов страниц. Так что продолжайте … отфильтровывайте.

By | 2017-10-30T10:51:46+00:00 Октябрь 28th, 2017|Categories: SEO|Tags: , |0 Comments

Leave A Comment

%d такие блоггеры, как:
ОСТАВЬТЕ ЗАЯВКУ
Перешедшим от других SEO-компаний приветственная скидка 40%
Мы Вам перезвоним и подготовим лучшее предложение.
  1. Позвоним
  2. Проведем аналитику
  3. Разработаем прогноз
  4. Презентуем стратегию
  5. Подпишем договор
  6. Запустим проект
Хотите купить квартиру?
Обращайтесь и мы Вам поможем
  • Скорость решения вопроса
  • Ваш финансовый интерес
  • Качественное обслуживание
  • Всесторонняя забота о клиенте
  • Работаем на репутацию
  • Поддержка на всех этапах
* we never share your e-mail with third parties.
Do you want more traffic?
Dignissim enim porta aliquam nisi pellentesque. Pulvinar rhoncus magnis turpis sit odio pid pulvinar mattis integer aliquam!
  • Goblinus globalus fantumo tubus dia montes
  • Scelerisque cursus dignissim lopatico vutario
  • Montes vutario lacus quis preambul den lacus
  • Leftomato denitro oculus softam lorum quis
  • Spiratio dodenus christmas gulleria tix digit
  • Dualo fitemus lacus quis preambul pat turtulis
  • Scelerisque cursus dignissim lopatico vutario
  • Montes vutario lacus quis preambul den lacus
SUBSCRIBE TO OUR NEWSLETTER AND START INCREASING YOUR PROFITS NOW!
* we never share your e-mail with third parties.
ОСТАВЬТЕ ЗАЯВКУ
6 шагов за 31 день для увеличения ваших продаж
  1. Анализируем спрос и предложение
  2. Выделяем тематические сегменты
  3. Создаем группы объявлений
  4. Следим за отдачей от объявления
  5. Корректируем рекламную кампанию
  6. Предоставляем подробные отчеты
ОСТАВЬТЕ ЗАЯВКУ
При заказе сайта магазин на Facebook бесплатно!
И вы получите самый социальный инструмент для продаж.
  1. Проведем аналитику
  2. Подготовим контент
  3. Добавим продукты
  4. Произведем настройку
  5. Синхронизируем магазины
  6. Вам остается наслаждаться




PGlmcmFtZSB3aWR0aD0iMTAwJSIgaGVpZ2h0PSIxMDAlIiBzcmM9Imh0dHA6Ly9tYWdhemluc2l0ZS5ydS93cC1jb250ZW50L3VwbG9hZHMvMjAxNy8wOS/QodC+0LfQtNCw0L3QuNC1LdGB0LDQudGC0LAt0LIt0JrQuNGI0LjQvdC10LLQtS3QnNC+0LvQtNC+0LLQsC5tcDQ/YXV0b3BsYXk9MSIgZnJhbWVib3JkZXI9IjAiIGFsbG93ZnVsbHNjcmVlbj48L2lmcmFtZT4=
ЗАЧЕМ СОЗДАВАТЬ САЙТ
  • Goblinus globalus fantumo tubus dia montes
  • Scelerisque cursus dignissim lopatico vutario
  • Montes vutario lacus quis preambul den lacus
  • Leftomato denitro oculus softam lorum quis
  • Spiratio dodenus christmas gulleria tix digit
  • Dualo fitemus lacus quis preambul pat turtulis
* we never share your e-mail with third parties.
Do you want massive traffic?
Dignissim enim porta aliquam nisi pellentesque. Pulvinar rhoncus magnis turpis sit odio pid pulvinar mattis integer aliquam!