Конечный путеводитель по бот-пастбищу и спорам паука — Часть вторая — MagazinSite

//Конечный путеводитель по бот-пастбищу и спорам паука — Часть вторая — MagazinSite

Конечный путеводитель по бот-пастбищу и спорам паука — Часть вторая — MagazinSite

Далее в серии по ботам и почему бюджеты сканирования важны, обозреватель Стефан Спенсер объясняет, как направить ботовую машину на то, что важно на вашем сайте, и как избежать общих проблем с кодированием.

В первой части нашей серии из трех частей мы узнали, что такое боты и почему бюджеты обхода важны. Давайте посмотрим, как сообщить поисковым системам, что важно, и некоторые общие проблемы с кодированием.

Как сообщить поисковым системам, что важно

Когда бот сканирует ваш сайт, есть несколько подсказок, которые направляют его через ваши файлы.

Как и люди, боты следуют ссылкам, чтобы получить представление информации на вашем сайте. Но они также просматривают ваш код и каталоги для определенных файлов, тегов и элементов. Давайте посмотрим на ряд этих элементов.

Robots.txt

Первое, что бот будет искать на вашем сайте, это ваш файл robots.txt.

Для сложных сайтов необходим файл robots.txt. Для небольших сайтов с только несколькими страницами файл robots.txt может не понадобиться — без него поисковые роботы будут просто сканировать все на вашем сайте.

Существует два основных способа управления ботами с помощью файла robots.txt.

1. Во-первых, вы можете использовать директиву «запретить». Это даст указание ботам игнорировать определенные единые локаторы ресурсов (URL), файлы, расширения файлов или даже целые разделы вашего сайта:

Пользовательский агент: Googlebot
Disallow: / example /

Несмотря на то, что директива disallow перестанет сканировать отдельные части вашего сайта (поэтому экономия на бюджете обхода), это не обязательно приведет к индексированию страниц страниц и их появлению в результатах поиска, например, здесь:

Загадочная и бесполезная информация «нет информации для этой страницы» не является тем, что вы хотите увидеть в своих списках поиска.

Приведенный выше пример возник из-за этой директивы disallow в census.gov/robots.txt:

Пользовательский агент: Googlebot
Задержка сканирования: 3
Disallow: / cgi-bin /

2. Другой способ — использовать директиву noindex. Никакая ссылка на определенную страницу или файл не остановит ее при сканировании, однако она не позволит ее индексировать (или удалить ее из индекса). Эта директива robots.txt неофициально поддерживается Google и не поддерживается вообще Bing (так что не забудьте иметь Пользовательский агент: * набор запретов для Bingbot и других ботов, кроме робота Google):

Пользовательский агент: Googlebot
Noindex: / example /
Пользовательский агент: *
Disallow: / example /

Очевидно, что, поскольку эти страницы по-прежнему сканируются, они все равно будут использовать ваш бюджет обхода.

Это ошибка, которая часто пропущена: директива disallow фактически отменяет работу тега noindex мета-роботов. Это связано с тем, что запрет запрещает ботам получать доступ к содержимому страницы и, следовательно, видеть и подчиняться метатегам.

Еще одно предостережение с использованием файла robots.txt для стадных ботов заключается в том, что не все боты хорошо себя ведут, а некоторые даже игнорируют ваши директивы (особенно вредоносные боты, ищущие уязвимости). Для более подробного обзора этого, ознакомьтесь с более глубоким взглядом на Robots.txt.

XML sitemaps

XML sitemaps помогают ботам понять базовую структуру вашего сайта. Важно отметить, что боты используют вашу карту сайта в качестве ключа, а не окончательного руководства, о том, как индексировать ваш сайт. Боты также рассматривают другие факторы (например, вашу внутреннюю структуру ссылок), чтобы выяснить, о чем идет ваш сайт.

Самая важная вещь с вашей картой eXtensible markup language (XML) — убедиться, что сообщение, отправляемое в поисковые системы, соответствует вашему файлу robots.txt.

Не отправляйте ботов на страницу, с которой вы их заблокировали; рассмотрите свой бюджет на обход, особенно если вы решите использовать автоматически созданный файл Sitemap. Вы не хотите, чтобы случайно просканировали тысячи страниц тонкого содержимого. Если вы это сделаете, они, возможно, никогда не достигнут ваших самых важных страниц.

Вторая важная вещь — обеспечить, чтобы ваши XML-файлы сайта включали только канонические URL-адреса, потому что Google просматривает ваши XML-файлы Sitemap как сигнал канонизации.

Канонизация

Если у вас есть дублирующийся контент на вашем сайте (чего вам не следует), то элемент ссылки rel = «canonical» сообщает ботам, что URL-адрес следует считать основной версией.

Одним из ключевых мест для этого является ваша домашняя страница. Многие люди не понимают, что их сайт может содержать несколько копий одной и той же страницы с разными URL-адресами. Если поисковая система пытается индексировать эти страницы, существует риск, что они будут отключать дублированный контентный фильтр или, по крайней мере, разбавлять ваш капитал. Обратите внимание, что добавление элемента канонической ссылки не останавливает ботов от обхода дубликатов страниц. Вот пример такой домашней страницы, которую Google неоднократно индексировал Google:

Разбивка

Настройка правильных ссылок rel = «next» и rel = «prev» является сложной задачей, и многие люди пытаются ее исправить. Если вы используете сайт электронной коммерции с большим количеством продуктов для каждой категории, rel = next и rel = prev необходимы, если вы хотите избежать попадания в дублированный контентный фильтр Google.

Представьте, что у вас есть сайт, продающий сноуборды. Скажите, что у вас есть 50 различных моделей. На главной странице категории пользователи могут просматривать первые 10 продуктов с именем продукта и миниатюрами для каждого. Затем они могут перейти на страницу два, чтобы увидеть следующие 10 результатов и т. Д.

Каждая из этих страниц будет иметь одинаковые или очень похожие названия, мета-описания и содержимое страницы, поэтому на главной странице категории должна быть rel = «next» (нет rel = «prev», так как это первая страница) в головная часть языка разметки гипертекста (HTML). Добавление элемента ссылки rel = «next» и rel = «prev» на каждую последующую страницу сообщает обходному роботу, что вы хотите использовать эти страницы в качестве последовательности.

В качестве альтернативы, если у вас есть страница «просмотреть все», вы можете canonicalize на эту страницу «просмотреть все» на всех страницах страницы и пропустить rel = prev / next в целом. Недостатком этого является то, что страница «просмотреть все» — это то, что, вероятно, будет отображаться в результатах поиска. Если страница занимает слишком много времени для загрузки, показатель отказов у ​​посетителей поиска будет высоким, и это не очень хорошо.

Без rel = «canonical», rel = «next» и rel = «prev» элементы ссылки, эти страницы будут конкурировать друг с другом за ранжирование, и вы рискуете дублировать контент-фильтр. Правильно реализовано, rel = prev / next даст указание Google рассматривать последовательность как одну страницу, или rel = canonical присваивает все значение странице «просмотреть все».

Общие проблемы с кодированием

Хороший, чистый код очень важен, если вы хотите органическое ранжирование. К сожалению, небольшие ошибки могут запутать сканеров и привести к серьезным недостаткам в результатах поиска.

Вот несколько основных из них:

1. Бесконечные пространства (ака пауки). Плохое кодирование иногда может непреднамеренно приводить к «бесконечным пространствам» или «ловушкам пауков». Проблемы, такие как бесконечные URL-адреса, указывающие на один и тот же контент, или страницы с одинаковой информацией, представленные несколькими способами (например, десятки способов сортировки списка продукты), или календари, которые содержат бесконечность разных дат, могут привести к тому, что паук застрянет в цикле, который может быстро исчерпать бюджет вашего обхода.

Ошибочно обслуживая 200-статусный код в вашем защищенном гипертекстовом протоколе (HTTP) заголовке 404 страниц с ошибками — это еще один способ представить ботам веб-сайт, который не имеет конечных границ. Опираясь на робота Googlebot, чтобы правильно определить все «мягкие 404», это опасная игра, в которую можно играть с вашим бюджетом обхода.

Когда бот попадает в большое количество тонкого или повторяющегося содержимого, он в конечном итоге откажется от него, что может означать, что он никогда не попадает в ваш лучший контент, и вы заканчиваете стоп бесполезных страниц в индексе.

Поиск ловушек-пауков иногда может быть затруднительным, но использование вышеупомянутых анализаторов журналов или стороннего искателя, такого как Deep Crawl, — это хорошее место для начала.

То, что вы ищете, — это посещения ботов, которые не должны происходить, URL-адреса, которые не должны существовать, или подстроки, которые не имеют никакого смысла. Другим ключом могут быть URL-адреса с бесконечно повторяющимися элементами, например:

example.com/shop/shop/shop/shop/shop/shop/shop/shop/shop/…

2. Встроенный контент. Если вы хотите, чтобы ваш сайт сканировал эффективно, лучше всего держать вещи простыми. У ботов часто возникают проблемы с JavaScript, фреймами, Flash и асинхронным JavaScript и XML (AJAX). Несмотря на то, что Google улучшается при сканировании форматов, таких как Javascript и AJAX, безопаснее придерживаться старомодного HTML, где вы можете.

Одним из распространенных примеров этого являются сайты, которые используют бесконечный прокрутки. Хотя это может улучшить ваше удобство использования, это может затруднить поисковые системы, чтобы они сканировали и индексировали ваш контент. Убедитесь, что каждая страница вашей статьи или продукта имеет уникальный URL-адрес и связана через традиционную структуру ссылок, даже если она представлена ​​в формате прокрутки.

В следующем и последнем выпуске этой серии мы рассмотрим, как боты ищут ваши мобильные страницы, обсуждают, нужно ли блокировать плохих ботов и погружаться в теги локализации и hreflang. Оставайтесь с нами!

Мнения, выраженные в этой статье, принадлежат авторам гостевой книги, а не обязательно MagazinSite. Здесь перечислены авторы работ.

By | 2018-11-22T14:19:45+00:00 Ноябрь 22nd, 2018|Categories: Новости|Tags: , |0 Comments

Leave A Comment

ОСТАВЬТЕ ЗАЯВКУ
Перешедшим от других SEO-компаний приветственная скидка 40%
Мы Вам перезвоним и подготовим лучшее предложение.
  1. Позвоним
  2. Проведем аналитику
  3. Разработаем прогноз
  4. Презентуем стратегию
  5. Подпишем договор
  6. Запустим проект
Хотите купить квартиру?
Обращайтесь и мы Вам поможем
  • Скорость решения вопроса
  • Ваш финансовый интерес
  • Качественное обслуживание
  • Всесторонняя забота о клиенте
  • Работаем на репутацию
  • Поддержка на всех этапах
* we never share your e-mail with third parties.
Do you want more traffic?
Dignissim enim porta aliquam nisi pellentesque. Pulvinar rhoncus magnis turpis sit odio pid pulvinar mattis integer aliquam!
  • Goblinus globalus fantumo tubus dia montes
  • Scelerisque cursus dignissim lopatico vutario
  • Montes vutario lacus quis preambul den lacus
  • Leftomato denitro oculus softam lorum quis
  • Spiratio dodenus christmas gulleria tix digit
  • Dualo fitemus lacus quis preambul pat turtulis
  • Scelerisque cursus dignissim lopatico vutario
  • Montes vutario lacus quis preambul den lacus
SUBSCRIBE TO OUR NEWSLETTER AND START INCREASING YOUR PROFITS NOW!
* we never share your e-mail with third parties.
ОСТАВЬТЕ ЗАЯВКУ
6 шагов за 31 день для увеличения ваших продаж
  1. Анализируем спрос и предложение
  2. Выделяем тематические сегменты
  3. Создаем группы объявлений
  4. Следим за отдачей от объявления
  5. Корректируем рекламную кампанию
  6. Предоставляем подробные отчеты
ОСТАВЬТЕ ЗАЯВКУ
При заказе сайта магазин на Facebook бесплатно!
И вы получите самый социальный инструмент для продаж.
  1. Проведем аналитику
  2. Подготовим контент
  3. Добавим продукты
  4. Произведем настройку
  5. Синхронизируем магазины
  6. Вам остается наслаждаться




PGlmcmFtZSB3aWR0aD0iMTAwJSIgaGVpZ2h0PSIxMDAlIiBzcmM9Imh0dHA6Ly9tYWdhemluc2l0ZS5ydS93cC1jb250ZW50L3VwbG9hZHMvMjAxNy8wOS/QodC+0LfQtNCw0L3QuNC1LdGB0LDQudGC0LAt0LIt0JrQuNGI0LjQvdC10LLQtS3QnNC+0LvQtNC+0LLQsC5tcDQ/YXV0b3BsYXk9MSIgZnJhbWVib3JkZXI9IjAiIGFsbG93ZnVsbHNjcmVlbj48L2lmcmFtZT4=
ЗАЧЕМ СОЗДАВАТЬ САЙТ
  • Goblinus globalus fantumo tubus dia montes
  • Scelerisque cursus dignissim lopatico vutario
  • Montes vutario lacus quis preambul den lacus
  • Leftomato denitro oculus softam lorum quis
  • Spiratio dodenus christmas gulleria tix digit
  • Dualo fitemus lacus quis preambul pat turtulis
* we never share your e-mail with third parties.
Do you want massive traffic?
Dignissim enim porta aliquam nisi pellentesque. Pulvinar rhoncus magnis turpis sit odio pid pulvinar mattis integer aliquam!