Руководство по использованию регулярных выражений в SEO

//Руководство по использованию регулярных выражений в SEO

Руководство по использованию регулярных выражений в SEO

Простой чек-лист некоторых распространенных регулярных выражений, используемых в SEO. Предлагает советы для htaccess, ScreamingFrog и Google Analytics.

Регулярные выражения (регулярное выражение) являются одним из самых мощных инструментов, которые мы имеем в нашем арсенале SEO, но они невероятно запугивают! Вот несколько советов и трюков от одного SEO к другому, который, я надеюсь, поможет вам окунуться в мощный мир регулярных выражений.

HTTP_shutterstock

Я должен начать с отказа от ответственности: я не кодер, разработчик или сетевой администратор. Мое использование регулярных выражений — очень начальный уровень, но то, что я собираюсь сделать, хорошо работает для меня на разных платформах. Я хочу поделиться с вами тремя из них: Google Analytics, Screaming Frog и htaccess.

Основы регулярных выражений (регулярное выражение)

Начнем с нескольких основ того, что такое регулярное выражение и что он может сделать для вас. Команды Regex в основном помогают вам находить (и / или заменять) не определенные значения. Например, допустим, у вас есть список URL-адресов, и вам нужно разбить их на TLD (домен верхнего уровня).

Вы можете использовать простой поиск / замену для http и www, но как вы легко сбиваете все имена файлов? Вы можете удалить все из них вручную, но это долго. Используя простой шаблон регулярных выражений (/ *), вы можете сбросить косую черту и все, что приходит после нее.

Основные команды в Regex

Теперь, для начала, это помогает понять основные команды и что они означают:

  • Во-первых, есть этот маленький парень: (. *). Хотя это технически сочетание нескольких дискретных команд, для новичков регулярных выражений, просто знайте, что это означает «соответствие неограниченному количеству символов». В принципе, эта команда означает что угодно. Вы обычно используете его до или после чего-то другого — так что вы говорите: «Покажите мне все, что начинается, заканчивается или содержит x» — в зависимости от того, что вы ищете. Например, предположим, что вы хотели найти любое ключевое слово в списке, содержащем «тигры», независимо от того, что было раньше. Вы должны использовать команду (. *) Тигров
  • (^) будет сигнализировать команде, чтобы она соответствовала только тем элементам, которые «начинают с», что вы ставите после него. Итак, если вы хотите вытащить все значения, начинающиеся с «тигров», вы можете использовать это: ^ tiggers

  • ($) завершает запрос. Он сохраняет другие посторонние значения, такие как строки запросов, которые включены в выбранное вами совпадение. Например, предположим, что вы хотите сопоставить все, что содержит «тигры», но только в том случае, если тигры — это конец строки. Вы бы использовали такой запрос: (. *) Tiggers $

    Это будет соответствовать «I-like-tiggers», но не «самые лучшие вещи-тигры» — это чудесные вещи.

    У Энни Кушинг есть отличный маленький трюк, чтобы вспомнить эти два — она ​​говорит, что вы «ведете с морковкой (^), но в конце дня все дело в деньгах ($)».

  • Следующий, который вы хотите знать, — это команда ($ 1). Это позволяет заменить одну вещь чем-то другим, но сохранить все, что было до или после нее. Например, скажем, у вас есть страницы о тиграх, но вы решили пойти на поросят вместо этого. Вы хотите заменить все значения, содержащие «тигры» на «поросенка», и все они следуют одной и той же структуре. Предположим, что ваши значения:

    tiggers-piglets

    Поскольку все они начинаются с «тигра», легко достичь этого с помощью регулярного выражения. Все, что вам нужно сделать, это установить ^ / tigger /(.*)$, чтобы он стал / поросенком / $ 1

    В основном, что вы говорите с помощью приведенной выше команды: для чего-либо, начинающегося с (^) «/ tigger /,» принимать все, что приходит после него (. *), и заменять «тигр» на «поросенок» но сохраняйте все (1 доллар США), которое приходит после него одинаково. Знак доллара может использоваться для нескольких запросов в той же команде; $ 1 — первое значение, $ 2 — второе, $ 3 — третье и т. Д.

    Для примера двух знаков доллара в одной команде, скажем, у вас есть что-то / tigger / bouncing / something-else, и вы хотели заменить «тигр» на «поросенка», но все остальное оставалось тем же, независимо от того, что это было. Вы будете использовать:

    ^ / (. *) / tigger / (.*) становится / $ 1 / piglet / $ 2 («становится» не является допустимым оператором, просто примером)

    Это приведет к тому, что приведенное выше значение приведет к чему-то / поросенку / подпрыгивание / что-то еще.

  • Наконец, вы должны знать о панели труб для разделения запросов, потому что это мощный инструмент. Панель труб позволяет вам давать варианты. В приведенном выше примере, возможно, у вас есть страницы о тиграх, но у вас также есть страницы о канге. Поэтому вам нужно заменить как тигр, так и kanga. Для этого вы должны использовать ту же команду, кроме include tigger и kanga как опции. Это было бы написано следующим образом:

    ^ / (. *) / (tigger | kanga) / (. *) становится / $ 1 / piglet / $ 2 («становится» не является допустимым оператором, просто примером)

    Строка трубы означает «или». Таким образом, команда выше говорит о том, что начинается с чего-либо, содержит либо тигр, либо кангу посередине, и заменяет только тигр или кангу с поросенком. Но сохраните все остальное вокруг этих ценностей.

    Намного сложнее показать эти понятия без конкретных примеров, поэтому ниже я привел пример того, как это работает в реальной программе.

  • Регулярное выражение в Google Analytics

    Вы когда-нибудь использовали сопоставление регулярных выражений в Google Analytics? Это так мощно. Предположим, у вас есть торговая марка Hooli и продукт под названием Pied Piper. Вы хотите узнать, сколько трафика поступает с целевых страниц, у которых нет имени бренда в URL-адресе. Вы можете сделать отдельный отчет для каждого названия бренда, а затем дедуплицировать и вычесть из общей суммы, или просто использовать регулярное выражение. И, допустим, у Хули часто есть орфографический холи и wholi. Вы тоже можете это объяснить.

    В аналитике выберите «целевая страница» в качестве основного измерения. Затем нажмите «Дополнительно» и выберите «Исключить» и «Соответствие RegExp». Сформулируйте свой запрос, чтобы включить любой из параметров — hooli, holi или wholi. Есть и другие способы сделать это; например, вы могли бы использовать w? hoo? li вместо команды, но это становится слишком сложным. Итак, придерживайтесь hooli | holi | wholi, и это устранит любые целевые страницы, содержащие эти слова в URL-адресе.

    regex-analytics-ex1

    Хотите добавить pied и piper тоже? Просто добавьте их: hooli | holi | wholi | pied | piper

    Возьмем еще один пример. Скажем, вам нужен отчет, который фильтрует только страницы с определенной части вашего сайта, такие как «музыка». Но ваша архитектура сайта сломана, а подкаталог / music может появиться в любой позиции. Вам нужен только тот, который появляется в третьей позиции. Вы не можете использовать старты с или заканчивать или содержать, так что вы делаете? Ответ — регулярное выражение. Используя то, что вы узнали выше, вы можете создать отчет, в котором отображается только музыка в третьем подкаталоге. Вы бы запрограммировали его так: ^ /. * /. * / Music /.*

    regex-analytics-ex2

    Команда сообщает аналитике, чтобы она соответствовала любой целевой странице, которая начинается с косой черты, затем что-нибудь, затем косой чертой, затем чем-нибудь, потом косой чертой, а затем музыкой, которая может или не может иметь что-то после нее. Другими словами, только соответствовать «музыке», если это три справочника глубоко.

    Вы можете себе представить, как вы могли бы изучить еще несколько команд, чтобы вытащить все страницы с более чем x каталогами или создать действительно детализированные пользовательские сегменты.

    Регулярные выражения с кричащей лягушкой

    Теперь как насчет Screaming Frog? Знаете ли вы, что можете сканировать только определенные участки сайта или искать определенные биты кода, даже если они не стандартные? Вот два моих любимых:

    Включает / исключает: на вкладке конфигурации в Screaming Frog вы можете выбрать Include или Exclude. Пример, приведенный в интерфейсе, очень простой. Например, если вы не хотите включать блог в свои усилия по обходу, вы можете исключить http://www.site.com/blog/.*. Но если вы хотите попробовать что-то более сложное, вы можете легко использовать выражение регулярных выражений, подобное одному из приведенных выше. Например, если вы знаете, что страницы входа и администрирования сайта будут проблемой, вы можете изменить приведенную выше команду на: http://www.site.com/(login|admin)/.*, если вы не уверены, где в иерархии появится логин или админ-каталог, вы можете использовать
    . *. (Войти | админ) *

    Пользовательская конфигурация: одна из самых мощных возможностей кричащей лягушки — это настраиваемая функция настройки. Это может сказать вам, что какая-то вещь или строка появляются где-нибудь в коде страницы, которую вы сканируете. Это особенно эффективно для выбора ссылок nofollow, когда вы выполняете аудит ссылок. Например, предположим, что у вас есть список страниц, на которых входящие ссылки расположены на вашем сайте. Вы хотите знать, содержат ли эти страницы вашу ссылку, и если они это сделают, то это nofollowed? Для этого легко изменить код регулярного выражения:

    <а. {0100} HREF =. {0100}? Сайт \ .com (. {0100}?) (NOFOLLOW)

    Это покажет вам любую ссылку, в которой ваш целевой сайт (замените сайт. \ com на свою цель) имеет тег nofollow, появляющийся после адреса веб-сайта.

    screamingfrog-regex-ex1

    Обратите внимание, что я сказал, что изменить, а не создавать. И этот код содержит фигурные скобки, о чем мы не говорили выше. Одна из замечательных особенностей регулярного выражения заключается в том, что как только вы найдете код, который работает, вы можете изменить его для своих целей.

    Например, если вы хотите взять тот же код и найти любые страницы, содержащие изображения в качестве ссылок, вы можете легко изменить nofollow на img. Но всегда проверяйте и проверяйте свой код — легко ошибиться, особенно если вы действительно не понимаете, что делает код. В приведенном выше коде {0,100} означает, что может появиться любое количество от 0 до 100 символов. В этом конкретном случае это нормально. Но если вы модифицировали этот код для чего-то, где вам нужно было смотреть вперед или назад более 100 символов, вы, вероятно, захотите сделать это по-другому.

    Перенаправления и регулярные выражения

    И наконец, htaccess. Если вы не знаете, что это такое, это файл, который контролирует реакцию вашего сервера на запросы. Вы можете управлять IP-адресами, функциями WordPress, обнаружением пользовательского агента и множеством других вещей с этим файлом.

    В целях этого упражнения давайте поговорим о URL-адресах. Теперь я должен начать с предупреждения: HTACCESS МОЖЕТ БЫТЬ ВЗЯТЬ ВАШЕГО ВСЕГО САЙТА! Всегда, прежде чем касаться htaccess, выполните следующие четыре критических момента:

  • Сделайте резервную копию файла htaccess. Это вам понадобится, если вы что-нибудь придумаете. И вы будете.
  • Не изменяйте файл htaccess, если у вас нет доступа root к серверу через FTP. Если вы испортите и принесете свой сайт, вы не сможете добраться до входа в cpanel или wordpress, чтобы исправить его. Я настоятельно рекомендую никогда не изменять htaccess внутри плагина, cpanel или в любом другом месте, кроме текстового редактора.
  • Убедитесь, что нет других плагинов, которые выполняют такие функции, как перенаправление, 404 команды или другие серверные команды, которые будут мешать вашим изменениям. Это не дьявол, но вам нужно точно знать, что они делают.
  • Убедитесь, что есть только один файл htaccess и вы редактируете правильный. Там должно быть только одно, но если вы видите более одного (возможно, в другом каталоге), вам, вероятно, нужна профессиональная помощь.
  • Хорошо, теперь, когда вы в безопасности и безопасности, а ваш оригинал подкреплен (он подкреплен, правильно ?!), вы можете начать играть. Вы можете сделать простые 301 переадресации следующим образом:

    Перенаправление 301 / somefile http://www.hooli.com/someotherfile

    Но RedirectMatch намного мощнее и позволяет использовать эти классные регулярные выражения. Быстро в сторону … Я знаю, что RewriteEngine более изящный, но это также намного сложнее. Моя цель — поделиться некоторыми простыми методами, которые я использовал, которые работают для новичков регулярных выражений.

    Используя наш пример Hooli, скажем, вы переходите от структуры, в которой все ваши URL-адреса блога имеют / blog / в них и в новой структуре, у них будут одинаковые имена файлов, но / blog / будут удалены , Вы можете перенаправить все из них (есть ли 10 или 10000) с помощью одной команды:

    RedirectMatch 301 ^ / blog /(.*)$ http://www.hooli.com/$1

    Эта команда в основном означает — для URL-адресов, где имя файла начинается с блога, с чем-либо вообще после него, перенаправлять с состоянием 301 в домен с такими же вещами после него, но без / blog /.

    Теперь предположим, что вы не просто удаляете / blog /, вы заменяете его / news / silicon-valley /. Вы измените команду на это:

    RedirectMatch 301 ^ / blog /(.*)$ http://www.hooli.com/news/silicon-valley/$1

    (Примечание. Это может отображаться как перенос строк, но фактическая команда должна быть в одной строке.)

    Теперь, что, если у вас очень грязный старый сайт, и вам нужно изменить все эти URL-адреса, чтобы указать на одну конкретную страницу? Все, что вам нужно сделать, это найти повторяемый шаблон:

    http://www.hooli.com/products/pied-piper
    http://www.hooli.com/products/pied
    http://www.hooli.com/products/pie-piper
    http://www.hooli.com/products/pieds-pipers

    Все они содержат «пирог» после / продуктов. Вы захотите убедиться, что новый сайт не будет иметь никаких легитимных страниц, соответствующих этому шаблону, но как только вы их знаете, вы не сможете перенаправить все это с помощью одной команды.

    RedirectMatch 301 ^ / products / pie (. *) $ http://www.hooli.com/services/pied-piper

    (Примечание. Это может отображаться как перенос строк, но фактическая команда должна быть в одной строке.)

    Наконец, может быть, у вас есть структура, где все заканчивается на .html, и ни одна из ваших новых страниц не закончится так. Опять же, найдите шаблон, если он есть:

    RedirectMatch 301 ^ / (. *). html $ http://www.hooli.com/$1

    (Примечание. Это может отображаться как перенос строк, но фактическая команда должна быть в одной строке.)

    Что делать, если все соответствует одному или двум конкретным файлам? Для этого есть и исправление. Добавьте исключение следующим образом:

    RedirectMatch 301 ^ / (?! (notthisfile) /) (. *). html $ http://www.hooli.com/$1

    (Примечание. Это может отображаться как перенос строк, но фактическая команда должна быть в одной строке.)

    Если у вас более одного или двух исключений, вам действительно нужно использовать Rewrite.

    Это не будет работать для каждого перенаправления, который у вас есть; у вас наверняка будет еще 1: 1, но это поможет много и сделает вашу структуру более управляемой в будущем. Для дальнейшего чтения с использованием RedirectMatch, проверьте apache.org. Для получения дополнительной информации о регулярных выражениях этот учебник замечательный.

    Вы что-то не поняли?

    Не паникуйте. Сохраните то, что вы построили где-то вне сервера, и повторно загрузите этот сохраненный файл резервной копии. Вы не сохранили резервную копию? Это было глупо. Теперь вам нужно позвонить кому-нибудь и оплатить их, чтобы помочь вам. Извините, но именно поэтому вы всегда держите резервную копию! В худшем случае загрузите пустой файл htaccess (если это не WordPress), а затем включите этот бит вверху, что делает функцию WordPress. Если вы тоже потеряли это, Google это. Это вернет ваш сайт на «заводские настройки» для сервера. Вы не потеряете контент, но вы сбросите все перенаправления, которые у вас были.

    Надеемся, что эти советы и трюки помогут вам стать более эффективными в вашей повседневной работе в качестве SEO. Как я уже сказал выше, я не гений регулярного выражения, поэтому, если я сказал что-то неправильно или пропустил оговорку, пожалуйста, дайте мне знать в комментариях. Аналогично, если у вас есть трюк, который вы хотите поделиться с сообществом, сделайте это!

    (Фондовый образ через Shutterstock.com. Используется по лицензии.)

    Leave A Comment

    %d такие блоггеры, как:
    ОСТАВЬТЕ ЗАЯВКУ
    Перешедшим от других SEO-компаний приветственная скидка 40%
    Мы Вам перезвоним и подготовим лучшее предложение.
    1. Позвоним
    2. Проведем аналитику
    3. Разработаем прогноз
    4. Презентуем стратегию
    5. Подпишем договор
    6. Запустим проект
    Хотите купить квартиру?
    Обращайтесь и мы Вам поможем
    • Скорость решения вопроса
    • Ваш финансовый интерес
    • Качественное обслуживание
    • Всесторонняя забота о клиенте
    • Работаем на репутацию
    • Поддержка на всех этапах
    * we never share your e-mail with third parties.
    Do you want more traffic?
    Dignissim enim porta aliquam nisi pellentesque. Pulvinar rhoncus magnis turpis sit odio pid pulvinar mattis integer aliquam!
    • Goblinus globalus fantumo tubus dia montes
    • Scelerisque cursus dignissim lopatico vutario
    • Montes vutario lacus quis preambul den lacus
    • Leftomato denitro oculus softam lorum quis
    • Spiratio dodenus christmas gulleria tix digit
    • Dualo fitemus lacus quis preambul pat turtulis
    • Scelerisque cursus dignissim lopatico vutario
    • Montes vutario lacus quis preambul den lacus
    SUBSCRIBE TO OUR NEWSLETTER AND START INCREASING YOUR PROFITS NOW!
    * we never share your e-mail with third parties.
    ОСТАВЬТЕ ЗАЯВКУ
    6 шагов за 31 день для увеличения ваших продаж
    1. Анализируем спрос и предложение
    2. Выделяем тематические сегменты
    3. Создаем группы объявлений
    4. Следим за отдачей от объявления
    5. Корректируем рекламную кампанию
    6. Предоставляем подробные отчеты
    ОСТАВЬТЕ ЗАЯВКУ
    При заказе сайта магазин на Facebook бесплатно!
    И вы получите самый социальный инструмент для продаж.
    1. Проведем аналитику
    2. Подготовим контент
    3. Добавим продукты
    4. Произведем настройку
    5. Синхронизируем магазины
    6. Вам остается наслаждаться




    PGlmcmFtZSB3aWR0aD0iMTAwJSIgaGVpZ2h0PSIxMDAlIiBzcmM9Imh0dHA6Ly9tYWdhemluc2l0ZS5ydS93cC1jb250ZW50L3VwbG9hZHMvMjAxNy8wOS/QodC+0LfQtNCw0L3QuNC1LdGB0LDQudGC0LAt0LIt0JrQuNGI0LjQvdC10LLQtS3QnNC+0LvQtNC+0LLQsC5tcDQ/YXV0b3BsYXk9MSIgZnJhbWVib3JkZXI9IjAiIGFsbG93ZnVsbHNjcmVlbj48L2lmcmFtZT4=
    ЗАЧЕМ СОЗДАВАТЬ САЙТ
    • Goblinus globalus fantumo tubus dia montes
    • Scelerisque cursus dignissim lopatico vutario
    • Montes vutario lacus quis preambul den lacus
    • Leftomato denitro oculus softam lorum quis
    • Spiratio dodenus christmas gulleria tix digit
    • Dualo fitemus lacus quis preambul pat turtulis
    * we never share your e-mail with third parties.
    Do you want massive traffic?
    Dignissim enim porta aliquam nisi pellentesque. Pulvinar rhoncus magnis turpis sit odio pid pulvinar mattis integer aliquam!