Участник Dave Davies деконструирует новый патент Google, который описывает, как машинное обучение может предсказать значение ранжирования, когда значение неизвестно.

Недавно Google получил патент с широким спектром В патенте описывается, как с помощью машинного обучения они могут предсказать значение сигнала ранжирования, когда значение неизвестно.

Учитывая огромное количество контента в Интернете и более ежедневно, Google должен найти способ присвоить ценность страницам, даже если они не были сканированы и индексированы. Как можно ранжировать страницу, если Google не выполнил ее сканирование? Как Google может использовать новую часть контента, которая не имеет каких-либо входящих ссылок?

Методы в этом патентном адресе, как алгоритм Google может адресовать и вычислять неизвестные факторы и использовать их для определения того, где находится страница.

Мы обсудим возможные варианты использования Google и пару проблем, которые он решает для специалистов по поисковой оптимизации (SEO). Но прежде чем мы начнем, я чувствую себя обязанным предложить свое стандартное заявление об отказе.

Просто потому, что что-то запатентовано, это не значит, что оно включено в алгоритм. Нам нужно взвесить вероятности того, что патент или его части используются с тем, что мы видим вокруг нас, и что имеет смысл. Если ничего другого, это дает нам представление о том, что Google работает.

Учитывая тему и методы, изложенные в этом патенте, я бы сказал, что весьма вероятно, что по крайней мере какая-то итерация используется и, вероятно, будет расширяться по мере развития систем машинного обучения.

Патент 20180157758

Начнем с рытья в гайки и болты. Если вас интересует источник, вы можете найти полный патент здесь, но я буду освещать заявки из патента, что они означают и как их можно использовать.

Начнем с изображения из патента, которое теперь не будет иметь смысла, но поможет в следующих объяснениях:

В целях иллюстрации мы будем называть их индексом A и индексом B.

Для индекса A известно значение знака ранжирования и применяется для обучения алгоритма в понимании его начальной точки. Алгоритму также были предоставлены страницы и обратные ссылки. После того как алгоритм был обучен понимать, как веб-страница структурирована и адаптирована к связанным элементам, таким как обратные ссылки, присваивается значение, а затем значения сигнала применяются ко второму индексу.

В индексе B значения сигнала известны алгоритму, но не включены в систему машинного обучения. Индекс B тренирует себя, изучая, где он дает правильный вес фактора и где он не основан на информации из индекса A.

Во втором индексе все становится интереснее, потому что алгоритм также рассматривает дополнительные запросы, которые могут применяться к сигналам ранжирования. Когда алгоритм в индексе B пытается предсказать один результат, он, вероятно, всегда будет немного, но при прогнозировании многих результатов прогнозы становятся более точными. Из-за феномена «мудрости толпы» индексу B разрешено самовосстанавливаться (это элемент машинного обучения в игре), и он делает это путем включения дополнительных запросов и того, что он изучил.

Если система в индексе B может определить значение сигнала для ряда связанных запросов, это может помочь в создании неизвестного значения для начального запроса.

Почему это важно?

Всегда полезно понимать, как работают поисковые системы, но более прямо, полезно понять систему, которая позволит быстро ранжировать новые сайты и новые ресурсы.

Двухиндексная система, описанная выше, имеет энкодеры и декодеры. Кодеры посещают веб-страницу и создают кодированное представление. Хотя я, очевидно, не знаю, как это будет выглядеть на заднем плане, на основе множественных ссылок на сущности в патенте, вероятно, это отображение объектов на странице и известных отношений с другими объектами в индексе или в другие ресурсы.

Google получил патент, который позволяет им ранжировать новые ресурсы (страницы), используя вероятные сигналы ранжирования. Этот же патент также облегчит создание новых сигналов другими инженерами или системами машинного обучения и позволит общему алгоритму ранжировать страницы, которым еще не присвоено значение.

Новому контенту или ресурсам могут быть присвоены значения на основе ссылок, показателей поведения пользователей и качества контента, которые они могут получить. Или, в основном, они нашли способ предсказать будущее поиска.


Тем не менее, еще более новаторским является тот факт, что система предлагает метод, позволяющий машинным системам обучения генерировать сигналы самостоятельно. Люди больше не должны говорить алгоритму, что важно: машинное обучение учит алгоритму находить, идентифицировать и присваивать значение сигналам.

Как вы можете использовать этот патент

Пока мало что можно сделать, чтобы влиять на машинное обучение, вы можете косвенно изменить ситуацию, продолжая создавать отличный контент и продвигать разработку хороших ссылок.

Посмотрите контент на своем сайте и выясните типы контента, генерирующего трафик и ссылки, поскольку это показатели, которые Google может измерять с помощью своих инструментов аналитической и поисковой консоли. IMO, это сигналы, которые система машинного обучения будет использовать.

Если ваш текущий контент хорошо оценивается, генерируя ссылки, клики и общие ресурсы, новый контент может быть предсказан, чтобы сделать то же самое.

Просмотрите свои аналитики и обратные ссылки и обратите внимание на то, что вы делаете правильно, и пусть это вдохновляет на будущий контент и усилия по созданию ссылок. И наоборот, обратите внимание на то, что не получилось хорошо. Так же, как алгоритм принимает к сведению успехи, он также принимает к сведению ошибки. Если тренд на вашем сайте положительный, вы, скорее всего, будете вознаграждены, а если он отрицательный, то может быть и наоборот.

И если вы не ранжируете быстро, особенно для чувствительного к времени контента, вы, вероятно, не получите сигналов, необходимых для ранжирования следующего фрагмента.

Мнения, выраженные в этой статье, принадлежат авторам гостевой книги, а не обязательно MagazinSite. Здесь перечислены авторы работ.