У Google произошла утечка документации, связанной с работой поисковых алгоритмов

Рекомендуем почитать:

Хакер #323. Беспроводной самопал

В сети опубликовали подборку внутренних документов Google, содержащую более 2500 страниц. Судя по всему, утечка произошла случайно еще в марте текущего года. В документах детально описывается, как работает и ранжирует результаты поисковая система Google, причем данные не совпадают с официальной версией компании, которой Google придерживается уже много лет.

Похоже, что документация по ошибке попала в общедоступный репозиторий на GitHub, принадлежащий Google. Утечка произошла еще 13 марта 2024 года, и данные слил собственный автоматизированный инструмент компании, который случайно снабдил коммит опенсорсной лицензий Apache 2.0, что является стандартом для публичной документации Google. В последующем коммите от 7 мая 2024 года была предпринята попытка устранить эту утечку.

Однако к этому времени публикацию уже заметил Эрфан Азими (Erfan Azimi), глава компании EA Digital Eagle, специализирующейся на поисковой оптимизации (SEO), а следом за ним на слив обратили внимание глава SparkToro Рэнд Фишкин (Rand Fishkin) и глава iPullRank Майкл Кинг (Michael King), которые придали инцидент огласке (1, 2) и изучили утечку.

Как объясняют исследователи, утекшая документация описывает старую версию Google Search Content Warehouse API и дает представление о внутреннем устройстве поиска Google.

В документации нет кода, она лишь описывает, как работать с API, который, судя по всему, предназначен только для внутреннего использования. Также бумаги содержат множество ссылок на внутренние системы и проекты Google. И хотя аналогичный API Google Cloud уже находится в открытом доступе, опубликованная на GitHub информация содержит куда больше интересных деталей.

По словам аналитиков, файлы проливают свет на то, какие именно критерии Google считает важными при ранжировании веб-страниц. Этот вопрос — Грааль для SEO-специалистов и владельцев сайтов, которые надеются, что Google поможет им привлечь больше трафика.

Среди 2500 страниц содержится подробная информация о более чем 14 000 атрибутов, доступных или связанных с API, но мало данных о том, как именно используются эти сигналы и какова их важность. Поэтому трудно сказать, какой вес Google придает различным атрибутам в своем алгоритме ранжирования результатов поиска.

Однако SEO-специалисты уверены, что в документах содержатся заслуживающие внимания детали, и информация заметно отличается от публичных заявлений представителей Google.

«Многие из утверждений [Азими в электронном письме, описывающем утечку] прямо противоречат публичным заявлениям, которые делали представители Google на протяжении многих лет. В частности, компания неоднократно отрицала, что использует связанные с кликами сигналы, отрицала, что субдомены при ранжировании учитываются отдельно, отрицала наличие песочницы для новых сайтов, отрицала, что возраст домена регистрируется или учитывается, и многое, многое другое», — рассказывает Фишкин в своем отчете.

В свою очередь, Кинг ссылается на заявление представителя поисковой системы Google Джона Мюллера (John Mueller), который ранее утверждал, что в компании «нет ничего похожего на индекс авторитетности сайта». Имеется в виду, считается ли конкретный сайт авторитетным, по мнению Google, и следовательно, достойным более высокого ранжирования в результатах поиска.

Кинг пишет, что утекшие документы свидетельствуют о том, что в рамках Compressed Quality Signals может быть рассчитан показатель siteAuthority.

«Ложь — это грубое, но это единственно верное слово, которое здесь уместно, — пишет Кинг. — Хотя я не виню представителей Google за то, что они защищают свою служебную информацию, я не согласен с тем, что они пытаются активно дискредитировать людей из мира маркетинга, технологий и журналистики, которые представили эти данные для изучения».

Также эксперты обнаружили еще несколько интересных фактов. Один из них касается важности кликов, а также различных типов кликов (хороших, плохих, длинных и так далее) для ранжирования веб-страниц. Так, во время рассмотрения антимонопольного дела США против Google представители компании признали, что учитывают метрики кликов как фактор ранжирования в поиске, а документы дали больше подробностей об этих системах.

Кроме того, оказалось, что количество просмотров сайтов в Chrome используется для определения качества ресурсов, что отражено в API в виде параметра ChromeInTotal. Но при этом представители Google неоднократно заявляли, что вообще не используют данные Chrome для ранжирования страниц.

Помимо этого, Chrome упоминается в разделе, связанном с созданием дополнительных ссылок.

Дополнительные ссылки, для создания которых используются данные Chrome

Еще в документах обнаружилось, что Google учитывает и другие факторы, например свежесть контента, его авторство, связь страницы с основной тематикой сайта, соответствие между заголовком и содержанием страницы, а также «средневзвешенный размер шрифта».

Это противоречит прошлым заявлением компании о том, что в ранжировании результатов поиска не используется показатель E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness), который применяется Google для оценки качества результатов.

К примеру, Кинг подробно описывает, что Google собирает со страниц данные об авторах и имеет специальное поле для указания того, является ли конкретный субъект автором. В части документов говорится, что это поле «в основном разработано и настроено для новостных статей, но также заполняется и для другого контента (например, научных публикаций)». Хотя это и не подтверждает того, что авторство является отдельной метрикой для ранжирования, это показывает, что Google, как минимум, отслеживает этот атрибут.

После того как документация привлекла внимание СМИ и экспертов, представители Google были вынуждены сделать заявление, в котором подтвердили факт утечки и отметили, что следует помнить о том, что в случайно обнародованных файлах мог отсутствовать важный контекст.

«Мы хотели бы предостеречь вас от неточных предположений о работе поиска, основанных на вырванной из контекста, устаревшей и неполной информации. Мы сами делимся обширной информацией о том, как работает поиск, и о том, какие факторы учитывают наши системы, а также стремимся защитить целостность результатов поиска от манипуляций», — заявили в компании.

Хакер #323. Беспроводной самопал

Подпишись на наc в Telegram!