Урок#4 Как работает поисковая система Яндекс

На этом уроке мы разберем такие вопросы:

  1. В чем особенность этой поисковой системы?
  2. Какие задачи решает?
  3. Как устроена?
  4. Какие алгоритмы поиска есть?
  5. Что нужно сделать для эффективного SEO под Яндекс?

1. В чем фишка Яндекс?

  1. Определение различных словоформ с учетом морфологических особенностей русского языка.
  2. Определение региональности.
  3. Высокая скорость ответной реакции на запросы пользователей.
  4. Устойчивая работу серверов.
  5. Обработка запроса пользователя происходит на менее загруженном сервере.
  6. Существование системы Метапоиск. Более подробно про него читайте тут
  7. Наличие алгоритма машинного обучения CatBoost - преемника MatrixNet
  8. Индексирует только полезные веб-страницы.
  9. Существование 3 типов независимых индексов.

2. Как устроен поиск в Яндекс?

Весь процесс работы можно описать в такой последовательности (как и в поисковой системе Google):

  1. Сканирование
  2. Индексирование
  3. Ранжирование
Если описывать более подробно, то процесс поиска и ранжирования веб-страниц сайтов устроен следующим образом:

  1. Собирается список ссылок для сканирования
  2. Планировщик определяет этот список
  3. Происходит сканирование или краулинг запланированных страниц по списку ссылок
  4. Далее происходит скачивание полезных документов и размещение их в сохраненной копии
  5. После этого индексация этих документов, определение его языка, слов и ссылок в нем
  6. И далее на страницу результатов поисковой выдачи

    3. Как устроен процесс ответа на запрос?

    1. Попадание запроса в Метапоиск, где он обрабатывается в режиме реального времени.
    2. Если есть ответ в сохраненной копии - запрос является частозадаваемым - то Метапоиск формирует результаты.
    3. Если сохраненных результатов нет, то Метапоиск передает запрос на Базовый поиск, где ответ на запрос реализуется по разным серверам.
    4. Каждый из серверов отдает список веб-страниц, в которых есть слова из запроса, назад в Метапоиск.
    5. В Метапоиске они объединяются и ранжируются с помощью технологии CatBoost (улучшенный МатриксНет).
    6. CatBoost выдает результаты на запрос.
    как устроен поиск яндекс
    Как видно, Яндекс использует логи для определения полезности документа - если на него был клик из поисковой выдачи, значит такой документ нужно оставить в поиске.

    И ссылки с такого документа, вероятнее всего, ведут тоже на полезные документы, поэтому поисковый робот Яндекса скачивает такие ссылки и ставит страницы, которые ведут на них, в приоритет обхода.

    Перед тем, как выдать пользователю поисковые результаты, запрос проходит через три поиска по:

    1. Страницам
    2. Картинкам
    3. Видео
    После этого запрос опускается еще ниже в поисковую базу, разделенную на большое количество кластеров и оттуда на SERP - поисковую выдачу.
    как формируется запрос в яндексе
    Prowebagents рекомендует проставить полезные контекстные ссылки с трафиковых страниц на сайте или реализовать перелинковочные блоки на таких страниц, в которых указать ссылки на документы, которые еще не находятся в индексе поисковой системы, чтобы они быстрее попали в поисковую базу Яндекса.

    4. Какие есть алгоритмы поиска Яндекс?

    Особенность алгоритмов Яндекса в том, что большинство из них названы как города.
    1. Catboost - алгоритм машинного обучения, запатентованный Яндекс, используемый для улучшения результатов ранжирования в поиске. Используется и в других сервисах этой поисковой системы.
    2. Калининград и Дублин - персонализация результатов поиска.
    3. Амстердам - формирование объектного ответа справа от результатов поисковой выдачи.
    4. Минусинск - акцент на большом количестве SEO-ссылок (санкции).
    5. Многорукий бандит Яндекса - направлен на подбрасывание в выдачу новых результатов для дальнейшего определения их полезности и корректировки SERP. Побрасываются только релевантные запросу документы (оценка rel+). Принцип его работы с формулой указаны в этом докладе сотрудника Яндекс. Характеризуется тем, что резко проседают или подымаются позиции на 5-30 мест. Изменения более чувствительны к коммерческим запросам, нежели информационным. Применяется ко всем видам запросов по частотности. Благодаря этому алгоритму есть возможность новому сайту проявить себя.
    6. Владивосток - направлен на повышение позиций в результатах поиска оптимизированных для мобильных устройств сайтов.
    7. Палех - направлен повышение качества результатов поиска для редких запросов c помощью анализа Title страниц.
    8. Королев - как и Палех, применяется для улучшения поисковой выдачи, при этом анализируется не только заголовой страницы, но весь контент на ней.
    9. Баден-Баден - акцент на переоптимизированных текстов на сайте. Применяется ко всему сайту (хосту). Как выйти из-под этого хостового фильтра Баден-Баден, читайте в этом кейсе.
    10. Андромеда - еще большее обновление поиска. Появление иконок для сайта в поиске, улучшение быстрых ответов в поиске, появление FAQ-сервиса Яндекс.Знатоки, улучшение сервиса Яндекс.Коллекции, переходы с которого влияют на ранжрование, понижение сайтов с большим количеством рекламы на страницам (если ее больше, чем основного контента) и увеличение веса для отзывов пользователей в результатах поиска (поиск стал понимать, какие отзывы накручены).
    11. Переспам - применяется к запросу и уменьшает релевантность страницы по нему.
    12. Переоптимизация - применяется ко всей странице и уменьшает ее значение.
    13. Новый фильтр - применяется к запросу и понижает его позицию более чем на 50 мест.
    14. Внешний и внутренний Непот - исключение из ранжирования ссылок. Внешний применяется соответственно к внешним бэклинкам, а внутренний - к ссылкам из спамной внутренней перелинковки.
    15. Накрутка поведенческих факторов - санкции за искусственную накрутку ПФ. Как результат, сайт отображается только по витальным запросам.
    16. Кликджекинг - штраф за размещение на странице сайта невидимых элементов (обман пользователей), с которыми взаимодействует пользователь, даже не подозревая этого.
    17. Аффилированность - удаление из выдачи сайтов одного владельца, которые продвигаются в одной тематике и по одинаковым запросам. Оставление только одного сайта в зоне видимости. Рекомендую ознакомиться с этой шутливой, но поучительной статьей, про сайты-аффилиаты.
    18. За одинаковые сниппеты - склейка страниц сайтов, у которых одинаковые фрагменты страниц - title и description. Для устранения делайте уникальные сниппеты со вставкой названия компании или сайта.

    5. Какие действия нужны для эффективного SEO в Яндекс?

    1. Важным фактором ранжирования являются ссылки на определенные продвигаемые страницы-сайта.
    2. Не так важен объемный (раскрывающий тему) контент, как в Google. Важно не переспамить его ключами и не переоптимизировать страницу по ним.
    3. Текстовая оптимизация страницы более требовательна, чем под Google. Нужно учитывать вхождения в разные зоны документа, что мы и делаем при заказе семантического ядра
    4. Не учитывается атрибут alt при ранжировании изображений
    5. Микроразметку лучше внедрять в формате schema.org, а не json
    6. Сниппет в результатах поиска (фрагмент текста со страницы) чаще всего подтягивается из текста страницы, который релевантный запросу
    7. Есть возможность задать город продвижения.
    8. У Яндекса есть фильтры, в отличие от Google, у которого только алгоритмы
    9. Работают в плюс больше анкорные ссылки.
    10. Больший акцент при продвижении на коммерческих факторах (больший ассортимент) и поведенческих (клика на выдаче, длина клика и последний клик). Поведенческие факторы, по словам Google, не учитываются. Но это SEO-миф. Читайте № 19.
    11. Не такой ярко выраженный акцент на ссылочных факторах при продвижении, как в Google.

    Что Вы можете сказать?

    1. Что запомнилось лучше всего?
    2. Что было непонятно?