webtraf

15.03.2019

Что такое факторы ранжирования и зачем они нужны?

Комментариев нет :




Качество поисковой системы измеряется различными способами. Качество зависит от объёма поисковой базы, от того сколько сайтов содержится в поисковой базе и от качества сниппетов - маленького текстового описания к каждому сайту в результатах поисковой выдачи.

Качество ранжирования — это выбор и упорядочивание наиболее релевантных запросу результатов.

Релевантность — это субъективное понятие, например, у пользователя есть задача что-то найти, и он вводит это в поисковую систему, при этом может теряться смысл или информация о том, что на самом деле он хотел найти.

Поисковые системы пытаются решать задачу релевантности и пытаются из нескольких миллионов сайтов и из миллиарда страниц выбрать лучшие десять страниц — топ 10.

Факторы ранжирования — это числовые или категориальные характеристики пары документ-запрос.
·         Региональный поиск — учитывает регион пользователя.
·         Персонализированный поиск — учитывает пользовательские идентификаторы.
·         В особых случаях этот фактор может характеризовать только документ, невзирая на запрос, или наоборот, только запрос, невзирая на документ.

Можно выделить и придумать очень много факторов, некоторые из них будут простыми. Многие факторы — это плоды многолетних трудов, но далеко не все факторы одинаково полезны.

Виды факторов (по источнику данных)

·         Текстовые факторы — одни из самых важных, потому что пользователь вводит текстовый запрос и поиск идет по текстам документов.

o    Фактор оценки соответствия текста запроса и текста документа.

o    Фактор тематической классификации к текстам документов или к тексту запроса, и сравнение темы документов и запросов.

o    Язык и длина документа тоже является фактором и играет свою немаловажную роль в ранжировании.

·         Ссылочные факторы.

Огромное количество ссылок существует между страницами, которые образуют граф, где вершинами являются страницы, а ссылки между ними — это дуги. На основе этого графа можно придумать очень много факторов, таких как цитируемость документов, различные характеристики как page runk, а также значимость ссылки.

 Так, например, если у ссылок есть текст, который не относится к ссылаемому документу, то такая ссылка ничего не значит. Все те же факторы, которые применяются к обычному тексту, применяются и к ссылкам, т. е. учитывается релевантность и тематичность ссылки.

·         Статистические факторы. 

    Основаны на подсчетах и статистике.

o    Фактор популярности запроса. Насколько данный запрос популярен среди пользователей, насколько он популярен в определенное время.

o    Фактор популярности сайта. Насколько данный сайт популярен среди пользователей Яндекса. Насколько часто пользователи кликают на такой документ в поисковой выдаче.

·         Географические.

·         Временные факторы. Дата создания и обновления, а также временная актуальность документа.

Еще можно придумать очень много источников данных, и выше описаны только некоторые факторы. Также можно комбинировать различные источники факторов. Но реальную пользу для ранжирования удаётся получить только от некоторых.

Виды факторов (по месту расчета)

·         Самые простые для вычисления уже при поиске факторов — это статические. Невзирая на запрос, определяются документы, какие-то лучше, какие-то хуже. Это определяется еще до того как документ попадает в поисковую базу, это делается в оффлайне и подходит для большинства несвежих документов.

·         Запросные факторы. Они вычисляются один раз за запрос и их не нужно вычислять для каждого документа заново.

·         Динамические факторы. Самые сложные и вычислительно трудные, но самые полезные, т. к. учитывают и запрос, и документ. Вычисляются для каждой пары документ-запрос.

Как из множества факторов отобрать самые релевантные сайты

Собираются данные и факторы о разных документах, часть данных получается из поискового запроса. Далее все комбинируется, рассчитывается по формуле и осуществляется попытка поставить на первое место в поисковой выдаче самый релевантный сайт. Если факторов немного, то можно составить простую формулу оценки факторов и, в принципе, этого было бы достаточно.

Но количество различных факторов очень большое, поэтому в данном случае используется MatrixNet. В данном процессе используется обучение поисковой системы. Поисковую систему обучают асессоры, которые оценивают заранее выбранную пару документ-запрос, для которых уже известны и рассчитаны все факторы.

Задача MatrixNet использовать только факторы и смоделировать такую формулу расчета, которая бы быстро рассчитывала и выдавала оптимальные результаты ранжирования сайтов, а качество ранжирования сопоставляется с оценками асессоров.

Факторы ранжирования

В настоящий момент при ранжировании используется около 1000 разнообразных факторов и используется несколько формул при вычислении релевантности и позиций для ранжирования сайта в поисковой выдаче. Формулы выбираются разные и зависят от региона пользователя, от его цели и запроса.

Некоторые запросы используют формулы, в которых присутствует не весь набор факторов, а только некоторые. В формуле есть правила, если определённый фактор больше некой величины, то к общей оценке релевантности сайта добавить столько-то.

Я предполагаю, чем оценка больше, тем ранжирование сайта в поисковой выдаче выше. Формулы меняются, в них могут добавить новые факторы и удалить бесполезные или неэффективные, также может меняться минимальная величина срабатывания фактора и его приоритет.

Вам будет интересно - Асессоры Яндекса    Аналитики Google

Теги; факторы ранжирования, ранжирование сайта в поисковой, ранжирование сайта, поисковой базе, релевантность, качество ранжирования

Комментариев нет :

Отправить комментарий