15.03.2019
Что такое факторы ранжирования и зачем они нужны?
Качество
поисковой системы измеряется различными способами. Качество зависит от объёма
поисковой базы, от того сколько сайтов содержится в поисковой базе и от
качества сниппетов - маленького текстового описания к каждому сайту в
результатах поисковой выдачи.
Качество
ранжирования — это выбор и упорядочивание
наиболее релевантных запросу результатов.
Релевантность — это субъективное понятие, например, у пользователя есть задача
что-то найти, и он вводит это в поисковую систему, при этом может теряться
смысл или информация о том, что на самом деле он хотел найти.
Поисковые
системы пытаются решать задачу релевантности и пытаются из нескольких миллионов
сайтов и из миллиарда страниц выбрать лучшие десять страниц — топ 10.
Факторы
ранжирования — это числовые или категориальные
характеристики пары документ-запрос.
·
Региональный поиск — учитывает
регион пользователя.
·
Персонализированный поиск —
учитывает пользовательские идентификаторы.
·
В особых случаях этот фактор может
характеризовать только документ, невзирая на запрос, или наоборот, только
запрос, невзирая на документ.
Можно
выделить и придумать очень много факторов, некоторые из них будут простыми.
Многие факторы — это плоды многолетних трудов, но далеко не все факторы
одинаково полезны.
Виды
факторов (по источнику данных)
·
Текстовые факторы — одни из самых
важных, потому что пользователь вводит текстовый запрос и поиск идет по текстам
документов.
o
Фактор оценки соответствия текста
запроса и текста документа.
o
Фактор тематической классификации к
текстам документов или к тексту запроса, и сравнение темы документов и
запросов.
o
Язык и длина документа тоже является
фактором и играет свою немаловажную роль в ранжировании.
·
Ссылочные факторы.
Огромное
количество ссылок существует между страницами, которые образуют граф, где
вершинами являются страницы, а ссылки между ними — это дуги. На основе этого
графа можно придумать очень много факторов, таких как цитируемость документов,
различные характеристики как page runk, а также значимость ссылки.
Так,
например, если у ссылок есть текст, который не относится к ссылаемому
документу, то такая ссылка ничего не значит. Все те же факторы, которые
применяются к обычному тексту, применяются и к ссылкам, т. е. учитывается
релевантность и тематичность ссылки.
·
Статистические факторы.
Основаны на
подсчетах и статистике.
o
Фактор популярности запроса. Насколько
данный запрос популярен среди пользователей, насколько он популярен в
определенное время.
o
Фактор популярности сайта. Насколько
данный сайт популярен среди пользователей Яндекса. Насколько часто пользователи
кликают на такой документ в поисковой выдаче.
·
Географические.
·
Временные факторы. Дата создания и
обновления, а также временная актуальность документа.
Еще можно
придумать очень много источников данных, и выше описаны только некоторые факторы.
Также можно комбинировать различные источники факторов. Но реальную пользу для
ранжирования удаётся получить только от некоторых.
Виды
факторов (по месту расчета)
·
Самые простые для вычисления уже при
поиске факторов — это статические. Невзирая на запрос, определяются документы,
какие-то лучше, какие-то хуже. Это определяется еще до того как документ
попадает в поисковую базу, это делается в оффлайне и подходит для большинства
несвежих документов.
·
Запросные факторы. Они вычисляются один
раз за запрос и их не нужно вычислять для каждого документа заново.
·
Динамические факторы. Самые сложные и
вычислительно трудные, но самые полезные, т. к. учитывают и запрос, и документ.
Вычисляются для каждой пары документ-запрос.
Как из
множества факторов отобрать самые релевантные сайты
Собираются
данные и факторы о разных документах, часть данных получается из поискового
запроса. Далее все комбинируется, рассчитывается по формуле и осуществляется
попытка поставить на первое место в поисковой выдаче самый релевантный сайт.
Если факторов немного, то можно составить простую формулу оценки факторов и, в
принципе, этого было бы достаточно.
Но количество
различных факторов очень большое, поэтому в данном случае используется
MatrixNet. В данном процессе используется обучение поисковой системы. Поисковую
систему обучают асессоры, которые оценивают заранее выбранную пару документ-запрос, для которых уже
известны и рассчитаны все факторы.
Задача
MatrixNet использовать только факторы и смоделировать такую формулу расчета,
которая бы быстро рассчитывала и выдавала оптимальные результаты ранжирования
сайтов, а качество ранжирования сопоставляется с оценками асессоров.
Факторы ранжирования
В настоящий
момент при ранжировании используется около 1000 разнообразных факторов и
используется несколько формул при вычислении релевантности и позиций для
ранжирования сайта в поисковой выдаче. Формулы выбираются разные и зависят от
региона пользователя, от его цели и запроса.
Некоторые
запросы используют формулы, в которых присутствует не весь набор факторов, а
только некоторые. В формуле есть правила, если определённый фактор больше некой
величины, то к общей оценке релевантности сайта добавить столько-то.
Я
предполагаю, чем оценка больше, тем ранжирование сайта в поисковой выдаче выше.
Формулы меняются, в них могут добавить новые факторы и удалить бесполезные или
неэффективные, также может меняться минимальная величина срабатывания фактора и
его приоритет.
Теги; факторы
ранжирования, ранжирование сайта в поисковой, ранжирование сайта, поисковой
базе, релевантность, качество ранжирования
Подписаться на:
Комментарии к сообщению
(
Atom
)
Комментариев нет :
Отправить комментарий