Основы поисковых алгоритмов - часть III

30.12.2011 SEO-продвижение

Ускорение процесса 

Чтобы провести эти подсчеты для каждого документа,  потребуются огромные процессорные мощности. Это можно исправить, добавив  какие-то статичные метрики, чтобы определить, для каких документов вам нужно рассчитать баллы. Например, PageRank – это хороший статичный показатель. Когда вы считаете баллы для страниц, релевантных запросу и имеющих высокий PageRank, велики шансы, что таким образом найдете документы, которые оказались в ТОП-10 по данному запросу.  

Еще можно использовать список чемпионов. Для каждого слова возьмите ТОП-N документов с лучшими оценками. Если запрос многословный, можно сделать пересечение этих списков, чтобы найти документы, содержащие все слова запроса и при этом имеющие высокие баллы. 
Если слишком мало документов содержат все слова запроса, тогда можно искать из всей базы документов. 

Фидбек по релевантности

Релевантность приписывает больше или меньше веса слову в запросе, на основе релевантности документа. Используя релевантность, поисковая система может изменять запрос, не уведомляя пользователя. 

В первую очередь сейчас нужно определить, является ли документ релевантным. В некоторых поисковых системах у пользователей есть инструментарий для определения того, насколько документ релевантен. Раньше в Google можно было добавить звездочку к лучшим результатам поиска. Сейчас поисковый гигант пытается получать фидбек о релевантности с помощью кнопки +1. Большое количество пользователей, кликающих по кнопке на определенном результате, Google расценит это как сигнал о высокой релевантности документа запросу. 

Другой метод – оценка страниц, которые уже заняли высокие позиции. Их можно считать релевантными. Опасность этого метода в сдвиге тематики. Если вы ищете bitterballen и croquettes, при этом топовые позиции занимают закусочные Амстердама, есть опасность того, что при подсчете будет придаваться вес Амстердаму и в итоге вы получите просто закусочные Амстердама в топе.  
Еще один способ, который может использоваться Google – это «добыча данных» (data mining). Они могут посмотреть на CTR (кликабельность) разных страниц в выдаче. Страницы с высоким CTR и низким показателем отказов могут быть признаны наиболее релевантными.  Страниц с очень высоким показателем отказов будут нерелевантными. 
Пример того, как можно использовать эти данные для оценки веса запроса, приводится в формуле вычисления фидбека Rochio. Она оценивает вес каждого слова в запросе и возможность добавления дополнительных слов в запрос. Формула такая:   

sa7.png

Приведенная ниже таблица – дает визуальное представление этой формулы.  Предположим, мы говорим о таких оценках: :
Слова запроса: +1 (alpha)
Релевантные слова: +1 (beta)
Нерелевантные слова: -0.5 (gamma)

У нас запрос следующий: 
“croquets and bitterballen”
Релевантность документов:  
Doc1   : релевантен
Doc2   : релевантен
Doc3   : НЕрелевантен

sa8.png

Новый запрос такой: 
croquets(2) and(1) bitterballen(1) cafe(0.5)

Вес каждого слова – это вес, который он получает в данном запросе. Мы можем использовать эти веса в своих векторных вычислениях. Несмотря на то, что Амстердам получил вес -0.5, негативные веса возвращаются к 0. Таким образом мы не исключим слова из каждого результата поиска. И хотя  слово «café» не появлялось в первоначальном запросе, оно было добавлено и получило вес в новом запросе.  
Если предположить, что Google использует этот метод  фидбека о релевантности, тогда стоит посмотреть на страницы, которые уже ранжируются по этому запросу. 

Выводы
Мы рассмотрели один из вариантов оценки полезности документа, основанной на контенте страницы. Несмотря на то, что общий вектор данного метода довольно точен, это, конечно, не единственный способ вычисления релевантности. Есть много уточнений к этой модели и вообще она остается лишь частью общего алгоритма ранжирования поисковых систем. Мы рассмотрели также тему фидбека по релевантности (вспоминаем алгоритм Панда). 

По материалам Seomoz

 
Больше интересных статей

Оставьте номер телефона, чтобы наш менеджер связался с вами в удобное для вас время

Ваше имя*
Ваш номер телефона*
Тема для обсуждения
Выберите удобное время для звонка
9:00 9:15 9:30 9:45 10:00 10:15 10:30 10:45 11:00 11:15 11:30 11:45 12:00 12:15 12:30 12:45 13:00 13:15 13:30 13:45 14:00 14:15 14:30 14:45 15:00 15:15 15:30 15:45 16:00 16:15 16:30 16:45 17:00 17:15 17:30 17:45
Виды услуг
ОбзорМаксимальный размер файла - 10 мб