Основы поисковых алгоритмов - часть II

29.12.2011 SEO-продвижение
Начало статьи доступно по ссылке Основы поисковых алгоритмов - часть I

Частотность ключевого слова 

Когда я просил вас подумать о внутристраничных факторах, которые вы могли бы использовать для определения релевантности документа, вы, скорее всего, подумали о частотности ключевого слова. Это логичный шаг, который должен помочь в определении веса документа в зависимости от того, насколько часто используется нужное слово.  

Некоторые SEO-компании стараются использовать определенное процентное соотношение ключевиков в тексте. Мы все знаем, что это неверный подход, но давайте я объясню, почему. Попробую объяснить на таких примерах. Ниже представлены некоторые формулы, но, как я уже говорил, важнее то, что стоит за ними. 
Цифры в этой таблице означают количество появлений слова в документе (частотность). Итак, какой из документов имеет более высокую оценку по запросам croquets и bitterballen ?
 
sa3.png

Документы получили такие оценки:
(“croquets и bitterballen”, Doc1) = 8 + 10 + 2 = 20
(“croquets и bitterballen”, Doc2) = 1 + 20 + 9 = 30

Doc 2 в этом случае оказался ближе к запросу. В этом примере слово «и» получает самый большой вес, но справедливо ли это? Это стоп-слово и мы хотели бы придавать ему минимальный вес. Мы можем заархивировать это, используя обратную частотность документов (tf-idf), которая противопоставлена  просто частотности документов (df). Частотность документов – это количество документов, в которых слово появляется. Обратная частотность, соответственно, наоборот.   По мере увеличения числа документов, содержащих запрос, показатель обратной частотности будет уменьшаться. 

Вы можете посчитать обратную частотность, поделив общее количество документов в вашем корпусе на количество документов, содержащих слово, и затем взять логарифм этого коэффициента. 

Предположим, что обратная частотность документа такова  
Idf(croquets)            = 5
Idf(and)                   = 0.01
Idf(bitterballen)         = 2

Тогда вы получите следующие оценки:
(“croquets и bitterballen”, Doc1) = 8*5  + 10*0.01 + 2*2 = 44.1
(“croquets и bitterballen”, Doc2) = 1*5 + 20*0.01 + 9*2 = 23.2

Теперь Doc1 получил более высокие баллы. Но сейчас мы не приняли ко вниманию длину. Документ, который содержит больше контента, не обязательно менее релевантный.  Длинный документ получает более высокие оценки очень легко по такому методу. 

Векторная модель

Мы можем решить этот вопрос, посмотрев на косинус похожести документов. Точное объяснение теории, лежащей в основе этого метода, находится за рамками данной статьи, но вы можете упрощенно понимать это как некую гармонию между словами запроса в документе. Я создал excel файл, в котором дается полное объяснение этой теории. Нам понадобятся следующие показатели: 

  • Слова запроса – каждое слово запроса в отдельности.
  • Частотность документа – сколько документов, содержащих этот запрос, есть в индексе Google 
  • Частотность  запроса – частотность для каждого отдельного слова в документе.
Вот пример, на котором я использовал эту модель. На сайте была страница, которая создавалась, чтобы хорошо ранжироваться по запросу "fiets kopen", что значит по-немецки “покупка мотоциклов”. Проблема была в том, что по этому запросу ранжировалась не эта, а главная страница сайта. 

Мы включаем в формулу ранее упомянутую обратную частотность документа = inverse document frequency (idf). Для этого нам понадобится суммарное количество документов в индексе Google. Мы примем значение, которое приводится на www.worldwidewebsize.com  N = 10.4 млрд.

Пояснения к таблице:
tf = term frequency (частотность запроса)
df = document frequency (частотность документов)
idf = inverse document frequency (обратная частотность документов)
Wt,q = weight for term in query (вес слова в запросе)
Wt,d = weight for term in document (вес слова в документе)
Произведение  = Wt,q * Wt,d
Баллы = Sum of the products (сумма произведений)

Для главной страницы, которая ранжировалась по данному запросу (www.fietsentoko.nl)

sa4.png

Страница, которая должна была получить хорошие позиции: www.fietsentoko.nl/fietsen

sa5.png

Несмотря на то, что во втором документе слова из запроса встречаются чаще,  он получил меньше баллов. Это произошло потому,  что между словами запроса не хватало сбалансированности.  После этого подсчета я изменил текст на странице и увеличил частотность слова  “fietsen”, при этом снизив частотность слова  “kopen”, который для поисковых систем является более общим словом, т.е. менее значимым.  На оценки документов это повлияло следующим образом:

sa6.png

Через несколько дней Google проиндексировал страницу и документ, который я изменил, начал ранжироваться по этому запросу. Можно сделать вывод, что количество употреблений слова чрезвычайно важно при ранжировании. Важно найти правильный баланс между словами в тексте, по которым вы хотите получить высокие позиции.  

Окончание статьи доступно по ссылке Основы поисковых алгоритмов - часть III

 
Больше интересных статей

Оставьте номер телефона, чтобы наш менеджер связался с вами в удобное для вас время

Ваше имя*
Ваш номер телефона*
Тема для обсуждения
Выберите удобное время для звонка
9:00 9:15 9:30 9:45 10:00 10:15 10:30 10:45 11:00 11:15 11:30 11:45 12:00 12:15 12:30 12:45 13:00 13:15 13:30 13:45 14:00 14:15 14:30 14:45 15:00 15:15 15:30 15:45 16:00 16:15 16:30 16:45 17:00 17:15 17:30 17:45
Виды услуг
ОбзорМаксимальный размер файла - 10 мб