Основы поисковых алгоритмов - часть I

26.12.2011 SEO-продвижение
Хорошая поисковая система не пытается выдавать страницы, которые лучше всего подходят к запросу. Хорошая поисковая система пытается ответить на тот вопрос, который подразумевается запросом.  Если вы это поймете, то также вам станет очевидно, почему Google (и другие поисковые системы), используют сложный алгоритм для определения того, какие результаты следует показывать в выдаче. В алгоритме учитываются «весомые» факторы, такие как количество обратных ссылок на страницу и какие-то ссылки с социальные сетей, количество кликов по кнопке +1 в Google.  Это обычно называют внешними факторами. Есть также внутристраничные факторы. Здесь играет роль то, как страница структурирована и отдельные элементы страницы. Только проанализировав внутренние и внешние факторы поисковые системы могут определить, какие страницы ответят на вопрос, подразумеваемый запросом пользователя. Для этого поисковикам необходимо анализировать и текст на странице. 
В этой статье я подробно остановлюсь на проблемах поисковой системы и альтернативных решениях. Эта статья, к сожалению, не вывернет вам наизнанку алгоритм Google, но мы на один шаг приблизимся к понимаю тех советов, которые дают SEO-специалисты. В статье будут встречаться формулы, но вы этого не бойтесь. 

True или False

Поисковые системы в последние годы очень сильно эволюционировали, но первое время они только умели определять, присутствует ли слово запроса в документе или нет. Что-то вроде  true или false, 1 или 0 (программисты поймут это сравнение). Можно было использовать операторы   AND (и), OR (или) и NOT (нет) для поиска документов, которые содержат несколько слов запроса одновременно или чтобы исключить какие-то слова при поиске документов.  Это звучит довольно просто, но в таком подходе заложены определенные проблемы. Предложим, у нас есть два документа, которые содержат следующий текст:

Doc1:
“And our restaurant in New York serves croquets and bitterballen.”
Doc2:
“In the Netherlands you retrieve croquets and frikandellen from the wall.”
 
Если бы нам нужно было создать поисковую систему, первый шаг – это пометка текста. Мы хотим, чтобы у нас получилось быстро определять, какие документы содержат нужное слово. Это будет проще сделать, если мы расставим метки по базе данных. Если метка это каждое отдельное слово в тексте, то сколько же меток содержит Doc1?

В момент, когда вы начинаете отвечать себе на этот вопрос, вы наверное думаете об определении «термина». Вообще-то в этом примере "New York" следует рассматривать как один термин. Как нам указать, что два отдельных слова могут на самом деле обозначать одно явление или объект, останется за рамками этой статьи, поэтому пока мы будем каждое отдельное слово помечать отдельной меткой. Итак, у нас есть 10 меток в  Doc1 и 11 меток в Doc2. Чтобы избежать дублирования информации в нашей базе данных, мы выставляем типы, а не метки. 

Типы – это уникальные метки в тексте, т.е. не повторяющиеся. В примере Doc1 содержит метку  "and" два раза. В этом случае я игнорирую факт, что один раз эта метка появляется с заглавной, а другой – с прописной буквы. Как и с определением термина, существуют определенные технологии определения того, нужна заглавная буква в слове или не обязательна. В данном случае мы  допускаем, что “And” и “and” – это один тип. 

Сохраняя все типы в базе данных с документами, где мы можем найти их, мы также можем искать по базе данных с помощью логических выражений. Запрос "croquets" выдаст как Doc1, так и Doc2. На запрос  "croquets AND bitterballen" мы получим уже только Doc1. Проблема этого метода в том, что велика вероятность получить слишком мало или слишком много результатов. Кроме того, в этом методе результаты никак не организованы. Если мы хотим улучшить этот метод, нужно будет определить, что мы могли бы использовать, помимо присутствия/отсутствия слова в документе. Какие факторы внутри страницы можно использовать, чтобы распределить (организовать в определенном порядке) результаты поиска?

Зональное индексирование

Относительно простой метод – это использование зонального индексирования. Веб-страница может быть поделена на различные зоны. Подумайте о заголовке, описании, авторе и теле документа. Определяя вес для каждой зоны документа, мы сможем очень просто начислить баллы для каждой страницы в выдаче. 
Процедура оценки по зонам страницы в баллах выглядит так: 

sa1.png

Мы смотрим по запросу “croquets AND bitterballen”
И получаем документ со следующими зонами: 

sa2.png

Но поскольку в определенный момент все начали манипулировать весом, который поисковики придавали, например,  description, для Google становилось все важнее разделят текст на зоны и придавать различные веса каждой из них. 

Этот довольно сложная задача, потому что в сети есть множество документов с очень разными типами структуры. Интерпретация XML-документа такой машиной весьма проста, а вот интерпретация HTML-документа для поисковика становится уже сложнее. Структура и теги более ограничены, что усложняет анализ. Конечно, в ближайшем будущем появится HTML5, кроме того, Google поддерживает микроразметку. Например, если вы знаете, что Google придает больше веса контенту в теге <content> и меньше – контенту в теге <footer>, вы никогда не будете использовать второй тег. 

Чтобы определить контекст страницы, Google потребуется разделить веб-старницу на блоки. Таким образом Google может оценить, какие блоки страницы более важны, а какие менее. Один из методов, используемых при этом – это соотношение текста и кода. Блок страницы, содержащий боле текста, чем HTML-кода, в глазах поисковика содержит основной контент страницы. Блок, который содержит много ссылок или  HTML-кода, содержит мало контента и, скорее всего, является меню. Поэтому выбор правильного редактора WYSIWYG очень важен. Некоторые редакторы добавляют слишком много лишнего HTML-кода. 

Использование соотношения текста и кода – это только один из методов, которые поисковая система использует, чтобы разделить страницу на блоки. 

Преимущество зонального индексирования в том, что вы можете очень просто посчитать баллы, которые заслуживает каждый документ. Недостаток, конечно, в том, что многие документы получат одинаковые оценки. 

Продолжение статьи читайте по ссылке Основы поисковых алгоритмов - часть II

 
Больше интересных статей

Оставьте номер телефона, чтобы наш менеджер связался с вами в удобное для вас время

Ваше имя*
Ваш номер телефона*
Тема для обсуждения
Выберите удобное время для звонка
9:00 9:15 9:30 9:45 10:00 10:15 10:30 10:45 11:00 11:15 11:30 11:45 12:00 12:15 12:30 12:45 13:00 13:15 13:30 13:45 14:00 14:15 14:30 14:45 15:00 15:15 15:30 15:45 16:00 16:15 16:30 16:45 17:00 17:15 17:30 17:45
Виды услуг
ОбзорМаксимальный размер файла - 10 мб