Сложности обработки запросов

24.05.2013 Аналитика и юзабилити

segalovich.jpgЗапросы бывает сложно распознать из-за их краткости и множества отличий от стиля нормального письма. Нередко также встречаются опечатки и неоднозначные фразы. Кроме того, запрос на английском не всегда подразумевает необходимость выдачи из английского сегмента.

Часто наблюдаются ситуации, когда язык запроса отличается от языка, на котором написан желаемый документ. К примеру, поиск испанской песни не означает, что все английские страницы с нею нерелевантны.

Понимание запроса возможно только при использовании всех его возможных интерпретаций и синонимов. Для этого используется поисковое расширение, которое невозможно создать без помощи лингвистов.

Поисковое решение обеспечивает полный "комплект" возможных переформулировок с сохранением изначального смысла. Это необходимо для того, чтобы скорректировать запрос, который зачастую неточен или небрежно составлен. Кроме того, такой подход позволяет включить в выдачу результаты поиска по синонимичным запросам, тем самым увеличив эффективность. В некоторых случаях пользователи оперируют неверными словами для запроса, например, в узкоспециализированных тематиках, и нужно угадать, что именно они имели в виду.

Сперва запрос дополняется морфологическими формами, и этот алгоритм был реализован еще в 90-х годах. Одновременно проходит очистка от омонимов (лук - растение или оружие?). Для каждого языка имеется словарь с автоматическим заполнением. Создаются модели словообразования, составляются аббревиатуры и транслитерации, проверяются различные варианты орфографического написания. В некоторых случаях приходится работать не только со словами - например, действие "скачать" может быть выполнено в виде кнопки и не иметь текстового представления.

Не менее интересной задачей является предсказание того, нужен ли человеку реальный объект или он ищет информацию о чем-либо. К примеру, ресторан на Льва Толстого никак не связан с писателем, и характеризуется лишь адресом.

Дополнение запроса другими словами помогает избавиться от неоднозначности и сузить спектр результатов поиска, убрав ошибочные и неточные варианты. Дополнение запроса контекстом обеспечивает более точную выдачу в 27%.

Бывают ситуации, когда запрос невозможно изменить, например, при поиске цитат. Не получается найти замены и для переименованных объектов или неоднозначных понятий.

Технологически замену можно реализовать на основе уточненного варианта запроса, сделанного после осмотра результатов первого поиска. Если возможна замена слова "а" на "б", поиск будет проведен для обоих вариантов. Затем результаты будут проанализированы на частоту появления каждого слова и "хвостовую" часть. При большом количестве совпадений слова будут признаны синонимичными и пополнят соответствующие словари.

Используется также анализ переходов. Например, если запрос "а" привел пользователя на ту же страницу, что и запрос "б", можно предположить, что эти запросы синонимичны, и результаты поиска по ним можно вместе включать в одну выдачу.

Суммарно получается 150 млн гипотез, из которых, после анализа статистики, остается 100 млн. После этого вступают в работу автоматические целевые методы, которые, работая со всей собранной информацией, принимают итоговое решение по замене слова. 

 
Больше интересных статей

Оставьте номер телефона, чтобы наш менеджер связался с вами в удобное для вас время

Ваше имя*
Ваш номер телефона*
Тема для обсуждения
Выберите удобное время для звонка
9:00 9:15 9:30 9:45 10:00 10:15 10:30 10:45 11:00 11:15 11:30 11:45 12:00 12:15 12:30 12:45 13:00 13:15 13:30 13:45 14:00 14:15 14:30 14:45 15:00 15:15 15:30 15:45 16:00 16:15 16:30 16:45 17:00 17:15 17:30 17:45
Виды услуг
ОбзорМаксимальный размер файла - 10 мб