Ющук Евгений Леонидович (yushchuk) wrote,
Ющук Евгений Леонидович
yushchuk

Некоторые подробности о работе Яндекса (со странички Миныча )

"Переколдовка" запроса: анализ запроса и наложение контекстных ограничений по умолчанию

Основываясь на своих внутренних соображениях Яндекс для отбора документов налагает дополнительные условия на порядок следования слов (заданных в поисковом запросе) в документе и их значимость для запроса. Каждому слову из запроса Яндекс назначает вес. Вес составляется, скорее всего, по частоте
встречаемости слов в эталонной коллекции документов. До сегодняшнего дня вес легко определяется для любого слова, а когда Яндекс закроет к этому доступ, то его можно будет определить из проиндексированных страниц, либо измеряя вес по эталонному слову, вес которого известен. Для редких слов вес "обрезается" на большом значении и одинаков для всех редких слов. Можно даже предположить, что "максимум" веса (число 2063133498) совсем не вес, а признак "редкого" слова, так как слов с весом более 5000000 и не равных при этом числу 2063133498, я не встречал.
Какие именно ограничения накладываются Яндексом легко определяется путем анализа URL ссылки "Найденные слова" в результатах выдачи Яндекса. Обратите особое внимание на поле "reqtext=". Если для удобства преобразовать строку URL к русскому шрифту (известно, что для преобразования в URL некоторые символы должны быть преобразованы в так называемые escape последовательности), то, например для запроса (proplex salamander сравнение профилей) подстрока URL "Найденные слова" (поле reqtext) будет выглядеть так:

&reqtext=(proplex::3637618+&&+salamander::3027057+&&/(-7+7)+сравнение::12142+&+профилей::3936)//6

Вес слова - это число, которое идет после двойного двоеточия. Двойное && между словами означает, что эти два слова могут находиться в любом месте документа. Одинарное & означает, что эти слова должны находиться в одном предложении. Конструкция &&/(-7+7) говорит, что слова salamander и сравнение должны быть в тексте не далее чем на плюс-минус семь предложений. Если бы мы увидели конструкцию &/(-2+4), то это бы означало условие " не далее чем на 4 слова вперед и два назад". //6 обозначает "мягкость" запроса равна 0,06 (смотрите далее - отбор по кворуму).
Иногда исходный запрос так переколдовывается, что некоторые слова вообще выпадают из поиска, а некоторые слова добавляются к запросу Самые яркие примеры: "что такое стеклопакет" и "человек года". "Что такое" в поиске заменяется на слова "это", "аббревиатура", "обозначает"... Вместе со словом "человек" Яндекс будет искать также "люди", а наряду со словом "года" - "лето".
http://www.minich.ru/business/seo/

У Яндекса Вы можете встретить утверждение, что пробел в поисковой фразе означает поиск в одном предложении, но как мы видим, это не соответствует действительности. Можно заметить также общую тенденцию, что чем выше вес слов, тем слабее ограничение по расстоянию между словами.


Достаточно важным является термин "предложение". Разделителем предложения могут быть точка, восклицательный и вопросительный знаки, а также некоторые тэги html кода блокового уровня, например < td>, < div>, < br>, < p> и т.д. (в том числе и "завершающие" тэги). Заметим, что "точка" НЕ ВСЕГДА делит текст на предложения (инициалы и т.п.). Имеется также ограничение на длину предложения в словах. Например, если задать ограничение при поиске "не менее 63 слов между словами в одном предложении" &/(63 2000), то ничего не будет "найдено". "Двойной" (тройной,...) разделитель считается за один.

Tags: Бизнес-разведка, Евгений Ющук, Конкурентная разведка, Маркетинг, Ющук Евгений Леонидович
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments