Ющук Евгений Леонидович (yushchuk) wrote,
Ющук Евгений Леонидович
yushchuk

Язык запросов Яндекс - язык Яндекс: описание, синтаксис

http://www.ebanners.ru/viewtopic.php?t=236



21 Фев 2005 Пн 14:28 Заголовок сообщения: Язык запросов Яндекс - язык Яндекс: описание, синтаксис
Язык запросов Яндекс - язык Яндекс: описание, синтаксис

Детальное описание языка запросов Яндекса

Оглавление

Как трактуются слова
Естественно-языковый поиск Яндекса
Основные операторы
Поиск с расстоянием
Скобки
Поиск в зонах
Поиск в определенных элементах документа
Ранжирование результата поиска в Яндексе



Как трактуются слова

Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка.

Код:
Например, если задан запрос 'идти', то в результате поиска будут найдены ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т.д. На запрос 'окно' будет выдана информация, содержащая и слово 'окон', а на запрос 'отзывали' - документы, содержащие слово 'отозвали'.



Если вы набрали в запросе слово с большой буквы, будут найдены только слова с большой буквы (если это слово не первое в предложении), в противном случае будут найдены как слова с большой, так и с маленькой буквы.

Код:
Например, по запросу 'путина' найдется и президент, и сезон интенсивного рыболовства. А по запросу 'Путина' - президент и те случаи упоминания рыболовного сезона, когда он написан с большой буквы (например, если с него начинается предложение).



По умолчанию поиск учитывает все формы заданного слова согласно правилам русского языка. Однако существует возможность поиска по точной словоформе, для этого перед словоформой надо поставить восклицательный знак '!'.

Код:
Так по запросу '!Лужкову' будут найдены все документы, содержащие словоформу 'Лужкову', а по запросу 'Лужков ~~ !Лужкову' - документы, в которых упоминается Лужков, кроме тех, которые были найдены по первому запросу.



Естественно-языковый поиск

Знаки "+" и "-". Если вы хотите, чтобы слова из запроса обязательно были найдены, поставьте перед каждым из них "+". Если вы хотите исключить какие-либо слова из результата поиска, поставьте перед каждым из них "-".

Код:
Например, запрос 'частные объявления продажа велосипедов', выдаст много ссылок на сайты с разнообразными частными объявлениями. А запрос с "+" 'частные объявления продажа +велосипедов' покажет объявления о продаже именно велосипедов.
Если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос 'путеводитель по парижу -агентство -тур'



Обратите внимание на знак "-". Это именно минус, а не тире и не дефис. Знак "-" надо писать через пробел от предыдущего и слитно с последующим словом, вот так: 'рак -гороскоп'. Если написать 'рак-гороскоп' или 'рак - гороскоп', то знак "-" будет проигнорирован.

Основные операторы

Несколько набранных в запросе слов, разделенных пробелами, означают, что все они должны входить в одно предложение искомого документа. Тот же самый эффект произведет употребление символа '&'.

Код:
Например, при запросе 'лечебная физкультура' или 'лечебная & физкультура'), результатом поиска будет список документов, в которых в одном предложении содержатся и слово 'лечебная', и слово 'физкультура'. (Эквивалентно запросу '+лечебная +физкультура')



Между словами можно поставить знак '|', чтобы найти документы, содержащие любое из этих слов. (Удобно при поиске синонимов).

Код:
Запрос вида 'фото | фотография | фотоснимок | снимок | фотоизображение' задает поиск документов, содержащих хотя бы одно из перечисленных слов.



Еще один знак, тильда '~', позволит найти документы с предложением, содержащим первое слово, но не содержащим второе.

Код:
По запросу 'банки ~ закон' будут найдены все документы, содержащие слово 'банки', рядом с которым (в пределах предложения) нет слова 'закон'.



Чтобы подняться на ступеньку выше, от уровня предложения до уровня документа, просто удвойте соответствующий знак. Одинарный оператор (&, ~) ищет в пределах предложения, двойной (&&, ~~) - в пределах документа.

Код:
Например, по запросу 'рецепты && (плавленый сыр)' будут найдены документы, в которых есть и слово 'рецепты' и словосочетание '(плавленый сыр)' (причем '(плавленый сыр)' должен быть в одном предложении. А запрос 'руководство Visual C ~~ цена' выдаст все документы со словами 'руководство Visual C', но без слова 'цена'



Поиск с расстоянием

Часто в запросах ищут устойчивые словосочетания. Если поставить их в кавычки, то будут найдены те документы, в которых эти слова идут строго подряд.

Код:
Например, по запросу "красная шапочка" будут найдены документы с этой фразой. (При этом контекст "а шапочка у нее была красная" найден не будет.)




Как Яndex адресует слова? Если все слова в тексте перенумеровать по порядку их следования, то расстояние между словами a и b - это разница между номерами слов a и b. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими "не в том порядке", равно -1. То же самое относится и к предложениям.

Если между двумя словами поставлен знак '/', за которым сразу напечатано число, значит, требуется, чтобы расстояние между ними не превышало этого числа слов.

Код:
Например, задав запрос 'поставщики /2 кофе', вы требуете найти документы, в которых содержатся и слово 'поставщики' и слово 'кофе', причем расстояние между ними должно быть не более двух слов и они должны находиться в одном предложении. (Найдутся "поставщики колумбийского кофе", "поставщики кофе из Колумбии" и т.д.)



Если порядок слов и расстояние точно известны, можно воспользоваться пунктуацией '/+n'. Так, например, задается поиск слов, стоящих подряд.

Код:
Запрос 'синяя /+1 борода' означает, что слово 'борода' должно следовать непосредственно за словом 'синяя'. (К тому же результату приведет запрос "синяя борода")



В общем виде ограничение по расстоянию задается при помощи пунктуации вида '/(n m)', где 'n' минимальное, а 'm' максимально допустимое расстояние. Отсюда следует, что запись '/n' эквивалентна '/(-n +n)', а запись '/+n' эквивалентна '/(+n +n)'.

Код:
Запрос 'музыкальное /(-2 4) образование' означает, что 'музыкальное' должна находиться от 'образование' в интервале расстояний от 2 слов слева до 4 слов справа.



Практически все знаки можно комбинировать с ограничением расстояния.

Код:
Например, результатом поиска по запросу 'вакансии ~ /+1 студентов' будут документы, содержащие слово 'вакансии', причем в этих документах слово 'студентов' не следует непосредственно за словом 'вакансии'.



Когда знаки ограничения по расстоянию стоят после двойных операторов, то употребленные там числа - это расстояние не в словах, а в предложениях. Расстояние в абзацах определяется аналогично расстоянию в словах.

Код:
Запрос 'банк && /1 налоги' означает, что слово 'налоги' должно находиться в том же самом, либо в соседнем со словом 'банк' предложении.



Скобки

Вместо одного слова в запросе можно подставить целое выражение. Для этого его надо взять в скобки.

Код:
Например, запрос '(история | технология | изготовление) /+1 (сыра | творога)' задает поиск документов, которые содержат любую из фраз 'история сыра', 'технология творога', 'изготовление сыра', 'история творога'.



Поиск в зонах

Можно искать информацию в "зонах" - заголовках (имя "зоны": Title), ссылках (имя "зоны": Anchor) и адресе (имя "зоны": Address).
Синтаксис: $имя_зоны (поисковое выражение).

Код:
Запрос '$title CompTek' ищет в заголовках документов слово 'CompTek'.
Запрос '$anchor (CompTek | Dialogic)' находит документы, в cсылках внутри которых есть одно из слов 'CompTek' или 'Dialogic'.




Поиск в определенных элементах

Можно ограничить поиск информации списком серверов или наоборот исключить сервера из поиска (url). Можно также искать документы, содержащие ссылки на определенные URL (link), и файлы картинок (image). Если вы хотите работать не с конкретным URL (image), а со всеми, начинающимися с данной последовательности символов, используйте "*".
Синтаксис: #имя_элемента="имя_файла (URL)".

Код:
По запросу 'CompTek ~~ #url="www.comptek.ru*"' будут искаться упоминания компании 'CompTek' везде, кроме ее собственного сервера (www.comptek.ru). А запрос '#link="www.comptek.ru*"' покажет все документы, которые сослались на сервер компании.
Запрос ' #image="tort*"' даст ссылки на документы с изображениями тортов (хотя, возможно, найдется и портрет черепахи Тортиллы).



Можно также искать по ключевым словам (keywords), аннотациям (abstract) и подписям под изображениями (hint).
Синтаксис: #имя_элемента=(поисковое выражение).

Код:
По запросу '#keywords=(поисковая система) | #abstract=(поисковая система)' будут искаться все страницы, в meta тегах которых есть эти слова.
По запросу '#hint=(кино)' будут найдены документы, содержащие изображение с такой подписью.



Ранжирование результата поиска

При поиске для каждого найденного документа Яндекс вычисляет величину релевантности (соответствия) содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания. Релевантность документа зависит от ряда факторов, в том числе от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.

Пользователь может повлиять на порядок сортировки, используя операторы веса и уточнения запроса.

Задание веса слова или выражения применяется для того, чтобы увеличить релевантность документов, cодержащих "взвешенное" выражение.
Синтаксис: слово:число или (поисковое_выражение):число

Код:
По запросу 'поисковые механизмы:5' будут найдены те же документы, что и по запросу 'поисковые механизмы'. Разница состоит в том, что наверху списка найденного окажутся документы, где чаще встречается именно слово 'механизмы'.
Запрос 'поисковые (механизмы | машины | аппараты):5 ' равнозначен запросу 'поисковые (механизмы:5 | машины:5 | аппараты:5)'.



Задание уточняющего слова или выражения применяется для того, чтобы увеличить релеватность документов, cодержащих уточняющее выражение.
Синтаксис: <- слово или <- (уточняющее_выражение)

Код:
По запросу 'компьютер <- телефон' будут найдены все документы, содержащие слово 'компьютер', при этом первыми будут выданы документы, содержащие слово 'телефон'.
Если ни в одном документе со словом 'компьютер' нет слова 'телефон', результат запроса будет эквивалентен запросу 'компьютер'.


Краткое описание языка запросов Яндекса (таблица)

Синтаксис языка запросов Яндекс (строгий поиск)

Синтаксис Что означает оператор Пример запроса

пробел или & логическое И (в пределах предложения)
лечебная физкультура

&& логическое И (в пределах документа)
рецепты && (плавленый сыр)

| логическое ИЛИ
фото | фотография | снимок | фотоизображение

+ обязательное наличие слова в найденном документе (работает также в применении к стоп-словам)
+быть или +не быть

( ) группирование слов
(технология | изготовление) (сыра | творога)

~ бинарный оператор И НЕ (в пределах предложения)
банки ~ закон

~~ или - бинарный оператор И НЕ (в пределах документа)
путеводитель по парижу ~~ (агентство | тур)

/(n m) расстояние в словах (-назад +вперед)
поставщики /2 кофе
музыкальное /(-2 4) образование
вакансии ~ /+1 студентов

" " поиск фразы
"красная шапочка"
(эквивалентно красная /+1 шапочка)

&&/(n m) расстояние в предложениях (-назад +вперед)
банк && /1 налоги



Поиск в элементах

Синтаксис Что означает оператор Пример запроса

$title (выражение) поиск в заголовке
$title (eBanners)

$anchor (выражение) поиск в тексте ссылок
$anchor (eBanners | форум)

#keywords=(выражение) поиск в ключевых словах
#keywords=(интернет реклама)

#abstract=(выражение) поиск в описании
#abstract=(форум | реклама)

#image="значение" поиск файла изображения
#image="tort*"

#hint=(выражение) поиск в подписях к изображениям
#hint=(lenin | ленин)

#url="значение" поиск на заданном сайте (странице)
#url="www.ebanners.ru*"

#link="значение" поиск ссылок на заданный URL
#link="www.reklama.su*"

#mime="значение" поиск в документах данного (pdf или rtf) типа
#mime="pdf"

 

Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments