July 3rd, 2005

Ющук Евгений Леонидович

Кавычки в Яндексе (рассказывает первое лицо Яндекса)

http://www.dialog-21.ru/forum/actualpost.aspx?bid=14&tid=320&mid=1413&p=1&act=quot

Илья Сегалович 4 мар 03, 16:08 Ответить | Ответить с цитированием

мы долго разглядывали логи, и пытались угадать что разумно искать в аокм случае, прежде чем внедрили следующие правила.

1. "весь запрос в кавычках" ищется по точным словоформам.
2. часть "запроса в кавычках", ищется как и раньше - с условием строго следования, но по любым формам.
3.одно "слово" в кавычках считается точной словоформой.


Collapse )
Collapse )

 

Ющук Евгений Леонидович

Вариант: Подробное описание языка запросов поисковой системы Яndex.

http://www.memo.ru/request.htm

Подробное описание языка запросов поисковой системы Яndex.

Оглавление.

* Операторы языка запросов.
* Задание области действия логических операторов.
o Описание синтаксиса и примеры.
o Расстояние между словами.
* Поиск в зонах
* Фразы
o Понятие фразы
o Поиск фразы
* Задание веса слова или выражения
* Описание алгоритма упорядочивания результатов поиска

Операторы языка запросов.
&, && - логическое пересечение (И)
~, ~~ - логическое исключение (И НЕ)
"|" или "," - логическое объединение (ИЛИ)
<- - оператор уточнения запроса (первый аргумент уточняется вторым)
Здесь для логических (первых трёх) операций "одинарный" оператор имеет смысл операции в пределах абзаца, "двойной" - в пределах документа. Смысл операторов поясняется в примерах).
Аргументами операторов являются слова или фразы.

Операторы приведены в порядке убывания приоритета, при этом приоритет у операторов пересечения и исключения - одинаковый.

Порядок действия операторов можно изменить расстановкой скобок.

Примеры:
компьютер & телефон оба слова должны находиться в одном абзаце
компьютер && телефон оба слова должны находиться в одном документе
компьютер ~ телефон второе слово не должно находиться в одном абзаце с первым
компьютер ~~ телефон второе слово не должно находиться в одном документе с первым
компьютер <- телефон из документов, содержащих первое слово, первыми будут выданы документы, содержащие второе слово
Задание области действия логических операторов.
#
Описание синтаксиса и примеры.
Модификация области действия логических операторов имеет смысл для операторов &, &&, ~, ~~.
Для оператора | модификация области действия синтаксически допустима (т.е. сообщение о синтаксической ошибке не выдаётся и поиск происходит), но на результат поиска не влияет.

Область действия операторов определяется в виде расстояния между словами или абзацами

Синтаксис задания области действия логических операторов:
/(число1 число2),
при этом число1 должно быть не больше, чем число2.
Сокращённая форма:
/число - равнозначно /(-число +число)
/+число - равнозначно /(0 число)
/-число - равнозначно /(-число 0)

Если задана область действия оператора, но не задан сам оператор, то применяется оператор & (пересечение внутри абзаца), т. е.
он /2 идёт - эквивалентно запросу он &/2 идёт

Смысл этих конструкций поясним на примерах:
он /(-2 4) идёт "идёт" должно находиться от "он" в интервале расстояний от 2 слов слева до 4 слов справа
он &&/1 идёт "идёт" должно находиться в том же абзаце, что и "он", либо в соседнем
он /+1 идёт "идёт" должно следовать за "он"
он /2 идёт "идёт" должно находиться на расстоянии 2 слова от "он" вне зависимости от порядка следования
он ~/(-4 +8) идёт "идёт" не должно находиться рядом со словом "он", причём "рядом" здесь означает "в интервале расстояний от 4 слов слева до 8 слов справа"
Расстояние между словами.
Если слова в тексте перенумеровать по порядку их следования, то расстояние между словами a и b - это разница между номерами слов a и b. Таким образом, расстояние между соседними словами равно 1 (а не 0).
При задании расстояния порядок следования слов существенен. Высказывания "на расстоянии в -2 слова" и "на расстоянии в 2 слова cлева" мы считаем равнозначными.
Высказывания "на расстоянии в +2 слова" и "на расстоянии в 2 слова справа" также равнозначны.
Расстояние между абзацами
Определяется аналогично расстоянию между словами (если заменить термин "слово" на термин "абзац").

#
Поиск в зонах
Сейчас работает поиск в двух зонах - заголовках (имя зоны: Title) и ссылках (имя зоны: A).

Синтаксис:
$имя_зоны выражение_поиска_в_зоне
Здесь выражением_поиска_в_зоне может быть:

* поисковое выражение в скобках,
* слово или фраза
* выражение поиска в зоне.

Примеры:
$Title КомпТек - ищем в заголовках документов это слово
$Title (КомпТек | Dialogic) - ищем в заголовках документов одно из слов
$A (читайте /+1 на /+1 сайте) - ищем в ссылках выражение, взятое в скобки
$Title $A КомпТек - ищем в ссылках, находящихся в заголовках документов
Фразы
Понятие фразы
Фразой называется последовательность слов, разделённых пробелами. Скобки и знаки операций являются разделителями фраз.
Например, в запросе злая собака ~ московская сторожевая есть две фразы: "злая собака" и "московская сторожевая". Они разделены знаком операции исключения ~. Этот запрос интерпретируется следующим образом:
- происходит поиск фразы "злая собака"
- происходит поиск фразы "московская сторожевая"
- результат второго поиска вычитается из первого.
Поиск фразы.
В текущей версии Яндекса фраза обрабатывается следующим образом: между словами фразы вставляется оператор пересечения внутри абзаца с расстоянием (-256 258). Таким образом, запрос
скромное обаяние буржуазии
равнозначен запросу
скромное /(-256 258) обаяние /(-256 258) буржуазии
При таком запросе наиболее релевантными будут те документы, в которых первое слово следует непосредственно за вторым, второе - непосредственно за третьим (если, конечно, такие документы есть). Если же найденном документе есть, например, фраза, в которой эти слова тоже находятся рядом, но в другом порядке, то его релевантность будет ниже.

#
Задание веса слова или выражения.
Применяется для того, чтобы увеличить релевантность документов, cодержащих "взвешенное" выражение.

Синтаксис:
слово:число
или
(поисковое_выражение):число

Примеры:
поисковые механизмы:5
поисковые (механизмы|машины|аппараты):5
Запрос
поисковые (механизмы|машины|аппараты):5
равнозначен запросу
поисковые (механизмы:5|машины:5|аппараты:5)

#
Описание алгоритма упорядочивания результатов поиска.
При поиске для каждого найденного документа Яндекс вычисляет величину релевантности (соответствия) содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания.

Релевантность документа зависит от следующих факторов:

* Частотные характеристики искомых слов;
* Вес слова или выражения, заданный пользователем;
* Факт расположения искомых слов в заголовке документа;
* Операторы, применяемые в запросе, их области действия;
* Близость искомых слов в тексте документа друг к другу.

Collapse )

 

Ющук Евгений Леонидович

Поиск в документах форматов pdf, Excel, PowerPoint и Word

http://www.tradecenter.ru/NewsAM/NewsAMShow.asp?ID=59595

21.02.2003 13:24:44 «Яндекс» стал копать еще глубже

Со вчерашнего дня поисковая система «Яндекс» ищет документы не только в формате HTML, но и в форматах *.rtf и *.pdf. В результатах поиска найденные документы нестандартных форматов помечаются после названия rtf и pdf соответственно. «Яндекс» стал первой поисковой системой русского Интернета, кто научился искать документы в форматах, специально разработанных компанией Adobe Software для публикации в Сети документов, предназначенных для печатно-полиграфических целей. Найденный в «Яндексе» документ можно увидеть в виде текста, воспользовавшись ссылкой «показать сохраненную копию». Текcтовое представление не сохраняет форматирование, но дает возможность ознакомиться с содержанием документа, не используя никаких программ, кроме браузера. На рынке западных поисковых систем искать документы формата *.rtf и .pdf могут как минимум три поисковых системы: Google, Alltheweb и Inktomi. Пионером в этом виде поиска стал Google, который в конце октября 2001 года объявил, что поисковая система помимо самого формата *.pdf умеет искать документы следующих форматов: *.doc (MS Word), *.xls (Excel), *.ppt (PowerPoint), *.rtf (RichText), *.ps (PostScript). «Мы понимаем, что в Сети документов форматов *.rtf и *.pdf меньше, чем обычных, но зачастую именно в них содержится критически важная информация, — сказал Илья Сегалович, руководитель отдела поисковых систем «Яндекса». — Мы планируем и дальше расширять список поддерживаемых форматов».

Collapse )

 

Ющук Евгений Леонидович

Яндекс ищет на шести языках

http://www.compulenta.ru/2004/3/26/45973/

"Яндекс" внедрил новый алгоритм ранжирования страниц
26 марта 2004 года, 19:19
Текст: Иван Карташев
Компания "Яндекс" объявила об изменении алгоритма ранжирования страниц в результатах обработки запросов своей поисковой системы. По заявлениям компании, новый алгоритм учитывает социальную структуру интернета, то есть умеет отличать мнения людей от технической, вспомогательной и рекламной информации. В итоге, поисковик может эффективнее выявлять наиболее авторитетные в своей области ресурсы. Одновременно в строй введена дополнительная система очистки результатов поиска от дубликатов.
"Поиск в интернете - это серьезная наука, поэтому для повышения качества сервиса в "Яндексе" проводятся регулярные исследования", - говорит Илья Сегалович, технический директор компании.
Кроме этого, в "Яндексе" упростилась работа с региональной информацией. Поисковик теперь автоматически определяет, в каком городе находится компьютер, с которого поступил запрос, и если уточнение по региону имеет смысл, предлагает повторить поиск, ограничив его сайтами данного региона. Помимо этого, поиск отныне поддерживает шесть языков: к русскому и английскому добавились украинский, белорусский, французский и немецкий. Язык документов и сайтов определяется автоматически, а ограничить область поиска нужным языком можно в настройках или в расширенном поиске.


Collapse )

 

Ющук Евгений Леонидович

"Три богатыря" - Апорт, Рэмблер, Яндекс

db2.projectharmony.ru/upload/events/pi_2002_3_11-12_41_10.DOC

Большая (34 страницы) статья в формате Word о поиске и поисковых системах.

Центральная Городская библиотека им. В.Н. Татищева
Американская некоммерческая организация Project Harmony
Центр открытого доступа к Internet программы IATP

Collapse )

 

Ющук Евгений Леонидович

Вариант: Язык запросов поисковой системы Яндекс

http://www.seoweb.ru/seo/yandex/query-language/

Отрывок из начала статьи: "Любая поисковая система * в первую очередь ориентирована на неискушенного пользователя, которому нужно без особых усилий найти необходимые сведения. Простейший интерфейс поисковой системы - это обычное текстовое поле, в котором посетителю достаточно ввести свой вопрос (например, "Где купить горящие путевки на Кипр?"), чтобы получить несколько тысяч ссылок на страницы нужной ему тематики.

Более продвинутые пользователи, приблизительно представляющие принцип работы поисковой системы, обычно опускают вспомогательные части речи и знаки препинания. Например, по запросу "горящие путевки Кипр Челябинск" в первой десятке результатов поиска уже найдется пара ссылок на путевки на Кипр с вылетом из Челябинска.

Однако не все так легко, как может показаться на первый взгляд, и далеко не всегда по такому простому запросу удается найти необходимую информацию: довольно часто вы будете погребены под ворохом результатов, так что найти в этом стоге сена нужную иголку покажется вам неразрешимой задачей. Чтобы облегчить решение этой проблемы, в поисковые системы встраиваются различные дополнительные возможности, позволяющие вам уточнять свой вопрос для получения именно тех результатов, на которые вы рассчитываете. Общее название этих дополнительных возможностей - язык запросов..."

Collapse )

 

Ющук Евгений Леонидович

Как искать в интернете? Что такое поисковики?

http://www.teenclub.ru/index.php?e=193

Статья Игоря Быкова

Отрывок из начала:
"Интернет предоставил нам лёгкий и быстрый доступ к большому количеству информационных материалов, возможность как читать, сохранять, распечатывать эти материалы, так и самим размещать полезную, а может и бесполезную информацию в сети.
Современный Интернет – это огромнейшее количество архивов разнообразнейшей тематики - от коллекций рефератов до кухонных рецептов, от небольших музыкальных файлов до полнометражных фильмов, но, к сожалению, эти архивы не взаимосвязаны, зачастую информация не структурирована и, чтобы найти интересующий нас материал приходится перерыть не один десяток страниц, потратить не один час на поиски. И тогда к нам на помощь приходят специально разработанные сайты - Поисковые системы. Существует два типа поисковых систем: каталоги и "сайты-пауки"..."

Collapse )

 

Ющук Евгений Леонидович

Практические вопросы поиска в Интернет

http://makmet.com.ua/uacatalog/newpub/search/search.html

Статья Дмитрия Ландэ

Отрывок: "...По заявлению Нильса Бринкмана, основателя OneStat.com, "Поисковые системы типа Google или Yahoo могут обеспечить сайт большим количеством целевых посетителей. Поэтому необходимо собирать статистику о том, с каких поисковых систем и по каким запросам приходят посетители на ваш сайт и оптимизировать сайт под эти запросы".
В связи с этим вполне резонно возникают вопросы,
• как конкретному пользователю Интернет выбрать необходимые ему данные в Cети?
• как владельцу Web-сайта адаптировать свой ресурс к целевой аудитории, т.е. чтобы его сайт был найден теми, для кого он предназначен?
Безусловно, для решения обеих этих задач, необходимо знание нюансов использования сетевых информационно-поисковых систем.
Очевидно, что для выбора необходимых пользователю данных из Интернет, ему следует воспользоваться либо известными ему адресами, либо средствами навигации, позволяющими найти необходимые ресурсы. Именно в этом случае на помощь приходят информационно-поисковые системы, позволяющие пользователю самостоятельно с клавиатуры своего компьютера вводить запросы, анализировать результаты поиска, осуществлять переходы к необходимым ресурсам... "

Collapse )