Ющук Евгений Леонидович (yushchuk) wrote,
Ющук Евгений Леонидович
yushchuk

Ищите и найдете. Что и как ищут российские поисковые системы

http://zahar-ka.fromru.com/stat/web/search.html

Ищите и найдете. Что и как ищут российские поисковые системы

Вячеслав Ковалев

Мало кто знает, но еще до того как мир познакомился с Mosaic, поисковые системы в Интернете уже существовали и занимали свое достойное положение. Еще не было World Wide Web, и первые поисковые системы Archie, Veronica, WAIS и Gopher вполне сносно искали данные на FTP, Gopher и Telnet-серверах

Тогда данные системы казались чуть ли не чудом. Хотя на самом
деле представляли весьма скудные возможности пользователям: поиск проводился по ограниченному списку серверов и достаточно медленно, отсутствовала какая-либо возможность управления процессом самого поиска. Потом Интернет обзавелся приставкой www, стало привычным, что практически любая информация доступна на расстояние одного-двух кликов, а поисковые системы превратились в те путеводные нити, которые позволяют не запутаться в существующих на сегодняшних день киберджунглях информации.

Продолжая изъясняться образно, можно сказать, что поисковые системы, каталоги и рейтинги являются своеобразными маяками в море информации, растущей в геометрической прогрессии. Сами же подобные службы уже давно достаточно плотно взаимосвязаны и возможно, что в скором времени и вовсе объединятся в некую единую систему навигации в Интернете. Хотя пока до этого все же далековато.

Если верить тем же рейтингам, то поисковые системы являются, пожалуй, одними из самых популярных интернет-ресурсов. То есть вопрос нахождения необходимой информации в Интернете по-прежнему актуален. Поисковые системы являются и самыми "трафикогенерирующими", то есть "поставляющих" пользователей тем или иным тематическим сайтам. Конечно, в соответствии с запросами самих пользователей, ищущих необходимую информацию.

За последние годы поисковые системы совершенствовались по многим направлениям. Рос объем баз данных, совершенствовались возможности составления запроса и дружественность интерфейса, выдача результатов стала более интеллектуальной, поисковые системы начали обзаводиться множеством дополнительных сервисных функций. Сейчас это достаточно сложные интерактивные порталы, обладающие множеством возможностей, разобраться в которых с первого раза иногда достаточно трудно. Мало кто использует предлагаемые услуги поисковых систем на полную мощность, обычно ограничиваясь минимальным набором требований. Хотя на самом деле, имея в арсенале богатые функциональные возможности современных поисковиков можно сократить до минимума время поиска той или иной информации.

Перед тем как рассказать непосредственно о том, что умеют делать популярные российские поисковые системы, совсем нелишне коснуться вопроса о том, как они, собственно, устроены "изнутри".

Обычно поисковая система представляет собой комплекс из нескольких серверов, каждый из которых выполняет свою строго определенную часть работы. Чаще всего информация о конкретном ресурсе может быть подана в базу данных поисковика вручную - обычно через специальную форму, найти которую на сайте поисковой системы несложно. Но "найти" сайт поисковая система может и перейдя к нему по ссылке с уже известного ей ресурса.

В поисковых системах существуют специальные механизмы, с помощью которых содержание сайтов анализируется и подготавливается в виде своеобразной "выжимки" - индекса, где и хранится информация, на основе которой поисковая система выдает позже ответы на запросы пользователей. Обычно в роли подобных сборщиков информации выступают программы-роботы, которые обходят известные сайты и собирают информацию с них. Они же и ищут новые, не известные им ресурсы, руководствуясь ссылками на уже просмотренных сайтах. Сам процесс анализа содержания достаточно непростой, и обеспечить непрерывную обработку его результатов сложно. Так что чаще всего подобные роботы работают непрерывно, а вот накопленная ими информация для базы данных обновляется и становится доступной пользователям поисковой системы через определенные промежутки времени.

Период обновления индекса генератора у основных русскоязычных поисковых машин - Яndex и Rambler - около недели. И если вы зарегистрировали свой ресурс в поисковой машине, не следует тут же искать его в результатах поиска, придется некоторое время подождать.

Теоретически за время, которое проходит между сменой индексной базы поисковой системы, роботы заново должны пройтись по зарегистрированным сайтам и собрать с них свежую информацию. На практике это труднореализуемо, хотя бы ввиду большого объема информации. В разделе "Числа" Яndex'а можно найти следующие данные: количество уникальных серверов: 413 623; количество уникальных документов: 60 956 059; объем проиндексированной информации: 999,62 Гб. Поэтому случается, что в результатах выдачи поисковой машины появляются устаревшие или неправильные ссылки.

Для решения данной проблемы приходится прибегать к различным ухищрениям. Например, в том же Яndex'е используется механизм динамического изменения периодичности пересмотра сайтов. Если ресурс обновляется реже, то, соответственно, и реже его будут посещать роботы. Если же при очередном посещении программа заметит, что на сайте произошли изменения, она будет анализировать его чаще. Таким образом, Яndex экономит время на анализе редко изменяющихся документов. Есть, конечно, ресурсы, которые обновляются каждый день, как, например, ленты новостей. Обычно поиск по ним предоставлен отдельным сервисом.

Итак, какие же возможности предоставляют основные русскоязычные поисковые системы и как добиться того, чтобы искать с помощью них возможно быстрее и с максимальным комфортом?

Начнем с классического портала Рунета - rambler.ru. Строго говоря, сейчас это достаточно разветвленный сайт с множеством дополнительных функций. Немного с пафосом сам сайт презентует себя следующим образом: "Рамблер - единственный в российском Интернете портал, объединивший поисковую систему, рейтинг-классификатор, а также ряд бесплатных сервисов и информационных проектов. Ресурсы портала регистрируют ежесуточно более 3,5 млн посещений, а ежемесячная аудитория Рамблера составляет 60-70% всех пользователей Рунета". Но все же главное из многочисленных достоинств Рамблера - это именно поиск.

Слово rambler в одном из своих переводов на русский означает бродягу, этакого праздношатающегося человека. Поисковый сервер был запущен в эксплуатацию в 1996 году, и сразу стал первым из поисковых ресурсов, включенным в стандартные возможности русской версии Internet Explorer компании Microsoft. С февраля 1997 года начала работать рейтинговая система Rambler's Top100. В 2000 году Рамблер начал свою экспансию на международном рынке, запустив "клоны" своей информационно-поисковой системы в Германии и Болгарии.

Как ищет Рамблер? По умолчанию, он сортирует найденные ссылки в порядке соответствия запросу (так называемой релевантности) сайтов в целом. То есть первыми в списке найденных будут те ресурсы, которые "в целом" более всего соответствуют запросу. При этом первые позиции в списке выданных результатов могут занимать сайты, найденные благодаря их аннотациям в Rambler's Тор100. Как определяется релевантность? Она зависит от того, насколько "важное место" на искомом сайте занимает слово или словосочетание, введенное пользователем для поиска. Пользователь может переключиться на режим сортировки результатов поиска отдельных страниц или по дате, когда в начале показываются более "свежие" документы. Для этого нужно всего ничего, лишь воспользоваться одной из ссылок в строке "Сортировка по..." вверху страницы результатов поиска.

Если же необходимо задать дополнительные параметры, то для этого на Рамблере можно воспользоваться функцией "Расширенный поиск" (http://www.rambler.ru/doc/advanced.shtml), где можно задать множество дополнительных условий как непосредственно к самому поиску, так и к выводу результатов. Среди них, например, поиск документа по названию (значению в теге

-

), поиск в диапазоне дат создания или модификации документов, исключения из результатов поиска документов, содержащих определенные слова, и так далее.

Воспользоваться всеми преимуществами расширенного поиска можно, используя язык запросов. Язык запросов - это непосредственно то, что вводится в поле поиска. Помимо слов и словосочетаний можно (и даже нужно - для более точного и быстрого поиска) использовать специальные операторы. Конечно, составляя простые запросы, можно особо не вникать в тонкости данного "языка", но в том случае, когда вам необходимо найти что-то определенное и у вас нет времени на просмотр большого количества ссылок, разумнее воспользоваться преимуществами данного средства. Как говорилось в одном известном мультфильме - "лучше день потерять, но за час долететь". Хотя для изучения операторов и особенностей языка запросов Рамблера столько времени не понадобится. Здесь все достаточно просто.

Сам поисковый запрос может состоять из одного или нескольких слов, а в нем могут присутствовать знаки препинания. Если ввести в поисковую строку Рамблера несколько слов без знаков препинания и логических операторов языка запросов, будут найдены документы, содержащие все эти слова. Но при этом документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями заданных для поиска слов будет меньше числа ограничения контекста Рамблера, заданное 40 словам. То есть, в том случае, если вы ищете словосочетание вроде "вкусная еда", то к подходящим для выдачи документам будут относиться все, где между словами "вкусная" и "еда" расположено не более 40 слов. Данное ограничение можно обойти, если непосредственно указать поисковой машине на то количество слов, которые допустимо могут располагаться между словами запроса. Для этого перед самим запросом нужно указать данное число, то есть в случае с "вкусной едой" просто написать "100, вкусная еда" и тогда будут выданы все документы, в которых между словами "вкусная" и "еда" не более 100 прочих слов. Хотя имеет смысл уменьшать данное число, ведь, скорее всего, вводя в поле поиска словосочетание "вкусная еда", пользователь подразумевал, что данные слова будут расположены рядом друг с другом. Для этого слова лучше всего помещать в двойные кавычки, в этом случае Рамблер будет искать документы с словами именно в том порядке и в тех формах, в которых они встретились в запросе.

Кстати, о соответствиях. Поисковый механизм Рамблера не обращает внимания на регистр слов для поиска, за исключением того случая, когда большое количество слов в запросе написано с большой буквы. Тогда Рамблер предполагает, что происходит поиск по имени собственному, и автоматически уменьшает допустимое расстояние между словами в искомом документе.

Теперь, собственно, об операторах поискового языка Рамблера. Все операторы поисковой машины имеют левую и правую часть, каждая из которых также является запросом, состоящим из одного или нескольких слов.

Собственно, логически операторов три: AND (И), OR (ИЛИ), NOT (И - НЕ). Если, к примеру, в запросе использовать оператор AND, то будут видны только те документы, в которых в обязательном порядке присутствует значение, указанное как до AND, так и после. Рамблер по умолчанию сортирует документы таким образом, что сначала выдает документы, в которых присутствуют все слова из запроса, затем показывает те, в которых есть хотя бы одно из слов запроса. Если вам нужно, чтобы слова были в документе в обязательном порядке, используйте AND. Если использовать OR, то будут выданы документы, где есть хотя бы одно из искомых слов. Оператор NOT образует запрос, по которому выдаются документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. То есть, задав "водка NOT пиво" в поле поиска, вы получите список ресурсов, где упоминается о водке, но нет ни слова о пиве.

Кстати, для тех, кто достаточно часто ищет с помощью Рамблера, - существует возможность размещения на панели броузера (Netscape или Internet Explorer версии не ниже 4) специальной кнопки поиска в Рамблере. После этого искать необходимые документы можно непосредственно из броузера. Инструкции по установке доступны в разделе "Комфортная помощь" на Рамблере.

Помимо поиска по документам, на Рамблере предоставлена возможность поиска файлов на FTP-серверах (http://ftp-search.rambler.ru/). Естественно, что не всю информацию в Интернете можно найти с помощью обычных поисковиков. Существуют файлы изображений, музыка, видео, программы и различная другая информация, индексировать которую современные поисковые системы просто не могут. Сервис Рамблера для поиска по FTP-серверам может искать программы, картинки, аудио- и видеофайлы. Существуют как стандартные возможности поиска файлов по шаблону, так и расширенные. В первом случае все так же просто, как и при обычном поиске. Нужно задать ключевое слово или шаблон (например, '*.mpg'). При расширенном поиске можно задавать определенные параметры, позволяющие сузить круг файлов, которые ищутся. Это может быть размер файла, адреса серверов, по которым искать, и так далее. Поиск файлов по FTP-серверам на Рамблере достаточно подробно описан в справочной системе на сайте, поэтому не представляет особых трудностей.

Кроме перечисленных поисковых возможностей, на Рамблере существуют дополнительные узкоспециализированные средства поиска. Это поиск по ресурсам в каталоге Rambler's Top100, поиск по товарам интернет-магазинов, поиск в новостях. Появление подобных сервисов связано как с маркетинговыми соображениями владельцев ресурса, так и общим развитием Интернета, когда обычных "широкоформатных" поисковых систем уже недостаточно. Например, для поиска по товарам можно задать диапазон цен, что, согласитесь, невозможно (или достаточно трудоемко) при обычном поиске.

Если кратко резюмировать перечисленные возможности Рамблера, можно сказать, что данная поисковая система, являясь старейшей в российской части Интернета, по-прежнему занимает одно из ведущих мест. К недостаткам следует отнести то, что Рамблер недостаточно много внимания уделяет развитию возможностей именного поиска, в отличие от того же Яndex'а. Такие возможности, как объединение документов по сайтам, актуальность поискового индекса и морфология поиска, появились на Рамблере сравнительно недавно - в 2000 году, намного позже, чем у других поисковых машин.

Другой столп отечественных поисковых систем - Яndex. Его так же, как и Рамблер, представлять не нужно. Слоган "найдется все" в точности отражает нынешнее положение Яndex'а - на данный момент это лучшая русскоязычная поисковая система, постоянно совершенствующаяся и предлагающая пользователям множество дополнительных возможностей.

История Яndex'а началась с 1990 года, когда в компании "Аркадия" начались разработки поискового программного обеспечения. Сайт "Яndex" появился в 1996 году, после того как руководством CompTek и разработчиками системы было принято решение о дальнейшем развитии поисковых технологий, ориентированных именно на Интернет. Само же слово "Яndex" придумали за несколько лет до этого, и означало это "языковой index", или, если по-английски, "Yandex" - "Yet Another indexer". Есть и другие варианты толкования. Например, если в слове "Index" перевести с английского первую букву, то тоже получится "Яndex". Официально же поисковая машина была представлена 23 сентября 1997 года на выставке Softool. Основными характеристиками yandex.ru к тому дню были: проверка уникальности документов (исключение копий в разных кодировках), учет морфологии русского языка, поиск в пределах абзаца и оригинальный разработанный алгоритм оценки релевантности. Щепетильности в вопросах поиска Яndex'у не занимать. Судя по обширной помощи для пользователей на сайте, своей "поисковой репутацией" команда разработчиков гордится. Давайте же посмотрим на то, что и как ищет Яndex.

Так же, как Рамблер, он сортирует найденные ссылки на документы по релевантности и группирует их по серверам. Найденные Яndex'ом документы могут иметь пометки "совпадение фразы", "строгое соответствие" или "нестрогое соответствие". Если первым же найденным оказывается документ с подписью "нестрогое соответствие", возможно, это значит, что стоит переформулировать запрос, так как ничего, в точности соответствующего запросу, поисковый механизм Яndex'а найти не смог.

Помимо стандартного поиска, в арсенале Яndex'а есть и расширенный. Здесь можно задать словарный фильтр, определяющий, какие слова обязательно должны присутствовать или, наоборот, отсутствовать на искомых страницах, диапазон дат, язык документа. Кроме того, можно ограничить поиск по определенному сайту или искать только ссылки на определенный ресурс. Тут же настраивается и формат выдачи результатов. Помимо этого настроить все особенности поиска пользователь может с помощью пункта "Настройка", тем самым сделав поиск максимально удобным в каждом из последующих своих обращений к Яndex'у.

Синтаксис языка запросов Яndex'а формально очень близок к рассмотренному выше языку запросов Рамблера, но все же имеет ряд особенностей. Яndex гораздо раньше, чем Рамблер, начал использовать морфологию, и на сегодняшний день, независимо от того, в какой форме употребляется слово в запросе, при поиске учитываются все его формы по правилам русского языка. В отличие от Рамблера поисковый механизм Яndex'а также более требователен к регистру слов. Если в запросе будет использовано слово с большой буквы, будут найдены только слова с большой буквы, в противном случае будут найдены как слова с большой, так и с маленькой буквы. Яndex также использует ограничение контекста, сходное с Рамблером, правда, позволяет пользователю совершать над ним большее количество манипуляций. Например, задав запрос "поставщики /2 кофе", будут найдены документы, в которых содержатся и слово "поставщики" и "кофе", причем расстояние между ними будет не более двух слов и находиться они будут в одном предложении.

К основным операторам языка запросов поисковой машины Яndex'а относятся следующие:

пробел или & - логическое И для элементов запроса в пределах одного предложения;

&& - логическое И в пределах документа;

| - логическое ИЛИ;

+ - обязательное наличие слова в найденном документе;

~ - бинарный оператор И НЕ в пределах предложения;

~~ - или - бинарный оператор И НЕ в пределах документа.

Кроме того, возможен поиск по конкретным элементам в документах:

$title (выражение) - поиск в заголовке документа;

$anchor (выражение) - поиск в тексте документа ссылок;

#keywords=(выражение) - поиск в ключевых словах;

#abstract=(выражение) - поиск в описании;

#image="значение" - поиск файла изображения;

#hint=(выражение) - поиск в подписях к изображениям;

#url="значение" - поиск на определенном сайте;

#link="значение" - поиск ссылок на заданный ресурс.

К дополнительным сервисам Яndex'а, облегчающим поиск, можно отнести подписку на запросы, позволяющие получать по почте новую информация на интересующую тему по мере появления новых или измененных документов, соответствующих заданному запросу, "семейный" Яndex - полуавтоматический фильтр, ограничивающий доступ к "взрослым" сайтам и страницам, содержащим определенные слова.

Интерес для владельцев сайтов представляет индекс цитирования. Это мера популярности веб-страницы среди создателей других веб-страниц, определяемая по количеству ссылок на первоисточник.

К прочим дополнительным сервисам Яndex'а можно отнести каталог ссылок, поиск по новостям, в списке товаров интернет-магазинов, в энциклопедиях и переводчик. Вообще на данный момент на Яndex'е около двух десятков разнообразнейших проектов, и число их неуклонно растет. Кроме того, под маркой Яndex'а распространяется несколько отдельных продуктов: Яndex.Site - средство полнотекстовой индексации и поиска по страницам собственного Web-сервера; Яndex.CD - приложение для локального поиска; Яndex.Lib - низкоуровневая библиотека полнотекстовой индексации и поиска; Яndex.Dict - словарный сервер.

Под эгидой Яndex'а проходит Кубок России по поиску в Интернете. Идея подобного соревнования возникла еще в 2000 году. Уже проведено два состязания, цели которых, по словам руководства Яndex'а, не столько маркетинговые, сколько пропагандистские, и заключаются в привлечении внимания к поиску в Интернете. Причем, совершенно неважно, какие поисковые системы в турнире используются участниками. Нужно отметить, что аналогов подобного турнира по поиску в Интернете в мире пока нет.

В нескольких турах, из которых состоит Кубок, необходимо выполнить определенные задания, которые от тура к туру усложняются. Вот только некоторые из примеров вопросов, которые практикуются на соревновании: "В каком фильме вместе с Брюсом Уиллисом играл бывший танцовщик Большого театра?" (ответ: "Крепкий орешек"), "Сколько дней Ленин скрывался в шалаше на границе с Финляндией?" (31), "Какой язык программирования изучал Виктор Пелевин?" (ассемблер) и "Сколько тонн масла за 70 лет выпустил Урюпинский маслоэкстракционный завод?" (2 млн 186 тыс. 963 т). По словам участников, данное соревнование состоит не столько в скорости работы с клавиатурой, сколько в умении быстро и правильно сформулировать запрос. Так как известно, что правильно сформулированный вопрос - уже половина ответа.

Если выбирать между Яndex'ом и Рамблером, то предпочтительней может показаться Яndex. Но, с другой стороны, он не обладает возможностью поиска по FTP-серверам. Кроме того, на настоящий момент выбор поисковой машины в многом зависит не столько от непосредственных возможностей поиска, которые в принципе практически равны, сколько от дополнительных сервисов и возможностей, которые предлагают поисковые сервера. С этой точки зрения и Рамблер, и Яndex идут, что называется "ноздря в ноздрю".

И все же, в заключение хочется дать несколько советов по выбору поисковой машины, которые следует отнести и к другим, не описанным здесь, поисковым сайтам. Необходимо учитывать, насколько полно и точно отображаются результаты поиска. Для этого поисковый механизм может использовать как язык запросов, так и настройки. Какова база данных поисковой машины и насколько она актуальна - серьезные сайты не боятся предоставить эти данные. Кроме того, существенными факторами при выборе удобной поисковой машины будут и непосредственно скорость поиска и дополнительные сервисные возможности.
Как искать эффективно

Некоторые советы участников Кубка России по поиску в Интернете:

1. Постарайтесь понять смысл вопроса. Возможно, ответ вам уже известен. Чтобы найти правильный адрес страницы, ищите одновременно ключевые слова из вопроса и известный вам ответ.

2. Число документов, полученных в результате поиска, может быть огромно. Поэтому решающее значение для оптимального поиска информации имеет правильный набор ключевых слов.

3. Проверяйте орфографию в написании слова. Используйте синонимы, если список найденных страниц слишком мал.

4. Ищите больше, чем по одному слову. Максимально сужайте предмет поиска.

5. Используйте настройки поиска в поисковых системах, чтобы задать удобные параметры описания документов и структуру страницы с результатами поиска.
Способы поиска информации в Интернете:

1. Поиск с помощью поисковых машин - ищутся вполне конкретные вещи.

2. Каталоги и коллекции ссылок - ищется информация об общих понятих.

3. Рейтинги - ищутся самые популярные ресурсы.

4. Конференции, чаты и страницы ссылок на тематических сайтах - поиск редкой и специализированной информации.

5. Несетевые методы (советы друзей, знакомых, а также реклама в печатных изданиях).
Иностранные поисковые системы

AOL Search (http://search.aol.com/)

Позволяет проводить поиск как в Интернете, так и внутри системы AOL.

AltaVista (http://www.altavista.com/)

AltaVista является одной из наиболее крупных поисковых систем по количеству проиндексированных страниц. AltaVista также предлагает дополнительные услуги в виде поиска по каталогам.

Ask Jeeves (http://www.askjeeves.com/)

Ask Jeeves - это поисковая система, в индексировании результатов которой принимают участие люди, вместо привычных программ-роботов.

FAST Search (http://www.alltheweb.com/)

Ранее известная как All The Web, эта поисковая система ставит своей целью проиндексировать все страницы в Интернете. Часть результатов из FAST Search предоставляется в Lycos.

Go / Infoseek (http://www.go.com/)

Go - это совместный портал Infoseek и компании Disney. Он предлагает такие услуги, как персонализация доступа, бесплатная электронная почта и возможности бывшей поисковой системы Infoseek, которая сейчас стала частью Go.

Google (http://www.google.com)

Google - это поисковая система, которая использует количество ссылок на веб-сайт как основной параметр популярности сайта, чем приобрела большую славу за релевантность своих ссылок. Google имеет очень большую базу данных проиндексированных сайтов и предоставляет часть своих результатов другим поисковым службам, в частности Yahoo.

HotBot (http://www.hotbot.com/)

HotBot является популярным поисковым средством благодаря наличию механизмов построения сложных поисковых запросов.

Lycos (http://www.lycos.com/)

Lycos начинал свою деятельность как поисковая система, затем, в апреле 1999 года, он переключился на модель, подобную Yahoo. На настоящий момент ведет весьма агрессивную политику по продвижению в России.

MSN Search (http://search.msn.com/)

Поисковый сервис Microsoft, среди особенностей имеющий уникальную возможность для пользователей Internet Explorer 5 сохранять результаты предыдущих поисков.

Yahoo (http://www.yahoo.com/)

Видимо, самый популярный поисковый сервер. Содержит (по крайней мере, содержал ранее) около двух сотен редакторов, для того чтобы составлять и редактировать содержимое своих каталогов. В случае нехватки своей собственной базы данных, Yahoo использует базу данных Google. Yahoo является старейшей поисковой системой, которая начала предоставлять свои услуги в 1994 году.

Источник: "Терабайт", http://www.comprice.ru
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments