August 17th, 2005

Ющук Евгений Леонидович

Поиск на AltaVista

ttp://www.fortunecity.com/business/fax/339/artics/syntaxav.htm

Поиск на AltaVista
Ниже приводится перевод help'а поисковика AltaVista (сокращенный). Оригиналы статей находятся здесь: простой запрос, расширенный запрос.
В AltaVista режимы поиска переключаются выбором закладок (Tabs): простой поиск (Search), расширенный поиск (Advanced Search) и поиск рисунков, аудио и видео (Images, Audio & Video). По умолчанию установлен режим простого поиска

Простой поиск.
В этом режиме вам доступно следующее:
• Поиск слов. Вводите одно слово или несколько.
• Поиск фраз. Фраза выделяется кавычками: "олимпийские игры".
• Включение и исключение слов. Для включения и исключения слов используются соответственно знаки плюса (+) или минуса (-) непосредственно перед словом (без пробелов). Пример: пирожки с +повидлом -мясом. Будут найдены страницы, где есть пирожки с повидлом, и исключены страницы, где упоминаются только пирожки с мясом.
• Использование символов группирования. Добавляя "звездочку" (*) в конце ключевого слова, вы можете находить различные формы этого слова. Например, поиск слова кино* даст ссылки на документы со словами кино, киножурнал, киностудия и т.п.
• Использование специальных символов для разделения слов. Для разделения слов можно использовать следующие символы: %, $, /, # и _ (без пробелов между символами и словами). Это еще один способ обозначить фразы. Например, вместо как поживает "билл гейтс" можно (и чуть проще) набрать как поживает билл-гейтс.
• Поиск по полям. См. таблицу ниже:
anchor:text Поиск страниц с определенным словом или фразой в тексте ссылок. anchor:"click here to visit garden.com" найдет страницы с ссылками click here to visit garden.com.
applet:class Находит страницы с определенными Java-апплетами. Используйте applet:morph, чтобы найти страницы, использующие апплеты с названием morph.
domain:domainname Находит страницы в определенном домене. Используйте domain:uk для поиска страниц из Великобритании или domain:com для поиска страниц на коммерческих сайтах.
host:name Находит страницы на определенном сервере. host:www.shopping.com позволит найти страницы на сервере www.shopping.com, host:dilbert.unitedmedia.com - страницы на сервере dilbert на unitedmedia.com.
image:filename Находит страницы с рисунками с определенным именем файла. Используйте image:beaches для поиска рисунков с именем beaches.
link:URLtext Находит документы с ссылками на страницу с определенным адресом. Использование link: www.zip2.com позволит найти все страницы с ссылками на www.zip2.com.
text:text Находит документы с определенным текстом, находящимся в любой части страницы, кроме тэгов, рисунков, ссылок и URL. text:graduation даст ссылки на страницы с термином graduation в тексте.
title:text Находит документы с определенным словом или фразой в заголовке страницы. Используйте title:sunset для поиска страниц со словом sunset в заголовке.
url:text Находит страницы с определенным словом или фразой в URL. Использование url:zip2 позволит найти все страницы на всех серверах, которые имеют слово zip2 в имени хоста, пути или имени файла полного URL.

[AD]

Find this:






Здесь вы можете осуществить простой поиск (для закрепления вышеизложенного материала)
Расширенный поиск (Advanced Search).
Главное отличие расширенного поиска от простого - использование операндов Булевой алгебры для управления процессом поиска. Также вы можете сортировать результаты по различным категориям.
Рис.2
• Boolean query: - окно для ввода текста.
• Sort by: - позволяет сортировать результаты по словам, т.е. в начале списка будут располагаться документы, содержащие эти слова.
• Language drop-down menu: - можно ограничить результаты поиска документами на каком-то определенном языке.
• From: To: - можно ограничить результаты поиска документами, опубликованными в определенный период времени. Даты вводятся в международном формате - день/месяц/год.
Булевы выражения.
На AltaVista используются следующие операнды Булевой алгебры:
Выражение Символ Действие
AND & Находит документы, содержащие все определенные слова или фразы. молоко AND кефир - будут найдены страницы, содержащие оба слова, молоко и кефир.
OR | Находит документы, содержащие хотя бы одно из определенных слов или фраз. молоко OR кефир - будут найдены документы со словом молоко или словом кефир, или обоими сразу.
AND NOT ! Исключает документы, содержащие определенное слово или фразу. молоко AND NOT кефир - будут найдены страницы, содержащие слово молоко, и исключены страницы со словом кефир. Внимание! AltaVista не принимает выражения типа молоко NOT кефир, операнд должен быть AND NOT.
NEAR ~ Находит документы, содержащие определенные слова или фразы на расстоянии в тексте не более 10 слов друг от друга. молочные NEAR коктейли - с большей вероятностью будут найдены страницы о молочных коктейлях.
( ) Используйте скобки для создания сложных Булевых выражений (фраз). Например, (молоко OR кефир) AND NOT "сухое молоко". Будут найдены страницы, содержащие слова молоко или кефир, и исключены страницы с фразой сухое молоко.
Вместо выражений в запросе можно использовать символы Булевой алгебры (& | ! ~).
Ниже расположен пример запроса в режиме расширенного поиска:
Рис.3
1. Boolean query: (бальные OR спортивные) AND танцы. Будут найдены все документы, содержащие фразы бальные танцы и спортивные танцы.
2. Sort by: танго вальс. Этот шаг отсортирует найденные документы таким образом, что страницы со словами танго и вальс окажутся в начале списка.
3. From: 01/JAN/99 To: 30/JUN/99. Ограничит список найденных документов страницами, созданными (или обновленными) в период с 01.01.99 по 30.06.99.
Примечание. Если вы не включите дату или год в поля From: и To:, то поисковая машина будет использовать текущие год и месяц.

 

Collapse )
Ющук Евгений Леонидович

Анализ текстов. Инструмент для формирования запросов к поисковым системам

http://www.shipbottle.ru/ir/

Анализатор текстов

Что такое анализ текстов?
Не все знают, что сочиненные людьми тексты имеют одинаковую структуру. Закономерность впервые обнаружил и сформулировал Джорж Зипф (G. K. Zipf) в 1949 году. Благодаря ему, компьютеры научились "понимать" смысл текста и самостоятельно выделять ключевые слова. Сегодня все поисковые системы используют в своей работе присущие текстам закономерности.

Как это работает?
Что, если взять некий текст и проанализировать его так, как это сделала бы поисковая система? Извлеченные таким образом ключевые слова, будучи отправлены поисковой системе в качестве запроса, по идее, должны вернуть документы с весьма высоким уровнем релевантности. Это действительно так. Поиск по данной методике весьма эффективен. Последовательность действий такова:

1. Выбираем текст - источник. Это любой текст, который посвящен исследуемой теме.
2. Помещаем текст-источник в левое окно апплета "Анализатор текстов" и нажимаем кнопку ОК. Апплет вычислит частоту вхождения каждого слова и выведет результат в правом окне. Цифра указывает сколько раз слово встретилось в тексте. По умолчанию, из рассмотрения исключаются стоп-слова. Это малозначащие слова такие, как in, the, to, в русском языке: на, в, и, не и т.д. Если вы хотите получить полный список слов с частотами их вхождения -- снимите флажок в блоке Stop - words.
3. Формируем запрос. Выбираем диапазон, ориентируясь на частоту вхождения слов. Брать следует слова из середины списка. Например:

0047 - ### stop-words###
0006 - слова
0004 - текст
0003 - текстов
0002 - частоту
0002 - слов
0002 - ключевые
0002 - источник
0002 - закономерности
0002 - если
0002 - выбираем
0002 - вхождения
0002 - весьма
0002 - анализатор
0001 - языке
0001 - эффективен
0001 - эти
0001 - хотите
0001 - формируем
0001 - формирования 0001 - флажок
0001 - устроены
0001 - уровнем
0001 - умолчанию
0001 - теме
0001 - тексты
0001 - текстам
0001 - текста
0001 - такое
0001 - такова
0001 - таким
0001 - такие
0001 - сформулировал
0001 - стоп
0001 - список
0001 - сочиненные
0001 - снимите
0001 - смысл
0001 - следует
0001 - ситсеме
Выделенные цветом слова и должны войти в запрос. Причем, именно в таком виде и в том порядке, что и в списке. В запросе слова должны быть связаны логикой ИЛИ (в AltaVista их можно просто ввести через пробел).

Запрос готов. Теперь его можно направить поисковой машине. Вы можете выбрать ее по своему усмотрению. Лучше всех справляется с данной методикой AltaVista, ей мы и рекомендуем отправить запрос. 

 

Collapse )
Ющук Евгений Леонидович

Поиск информации о людях в англоязычном Интернете

http://lb1.netster.com/index.asp?Site=d3d3Lmhvdy10by1zZWFyY2gtdGhlLXdlYi5jb20=

Sponsored Links
Find People Or Their Info
Learn Facts About Your Boss, Friend Anyone And Self With Net Detective.
www.softspy.net

UK People Finder
Find lost family and friends online for free until you get results
www.tracesmart.co.uk

UK People Finder
Search Online for People all Over the United Kingdom.
Records-Search.Net
Investigators & Analysts
Let Nothing Escape You with our Investigation Software Solutions
www.xanalys.com

Email Tracing Service
Experts in determining the source of email, Chat/IM names, IP's.
www.infopursuit.com

Skip Tracing
Uncover Anyone's Public Record with our Skip Tracing Services.
www.Search-Detective.net

Usa people search
Free Search, Criminal Record Finder Public Records Background Check
www.records.com

Collapse )
Ющук Евгений Леонидович

Каталоги, редактируемые волонтерами.

http://www.mavicanet.com/directory/rus/15693.html

MavicaNet - Каталог - Belarusian, Bulgarian, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hungarian, Icelandic, Irish, Italian, Norwegian, Polish, Portuguese, Romanian, Russian, Spanish, Swedish, Turkish, Ukrainian
URL: http://www.mavicanet.org/
http://www.zona.ru/
http://www.mavicanet.com/
http://www.mavicanet.ru/
http://www.mavica.ru/
http://www.italiano.ru/

отбирается фильтрами: Ресурсы Интернет

Многоязыковой поисковый каталог. Поддерживает основные европейские языки; структура категорий и помощь переведена на эти языки. Редактируется добровольными редакторами. Очень развитый редакторский интерфейс.



ODP - Open Directory Project - English
URL: http://dmoz.org/
http://www.dmoz.com/
http://ch.dmoz.org/
http://de.dmoz.org/

отбирается фильтрами: Ресурсы Интернет

Крупный поисковый каталог нового поколения, с привлечением добровольных редакторов из сети (отобранных пользователей). Высокое качество описаний. Основной язык - английский. Более 40,000 редакторов, более 400,000 директорий, включает более 2,800,000 сайтов.



Тематический каталог-путеводитель СУСАНИН - Russian
URL: http://www.susanin.com/
http://www.susanin.net/

отбирается фильтрами: Ресурсы Интернет

Модерируемый гидами каталог ресурсов интернет.

DirectoryGold - English
URL: http://www.directorygold.com/

отбирается фильтрами: Ресурсы Интернет, Справочники и указатели

A web directory offering access to quality websites on any topic.

Zeal - English
URL: http://www.zeal.com/

отбирается фильтрами: Ресурсы Интернет

Web directory and search engine built by the knowledge and experience of Internet enthusiasts like you. Find ratings, reviews, and the best websites. Search. Rate. Review. Discover.



Jupon.co.uk - English
URL: http://www.jupon.co.uk/

United Kingdom human edited search directory, with sites listed by category.


Skaffe.Com - International Directory & Search - English, Norwegian, Spanish
URL: http://www.skaffe.com/

отбирается фильтрами: Ресурсы Интернет

Searchable human edited international directory with family safe viewing. Filtered for spam and adult content.


OneMission - English
URL: http://www.onemission.com/

отбирается фильтрами: Ресурсы Интернет

A user-built directory. Everyone can add pages. All content is collected by volunteers.

[ eng ]




Infowebworld - English
URL: http://www.infowebworld.com/

отбирается фильтрами: Ресурсы Интернет, Справочники и указатели

Internet human-edited directory organized by topic.

[ eng ]




Linketeria Website Directory - English
URL: http://www.linketeria.com/

отбирается фильтрами: Ресурсы Интернет

Search internet resources for the general public. Websites are listed by popularity and sites that exchange links are clearly labeled. Webmasters submit your site free and get listed immediately.

[ eng ]




Yeandi - English
URL: http://www.yeandi.com/

отбирается фильтрами: Ресурсы Интернет

A human-edited web directory.

[ eng ]




e-DAI.org - Italian
URL: http://www.e-dai.org/

отбирается фильтрами: Ресурсы Интернет

Directory Web che cataloga siti italiani in categorie come arte e cultura, giochi, informatica e internet, notizie, salute, scienza e tecnologia e molte altre. Inserimento gratuito, link passa pr.

[ ita ]




Web-Beacon.com - English
URL: http://www.web-beacon.com/

отбирается фильтрами: Ресурсы Интернет

A family friendly, spam free Internet directory, searchable by category or keywords. Human edited by volunteer editors.

[ eng ]




IllumiRate - English
URL: http://www.illumirate.com/

отбирается фильтрами: Ресурсы Интернет

"Lighting your Way through the Web": Volunteers contribute reviews and opinions on Web sites from around the world.

[ eng ]




Xoron Search - English
URL: http://www.xoron.com/

отбирается фильтрами: Ресурсы Интернет

A Web directory and meta search engine driven by a community infomediaries, contributors paid if their contributions generate revenues.

[ eng ]




Pharos Directory - English
URL: http://links.weblamp.net/

User-contributed directory with more then 100 categories.

[ eng ]




Joe Ant - English
URL: http://www.joeant.com/

отбирается фильтрами: Ресурсы Интернет, Справочники и указатели

Human edited searchengine-directory. Search by keywords or drill down the topics to find what you are searching for.

[ eng ]




GoGuides.Org - English
URL: http://www.goguides.org/

отбирается фильтрами: Ресурсы Интернет

Free Internet search directory from a virtual global community with a goal to build and maintain a search directory in a democratic fashion.

[ eng ]




Grackelfish - English
URL: http://grackelfish.com/

отбирается фильтрами: Ресурсы Интернет

A searchable, categorized index of topical, regional and general human edited directories. Listings consist user and editor submissions and have search forms when possible.

[ eng ]
Collapse )