Ющук Евгений Леонидович (yushchuk) wrote,
Ющук Евгений Леонидович
yushchuk

Categories:

Анализ текстов. Инструмент для формирования запросов к поисковым системам

http://www.shipbottle.ru/ir/

Анализатор текстов

Что такое анализ текстов?
Не все знают, что сочиненные людьми тексты имеют одинаковую структуру. Закономерность впервые обнаружил и сформулировал Джорж Зипф (G. K. Zipf) в 1949 году. Благодаря ему, компьютеры научились "понимать" смысл текста и самостоятельно выделять ключевые слова. Сегодня все поисковые системы используют в своей работе присущие текстам закономерности.

Как это работает?
Что, если взять некий текст и проанализировать его так, как это сделала бы поисковая система? Извлеченные таким образом ключевые слова, будучи отправлены поисковой системе в качестве запроса, по идее, должны вернуть документы с весьма высоким уровнем релевантности. Это действительно так. Поиск по данной методике весьма эффективен. Последовательность действий такова:

1. Выбираем текст - источник. Это любой текст, который посвящен исследуемой теме.
2. Помещаем текст-источник в левое окно апплета "Анализатор текстов" и нажимаем кнопку ОК. Апплет вычислит частоту вхождения каждого слова и выведет результат в правом окне. Цифра указывает сколько раз слово встретилось в тексте. По умолчанию, из рассмотрения исключаются стоп-слова. Это малозначащие слова такие, как in, the, to, в русском языке: на, в, и, не и т.д. Если вы хотите получить полный список слов с частотами их вхождения -- снимите флажок в блоке Stop - words.
3. Формируем запрос. Выбираем диапазон, ориентируясь на частоту вхождения слов. Брать следует слова из середины списка. Например:

0047 - ### stop-words###
0006 - слова
0004 - текст
0003 - текстов
0002 - частоту
0002 - слов
0002 - ключевые
0002 - источник
0002 - закономерности
0002 - если
0002 - выбираем
0002 - вхождения
0002 - весьма
0002 - анализатор
0001 - языке
0001 - эффективен
0001 - эти
0001 - хотите
0001 - формируем
0001 - формирования 0001 - флажок
0001 - устроены
0001 - уровнем
0001 - умолчанию
0001 - теме
0001 - тексты
0001 - текстам
0001 - текста
0001 - такое
0001 - такова
0001 - таким
0001 - такие
0001 - сформулировал
0001 - стоп
0001 - список
0001 - сочиненные
0001 - снимите
0001 - смысл
0001 - следует
0001 - ситсеме
Выделенные цветом слова и должны войти в запрос. Причем, именно в таком виде и в том порядке, что и в списке. В запросе слова должны быть связаны логикой ИЛИ (в AltaVista их можно просто ввести через пробел).

Запрос готов. Теперь его можно направить поисковой машине. Вы можете выбрать ее по своему усмотрению. Лучше всех справляется с данной методикой AltaVista, ей мы и рекомендуем отправить запрос. 

 

Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments