Home
Конкурентная разведка, Ющук Евгений Леонидович

Ноябрь 2009

Вс Пн Вт Ср Чт Пт Сб
1234567
891011121314
15161718192021
22232425262728
2930     

Конкурентная разведка (Competitive Intelligence)

Теги блога "Конкурентная разведка"

Трансляция блога "Конкурентная разведка"

RSS Atom
Разработано LiveJournal.com

15 Дек, 2008

Конкурентная разведка, Ющук Евгений Леонидович

Аваланч научили искать "дыры" в сайтах объектов конкурентной разведки.

Андрей Масалович, разработчик программы Аваланч (Avalanche), предназначенной для мониторинга Интернета, написал о новом релизе программы:
"В Avalanche 2.0 появилась кнопка со стыдливым названием "экспресс-аудит источника", которая проверяет наличие "открытых дверей" в закрытую часть сайта.
Работает она в режиме "травматического оружия" (т.е. сама в дырку не лезет, а только фиксирует ее наличие), никаких нелегитимных действий не производит,но выглядит забавно, особенно при проверке порталов госструктур и спецслужб других стран smile18.gif "

Полный текст - на Форуме Бизнес-разведчиков.

Некоторые другие мои сайты и блоги:
Read more... )

10 Окт, 2007

Конкурентная разведка, Ющук Евгений Леонидович

Полевые испытания программы Аваланч (Avalanche)

Закончены испытания программы для мониторинга Интернета Аваланч (Avalanche). Ниже приведен отчет. Из-за скриншотов материал "потянул" на 2.5 МБ, имейте это в виду, принимая решение об открытии страницы. Отчет написан по результатам мониторинга реальных страниц различной направленности, как отдельных страниц сайтов, так и страниц выдачи поисковых машин Яндекс и Google по поисковым запросам.

Полевые испытания программы Аваланч (Avalanche)

Испытывалась программа Аваланч (Avalanche) версии 2.0 образца 2007 года

Программа Аваланч (Avalanche) предназначена для мониторинга изменений, происходящих в Интернете. Она собирает информацию с вэб-страниц по заданному алгоритму и складывает эту информацию в собственную базу данных. В любой момент пользователь может провести поиск по этой базе, используя опеаторы Булевой Алгебры, подобные тем, которые используются в Яндексе при формировании поискового запроса в Интернет.

Аваланч существует в двух модификациях по алгоритму работы и в нескольких модификациях по своим возможностям.

Различия по алгоритму работы заключаются в том, что одна из них собирает с заданных адресов все подряд, а вторая - только страницы, на которых произошли изменения с прошлого посещения ее Аваланчем. Я проводил испытания той версии, которая собирает только страницы с изменившимся контентом.

Различия по функциональным возможностям разных модификаций Аваланча более существенны. Я провел работу с самой простой модификациях Аваланча, которая умеет только собирать, сортировать и складировать информацию, а также предоставляет возможность поиска по базе данных. Более сложные (и дорогие) модификации Аваланча позволяют проводить обучение программы с тем, чтобы она анализировала контекст и размещала в соответствующие папки материалы, даже если в тех отсутствуют ключевые слова. Некоторые модификации Аваланча позволяют создавать в Интренете сайт в единственном экземпляре, который содержит все новости по заданным пользователем проблемам. В таком виде новости очень удобны для работы с ними. Есть и такие варианты Аваланча, которые обеспечивают практически полную анонимность работы.

Аваланч состоит из паука и "умных папок". Паук посещает страницы, которые ему предписано посещать, проверяет изменения на них и складывает информацию в базу данных. "Умные папки" самостоятельно сортируют эту принесенную пауком информацию, делая ее удобной для работы. Есть еще такое понятие, как рубрики. Рубрики позволяют работать с базой данных по конкретным запросам, интересующим пользователя в данный момент.

В целом, работа с Аваланчем выглядит следующим образом. Сначала прописываются источники, контент которых будет контролироваться. Это могут быть не только отдельные страницы сайтов, но и страницы поисковых машин, которые появляются по определенному поисковому запросу. Указывается глубина переходов со стораницы по ссылкам. Так, например, с первой страницы Гугла или Яндекса во время испытаний паук переходил по каждой ссылке, расположенной на первой странице поисковика с результатами выдачи. А на той странице, куда он по такой ссылке перешел, он уже не ходил по ссылкам дальше. Это настраиваемая опция.

Я не буду здесь рассказывать, как происходит настройка паука и папок, потому что эти знания в течение одного дня даются на занятиях или подчерпываются из инструкции. Могу сказать лишь, что это не сложно. Я буду показывать работу уже настроенного Аваланча.

Итак, приступим.

Аваланч устанавливается обычно в корневую папку диска C. На рисунке ниже показана папка с установленным Аваланчем. Видны файлы avalanche_spider.exe (это паук), Avalanche.exe (этот файл открывает интерфейс для работы с базой данных), avc12.exe (программа стороннего производителя, которая позволяет сравнивать два файла и находить изменения на вэб-странице, если они неочевидны)

Avalance

Сначала запускается паук (файл avalanche_spider.exe). Скриншот экрана после запуска паука приведен ниже. Для мониторинга я выбрал главную страницу новостного ресурса Lenta.ru, главную страницу сайта rbc.ru, раздел "тест-драйвы" на сайте autonews.ru, RSS-поток Форума Разведчиков, раздел "вакансии" на сайте одного из крупнейших в России автодилеров - компании "Рольф" и первые страницы результатов выдачи по запросу "Кузнецов Сергей Валентинович" в Яндексе и Гугле.

Avalance

После запуска паук начинает обход страниц, на которые он нацелен и ссылок с этих страниц на заданную глубину. В процессе работы видно, на каких ресурсах в данный момент паук находится и какой процент от общего количества работы выполнен. Во время работы паука процессор бюджетного ноутбука был загружен на 60-75% и было возможно, хоть и с подтормаживанием, пользоваться электронной почтой и совершать серфинг по интернет-страницам.