?
?

Log in

No account? Create an account

Category: животные

Category was added automatically. Read all entries about "животные".

Ющук Евгений Леонидович

Сбор информации с "закрытых" форумов Невидимого Интернета. На примере экстремистских групп.

Преамбула.
19.04.2010 я написал в блоге пост "Кейс. "Их нравы", "Ивана Бегтина на них нет!". Или о приоритете первоисточников". В нем я постарался проанализировать причины, приведшие к тому, что статья Security Lab о появлении программ, способных собирать информацию с "закрытых" интернет-форумов, вызвала шквал возмущенных голосов. Специалисты резонно замечали, что такого рода программы не надо изобретать, т.к. они уже есть.
Я нашел материалы человека, указанного в качестве автора статьи, на которую ссылался Security Lab. Точнее, "ссылался" - это громко сказано. Security Lab на самом деле ссылался на сайт РуФорматор, причем на его главную страницу.
Получалось, что Security Lab не очень корректно выдала материал, который по смыслу противоречил знаниям читателей этого ресурса - людей, безусловно, продвинутых в Интернет-технологиях выше среднего уровня.

Когда я обнародовал свои находки, Collapse )
Ющук Евгений Леонидович

Оффтоп: Кот из Абзаково

К конкурентной разведке это не имеет никакого отношения. Просто мне показался забавным сюжет. Снимок реальный, это не из фотоприколов, а из жизни.

В Абзаково в кафе "Метелица", расположенном на склоне трассы №5, есть элемент декора - чучело рыси, которая как бы держится когтями за вертикальный столб, обмотанный канатом. Голова чучела повернута набок. И на этой голове  регулярно спит  рыжий кот. :)

Кстати, к столбу под лапой чучела прикреплена консервная банка с надписью "Коту на мясо" :)
Люди на самом деле бросают в банку мелочь - в основном монеты по 1-2 рубля или купюры 10 рублей.

Эта сюрреалистическая композиция семейства кошачьих выглядит следующим образом.Кот в Абзаково
Ющук Евгений Леонидович

В копилку манипулятору на интернет-форуме. Шутка с низкой доли шутки.

Универсальные придирки или как дое..... до слона

Бывает так, что нам хочется немного погнусить в камментах, а придраться вроде как и не к чему. Что делать в таких случаях? Промолчать?

Есть способ лучше! Нужно всего навсего воспользоваться одной из универсальных придирок, списком которых я вас сейчас порадую. Некоторые из придирок можно сразу применять без изменений, а некоторые нужно будет предварительно слегка подогнать по смыслу.

Предположим, для наглядности, что некий блоггер Пупкинович накатал небольшой пост про слонов. Пост получился связный, логичный, свежий и, не будем греха таить, талантливый. Вот какие комментарии можно оставить негодяю Пупкиновичу, чтобы слегка подотравить ему радость творчества:

Collapse )
a_v_kuzin</div>
Ющук Евгений Леонидович

Полевые испытания программы Аваланч (Avalanche)

Закончены испытания программы для мониторинга Интернета Аваланч (Avalanche). Ниже приведен отчет. Из-за скриншотов материал "потянул" на 2.5 МБ, имейте это в виду, принимая решение об открытии страницы. Отчет написан по результатам мониторинга реальных страниц различной направленности, как отдельных страниц сайтов, так и страниц выдачи поисковых машин Яндекс и Google по поисковым запросам.

Полевые испытания программы Аваланч (Avalanche)

Испытывалась программа Аваланч (Avalanche) версии 2.0 образца 2007 года

Программа Аваланч (Avalanche) предназначена для мониторинга изменений, происходящих в Интернете. Она собирает информацию с вэб-страниц по заданному алгоритму и складывает эту информацию в собственную базу данных. В любой момент пользователь может провести поиск по этой базе, используя опеаторы Булевой Алгебры, подобные тем, которые используются в Яндексе при формировании поискового запроса в Интернет.

Аваланч существует в двух модификациях по алгоритму работы и в нескольких модификациях по своим возможностям.

Различия по алгоритму работы заключаются в том, что одна из них собирает с заданных адресов все подряд, а вторая - только страницы, на которых произошли изменения с прошлого посещения ее Аваланчем. Я проводил испытания той версии, которая собирает только страницы с изменившимся контентом.

Различия по функциональным возможностям разных модификаций Аваланча более существенны. Я провел работу с самой простой модификациях Аваланча, которая умеет только собирать, сортировать и складировать информацию, а также предоставляет возможность поиска по базе данных. Более сложные (и дорогие) модификации Аваланча позволяют проводить обучение программы с тем, чтобы она анализировала контекст и размещала в соответствующие папки материалы, даже если в тех отсутствуют ключевые слова. Некоторые модификации Аваланча позволяют создавать в Интренете сайт в единственном экземпляре, который содержит все новости по заданным пользователем проблемам. В таком виде новости очень удобны для работы с ними. Есть и такие варианты Аваланча, которые обеспечивают практически полную анонимность работы.

Аваланч состоит из паука и "умных папок". Паук посещает страницы, которые ему предписано посещать, проверяет изменения на них и складывает информацию в базу данных. "Умные папки" самостоятельно сортируют эту принесенную пауком информацию, делая ее удобной для работы. Есть еще такое понятие, как рубрики. Рубрики позволяют работать с базой данных по конкретным запросам, интересующим пользователя в данный момент.

В целом, работа с Аваланчем выглядит следующим образом. Сначала прописываются источники, контент которых будет контролироваться. Это могут быть не только отдельные страницы сайтов, но и страницы поисковых машин, которые появляются по определенному поисковому запросу. Указывается глубина переходов со стораницы по ссылкам. Так, например, с первой страницы Гугла или Яндекса во время испытаний паук переходил по каждой ссылке, расположенной на первой странице поисковика с результатами выдачи. А на той странице, куда он по такой ссылке перешел, он уже не ходил по ссылкам дальше. Это настраиваемая опция.

Я не буду здесь рассказывать, как происходит настройка паука и папок, потому что эти знания в течение одного дня даются на занятиях или подчерпываются из инструкции. Могу сказать лишь, что это не сложно. Я буду показывать работу уже настроенного Аваланча.

Итак, приступим.

Аваланч устанавливается обычно в корневую папку диска C. На рисунке ниже показана папка с установленным Аваланчем. Видны файлы avalanche_spider.exe (это паук), Avalanche.exe (этот файл открывает интерфейс для работы с базой данных), avc12.exe (программа стороннего производителя, которая позволяет сравнивать два файла и находить изменения на вэб-странице, если они неочевидны)

Avalance

Сначала запускается паук (файл avalanche_spider.exe). Скриншот экрана после запуска паука приведен ниже. Для мониторинга я выбрал главную страницу новостного ресурса Lenta.ru, главную страницу сайта rbc.ru, раздел "тест-драйвы" на сайте autonews.ru, RSS-поток Форума Разведчиков, раздел "вакансии" на сайте одного из крупнейших в России автодилеров - компании "Рольф" и первые страницы результатов выдачи по запросу "Кузнецов Сергей Валентинович" в Яндексе и Гугле.

Avalance

После запуска паук начинает обход страниц, на которые он нацелен и ссылок с этих страниц на заданную глубину. В процессе работы видно, на каких ресурсах в данный момент паук находится и какой процент от общего количества работы выполнен. Во время работы паука процессор бюджетного ноутбука был загружен на 60-75% и было возможно, хоть и с подтормаживанием, пользоваться электронной почтой и совершать серфинг по интернет-страницам.

Collapse )

Ющук Евгений Леонидович

PanImages - автоматический поиск картинок на разных языках

Известно, что поиск картинок (например, в "Картинках" Гугла) осложняется одним обстоятельством: для того, чтобы объяснить поисковику, что вы хотите найти, надо ввести слово на том языке, на котором картинка была размещена в Интернете. Поэтому в большинстве случаев используется родной язык и английский. Естественно, за бортом оказывается огромное количество картинок на незнакомых языках.
Например, те картинки, которые имеют подписи на норвежском, курдском, корейском или китайском языках, мне обычно недоступны. Безусловно, я могу воспользоваться переводчиком Гугла и перевести ключевое слово, а затем искать по нему, но мне это напоминает по трудоемкости знаменитую фразу Жванецкого: "Кофе в постель я сам себе могу подать, но для этого надо встать, одеться, приготовить, а потом раздеться, лечь и выпить".

Создатели нового сервиса совершенно справедливо рассудили, что перевести слово можно и автоматически.

Рассмотрим работу сервиса PanImages на примере. ВАЖНО: скрипты на странице должны быть разрешены.

Вы заходите на страницу http://www.panimages.org и вводите в поисковую строку нужное слово. В нашем случае -  слово "Собака". И нажимаете кнопку "Показать картинки". Умная машина тут же отвечает вопросом на вопрос. Она спрашивает примерно так: "Слово "собака" бывает на русском и украинском языках. С какого будем переводить на все остальные?"


поиск изображения


Выяснив, что же мы хотим на самом деле, машина сама формирует поисковый запрос в Google:



поиск картинок

И выдает результат. Причем кроме "Картинок" Google показывает и результаты поиска по Flickr (кликните по изображению, чтобы увеличить его):

результат поиска картинок
Ющук Евгений Леонидович

Гугл рассказал о своих новых мета-тегах

Источник:

Google палит темы

google search engine logoПредлагаю вашему вниманию перевод доклада директора по системе индексации Google, Dan’а Crow. Доклад сделан на основе третьей конференции SEMNE (Search Engine Marketing New England). Информация прямиком из Google, можно сказать из первых рук. С моими комментариями.
Что такое индексация?
Dan начал свою презентацию с обсуждения, что значит “индексация” и как она производится Google’ом. В общих чертах, процесс индексации для для паука Google выглядит так: сначала робот смотрит файл robots.txt, чтобы узнать, куда ему не нужно идти, и далее проходит по разрешенным страницам. Прочитав страницу, паук находит содержащуюся на ней релевантную информацию. Потом робот проходит по каждой ссылке и повторяет процесс.


Растолкованный Robots.txt

Dan продолжил объяснять как использовать файл robots.txt для исключения страниц и директорий вашего сайта из очереди на индексацию, например папку cgi-bin. Он рассказал нам, что все основные поисковые системы имеют свои собственные команды для этого файла, но все поисковики работают над стандартизацией этих команд в недалеком будущем.

По поводу вопроса, чему паук уделяет больше внимания, он сказал, что есть более 200 факторов сканирования, при этом “релевантность” играет большую роль в большинстве из них.


Google все еще любит свой PageRank

Dan также обсудил важность PageRank‘а (настоящего, который знает только Google, а не тулбарного PR, которым только детей пугать). Он дал нам знать, что высококачественные входящие ссылки все еще один из самых важных факторов в плане индексации и ранжирования, и потом он продолжил объяснять, что создание сайта с уникальным контентом для пользователей - один из лучших способов достигнуть успеха. Он объяснил, как создание комьюнити единомышленников, постоянно повышающих популярность вашего сайта, приводит его к успеху.

Не спать. Теперь начнется кое-что интересное :)

Знали ли вы об этих тегах?More...

Collapse )
Ющук Евгений Леонидович

Вариант: Подробное описание языка запросов поисковой системы Яndex.

http://www.memo.ru/request.htm

Подробное описание языка запросов поисковой системы Яndex.

Оглавление.

* Операторы языка запросов.
* Задание области действия логических операторов.
o Описание синтаксиса и примеры.
o Расстояние между словами.
* Поиск в зонах
* Фразы
o Понятие фразы
o Поиск фразы
* Задание веса слова или выражения
* Описание алгоритма упорядочивания результатов поиска

Операторы языка запросов.
&, && - логическое пересечение (И)
~, ~~ - логическое исключение (И НЕ)
"|" или "," - логическое объединение (ИЛИ)
<- - оператор уточнения запроса (первый аргумент уточняется вторым)
Здесь для логических (первых трёх) операций "одинарный" оператор имеет смысл операции в пределах абзаца, "двойной" - в пределах документа. Смысл операторов поясняется в примерах).
Аргументами операторов являются слова или фразы.

Операторы приведены в порядке убывания приоритета, при этом приоритет у операторов пересечения и исключения - одинаковый.

Порядок действия операторов можно изменить расстановкой скобок.

Примеры:
компьютер & телефон оба слова должны находиться в одном абзаце
компьютер && телефон оба слова должны находиться в одном документе
компьютер ~ телефон второе слово не должно находиться в одном абзаце с первым
компьютер ~~ телефон второе слово не должно находиться в одном документе с первым
компьютер <- телефон из документов, содержащих первое слово, первыми будут выданы документы, содержащие второе слово
Задание области действия логических операторов.
#
Описание синтаксиса и примеры.
Модификация области действия логических операторов имеет смысл для операторов &, &&, ~, ~~.
Для оператора | модификация области действия синтаксически допустима (т.е. сообщение о синтаксической ошибке не выдаётся и поиск происходит), но на результат поиска не влияет.

Область действия операторов определяется в виде расстояния между словами или абзацами

Синтаксис задания области действия логических операторов:
/(число1 число2),
при этом число1 должно быть не больше, чем число2.
Сокращённая форма:
/число - равнозначно /(-число +число)
/+число - равнозначно /(0 число)
/-число - равнозначно /(-число 0)

Если задана область действия оператора, но не задан сам оператор, то применяется оператор & (пересечение внутри абзаца), т. е.
он /2 идёт - эквивалентно запросу он &/2 идёт

Смысл этих конструкций поясним на примерах:
он /(-2 4) идёт "идёт" должно находиться от "он" в интервале расстояний от 2 слов слева до 4 слов справа
он &&/1 идёт "идёт" должно находиться в том же абзаце, что и "он", либо в соседнем
он /+1 идёт "идёт" должно следовать за "он"
он /2 идёт "идёт" должно находиться на расстоянии 2 слова от "он" вне зависимости от порядка следования
он ~/(-4 +8) идёт "идёт" не должно находиться рядом со словом "он", причём "рядом" здесь означает "в интервале расстояний от 4 слов слева до 8 слов справа"
Расстояние между словами.
Если слова в тексте перенумеровать по порядку их следования, то расстояние между словами a и b - это разница между номерами слов a и b. Таким образом, расстояние между соседними словами равно 1 (а не 0).
При задании расстояния порядок следования слов существенен. Высказывания "на расстоянии в -2 слова" и "на расстоянии в 2 слова cлева" мы считаем равнозначными.
Высказывания "на расстоянии в +2 слова" и "на расстоянии в 2 слова справа" также равнозначны.
Расстояние между абзацами
Определяется аналогично расстоянию между словами (если заменить термин "слово" на термин "абзац").

#
Поиск в зонах
Сейчас работает поиск в двух зонах - заголовках (имя зоны: Title) и ссылках (имя зоны: A).

Синтаксис:
$имя_зоны выражение_поиска_в_зоне
Здесь выражением_поиска_в_зоне может быть:

* поисковое выражение в скобках,
* слово или фраза
* выражение поиска в зоне.

Примеры:
$Title КомпТек - ищем в заголовках документов это слово
$Title (КомпТек | Dialogic) - ищем в заголовках документов одно из слов
$A (читайте /+1 на /+1 сайте) - ищем в ссылках выражение, взятое в скобки
$Title $A КомпТек - ищем в ссылках, находящихся в заголовках документов
Фразы
Понятие фразы
Фразой называется последовательность слов, разделённых пробелами. Скобки и знаки операций являются разделителями фраз.
Например, в запросе злая собака ~ московская сторожевая есть две фразы: "злая собака" и "московская сторожевая". Они разделены знаком операции исключения ~. Этот запрос интерпретируется следующим образом:
- происходит поиск фразы "злая собака"
- происходит поиск фразы "московская сторожевая"
- результат второго поиска вычитается из первого.
Поиск фразы.
В текущей версии Яндекса фраза обрабатывается следующим образом: между словами фразы вставляется оператор пересечения внутри абзаца с расстоянием (-256 258). Таким образом, запрос
скромное обаяние буржуазии
равнозначен запросу
скромное /(-256 258) обаяние /(-256 258) буржуазии
При таком запросе наиболее релевантными будут те документы, в которых первое слово следует непосредственно за вторым, второе - непосредственно за третьим (если, конечно, такие документы есть). Если же найденном документе есть, например, фраза, в которой эти слова тоже находятся рядом, но в другом порядке, то его релевантность будет ниже.

#
Задание веса слова или выражения.
Применяется для того, чтобы увеличить релевантность документов, cодержащих "взвешенное" выражение.

Синтаксис:
слово:число
или
(поисковое_выражение):число

Примеры:
поисковые механизмы:5
поисковые (механизмы|машины|аппараты):5
Запрос
поисковые (механизмы|машины|аппараты):5
равнозначен запросу
поисковые (механизмы:5|машины:5|аппараты:5)

#
Описание алгоритма упорядочивания результатов поиска.
При поиске для каждого найденного документа Яндекс вычисляет величину релевантности (соответствия) содержания этого документа поисковому запросу. Список найденных документов перед выдачей пользователю сортируется по этой величине в порядке убывания.

Релевантность документа зависит от следующих факторов:

* Частотные характеристики искомых слов;
* Вес слова или выражения, заданный пользователем;
* Факт расположения искомых слов в заголовке документа;
* Операторы, применяемые в запросе, их области действия;
* Близость искомых слов в тексте документа друг к другу.

Collapse )