Обсуждение результатов тестирования системы мониторинга блогов и социальных сетей Айкубаз, вызвало дискуссию на форуме СПКР.
В результате, оказалось, что неудачи в использовании системы для оценки негатива/позитива на больших массивах текстов, в первую очередь, связаны как раз с некорректно составленным запросом.
В этом посте я покажу, как правильно сделанные настройки, даже при минимальной корректировке штатных настроек системы, позволяют получить результат, годный для использования в практике.
Также попытаюсь показать "на пальцах", в каких случаях и почему системы, подобные Айкубазу, оказываются полезны . Любой инструмент особенно хорош при его использованию по назначению, а не для того, к чему он не предназначен.
Еще одним результатом обсуждения на форуме СПКР стало появление в топике представителей другой системы, позволяющей вести мониторинг социальных медиа - YouScan. Я ее также несколько позже протестирую, и результаты покажу.
Под катом - много больших скриншотов. Это полный копипейст трех постов с форума, поэтому стилистика и форматирование такия, какие есть.
Первый пост.
Провел эксперимент. Точнее два эксперимента. Результаты - ниже.
1. Запрос в Айкубаз. Очень простой, и наиболее типичный для реальной работы: "Путин"
Настройка негатива/позитива такая (минимально скорректирован обычный словарь, расстояние в 2 слова - чтобы жестче получился запрос)
Результаты:
1-я страница выдачи
2-я страница выдачи
3-я страница выдачи
10-я страница выдачи
12-я страница выдачи
2. Контроль по реперным словам. Запрос: чтобы были слова Хутин или Пуй или Путлер, а также чтобы обязательно в тексте было слово Путин. Расстояние - заведомо большое - в 25 слов
Настройка негатива/позитива и расстояния:
Результаты:
Распределение во времени:
По источникам:
Примерное облако тегов:
А теперь представьте, что это - информполе перед нашим вмешательством. Так сказать, точка отсчета.
Затем идет корректирующее воздействие - повторная оценка - коррекция воздействия.
По-моему, вполне работоспособный инструмент.
Второй пост.
По Навальному - сделал минимальную пристрелку. Не особо вдаваясь в подробности и за несколько минут.
Первый запрос - просто слово "Навальный", только "посты" и "новости". Да, мусора много:
А теперь давайте посмотрим, что это за мусор. Он двух типов. Первое - слова "жулики" которые не к нему относятся. Второе - просто слова не относящиеся к нему.
Я не мониторю Навального, но даже мне известно, что слова "жулики и воры" он сам употребляет много чаще чем говорят про него. А лояльные к нему хомячки эхом транслируют.
Я сделал две вещи:
1. Предложил искать негатив в двух (а не в пяти) словах от ключевого слова;
2. Слова "жулики" и "воры" предложил негативом не считать.
Вот результат - так стала выглядеть первая страница.
Дальше не лез, ибо неинтересно уже.
Нет, еще вот 10-ю страницу посмотрел, т.к. на первой вроде как одно и то же было.
Вывод я сделал выше: как на ружье система прицеливания существует для повышения точности, а не для красоты, так и в любой поисковой системе язык запросов (и такие его элементы, как "минус" и "расстояние между словами") существуют для повышения точности, а не для запутывания пользователей.
А вот если запрос корректный (т.е. не только верно составленный, с точки зрения синтаксиса языка запросов, но и по смыслу) - то и график будет не просто симпатичным, а еще и полезным.
Само собой - как и в Яндексе, при более жестком запросе потеряется некоторый массив текстов. Но для целей оценки тренда и корректировки воздействий это сегодня вполне приемлемо.
Третий пост.
Попробую показать на примере аналогии - как и зачем может помочь Айкубаз на практике. Конкретно - в практике оценки трендов при информационных воздействиях, о которых я и говорю в этом топике.
Вот группа демонстрантов.
Я пронумеровал их цифрами от 1 до 4. Мы не знаем - кто они, не знаем их настроя, не знаем, что они будут делать в следующую минуту. Мы лишь фиксируем "картинку". Делаем "моментальную фотографию". Относительно нее будет оцениваться развитие ситуации. Обратите внимание, что под цифрой "2" - не один человек, а группа.
А вот это - проводится воздействие на поле.
Видно, что в результате проведенного воздействия, группа №2 явно негативно настроена к происходящему, но резко уменьшилась. Группа №1 осталась в поле воздействия, но индифферентна к происходящему. А группы №3 и 4 вообще исчезли с поля.
При этом, нас абсолютно не интересует - кто эти люди, о чем они думают, что конкретно хотели сказать. Нам неинтересны тембр их голоса или красота стиля. Нам даже их точное количество неинтересно. Нам интересно изменение количества негативно настроенных под влиянием воздействия. И всё.
Вот, в Интернете нас примерно то же самое интересует.
А вот ответ на вопрос "Куда бежит толпа?" - от нас или к нам, чтобы побить, к примеру.
Мы выбираем из толпы несколько ориентиров ("реперов"), которые явно типичны для поведения толпы в целом
и отслеживаем их движение (разумеется, не забывая сверяться, что их движение соответствует движению толпы, а также не забывая оценивать динамику общей численности толпы)
И вновь обращаю внимание на то, что нас не интересуют конкретные персоны и нам не нужна абсолютная точность. У нас иная задача и нас устраивает примерная точность в данном случае. Главное - верно отфильтровать ориентиры.
При работе "в позитив" задача принципиально та же, но просто позитивом тогда будет повышение лояльности, а не понижение внимания к нам.