?

Log in

No account? Create an account
Ющук Евгений Леонидович

Февраль 2018

Вс Пн Вт Ср Чт Пт Сб
    123
45678910
11121314151617
18192021222324
25262728   

Конкурентная разведка (Competitive Intelligence)

Теги блога "Конкурентная разведка"

Разработано LiveJournal.com
Ющук Евгений Леонидович

Cтудентка ВШЭ нашла сбежавшего брата с помощью анализа «ВКонтакте»

Cтудентка смогла найти сбежавшего брата с помощью анализа социальной сети Вконтакте

Достаточно стандартная семейная история — подросток сбежал из дома, написав смску: «Я сюда больше не вернусь, можете даже не пытаться меня найти» и, естественно, отключив телефон. Найти его смогла сестра, используя знания, полученные во время учебы на программе «Прикладная математика и информатика». Эта история также показывает, что могут рассказать соцсети о своих пользователях понимающему человеку.

Никаких зацепок

Никто не знал, к кому мог уехать беглец — родители были полностью уверены, что молодой человек близок лишь со своими одноклассниками. Но тех, кого знали, обзвонили, и ни у кого из них он не обнаружился. Был еще один путь — поиск по сети Вконтакте. Именно этим и занялась сестра беглеца, которую из этических соображений мы назовем инициалом Л.

«Но друзей у него там было слишком много, чтобы проверить каждого, — вспоминает она. — Как посчитали статистики, в среднем у каждого пользователя социальной сети около 150 взаимных подписчиков, в то время как в реальной жизни круг общения в пять раз меньше виртуального.

Нужно было искать другой способ. В курсе «Комбинаторика» мы в том числе писали программу обработки, анализа и визуализации сети друзей ВКонтакте. Я решила посмотреть, смогу ли я что-то полезное извлечь из этого анализа, поскольку любая информация приветствовалась».

Математическая магия

Ниже приведена визуализация сети Вконтакте разыскиваемого молодого человека на тот момент. Цветами выделены плотные кластеры на графе. Внутри каждого кластера люди больше знакомы между собой и меньше — с участниками других кластеров.



В смеси кластеров снизу находились школьные друзья, знакомые из других классов и другие люди, которые уже были известны Л. А вот зеленый кластер — это люди, которых сестра беглеца совсем не знала. Возможно, это было то, что принято называть «плохой компанией» (впоследствии это предположение подтвердилось). Поскольку поиск по школьным друзьям был проведен практически сразу после начала поисковой операции и результатов не дал, было логичным предположить, что беглец скорее всего связался с кем-то из зеленого кластера. Писать всем подряд было бы бессмысленно — необходимо было говорить с ними с определенной степенью уверенности в том, что ты обращаешься к нужному человеку, и при этом не потерять эффект неожиданности, чтобы все участники не залегли на дно, не желая «сдавать» подростка родителям.
«Сузив объем работ, я продолжила исследование, выделяя сообщества и высчитывая индексы влияния (centrality metrics), показывающие, насколько влиятелен тот или иной человек относительно различных типов взаимодействия и распространения информации», — рассказывает Л.

Анализировать весь граф было бы бессмысленно, поскольку на верхних позициях находились бы люди из класса, в котором учился молодой человек, а их уже опросили.

Поэтому Л. занялась пристальным изучением только участников подозрительного зеленого кластера. Она исследовала их по трем показателям влиятельности: degree centrality (количество людей, которых знает этот человек), betweenness centrality (насколько часто через этого человека проходит информация в сообществе) и closeness centrality (насколько быстро распространится информация по сообществу, если сначала она попадет к этому человеку). Результаты оказались следующими (в порядке убывания индексов влияния, каждый участник обозначен буквой):

Degree centrality

Betweenness centrality

Closeness centrality

A

A

A

B

E

E

C

F

B

D

G

C

E

B

D



Что все это значит?

Во-первых, обнаружилась любопытная деталь: личность А в общем графе занимала лишь 16-е место по betweeness centrality, но если рассматривать зеленый кластер отдельно, А лидировала по всем показателям. Это была девушка, и в дальнейшем выяснилось, что она действительно играла важную роль в этой истории, потому что именно она втянула молодого человека в дурную компанию.

Во-вторых, оказалось, что личность B имеет высокий показатель degree, но низкий betweenness — скорее всего это значит, что связи этого человека бессмысленны, и ключевая информация проходит не через него. С определенной вероятностью Л. сделала вывод, что B не представляет собой ключевого человека. Скорее всего это такой тип поведения в социальной сети, когда в друзья добавляют просто всех подряд. Личности С, D по всем показателям находятся ниже личности B, следовательно, их можно пропустить автоматически.

В-третьих, личность E имеет низкий degree, но весьма высокие остальные показатели. Это означает, что ее связи являются ключевыми в сети и что важная информация скорее всего будет передаваться именно через этого участника сообщества. Вряд ли это означает, что именно этот человек скрывает беглеца, но очень вероятно, что он по крайней мере что-то знает о его местонахождении.

В-четвертых, личности F и G появляются только в betweenness centrality. Они связывают «зеленую» компанию с кластером школы, то есть, вполне возможно, что-то знают и скрывают. Л. предположила, что личность F — такой же пустившийся во все тяжкие одноклассник. Как оказалось впоследствии — это был просто юный романтик, который хотел бы сбежать, но все не получалось.

Выяснились интересные особенности и других кластеров: если, например, красный кластер представлял собой друзей из старших классов, то люди в фиолетовом кластере не всегда даже были в одной параллели. Впоследствии оказалось, что программа с абсолютной точностью определила «трудных подростков», замеченных за употреблением крепких напитков и курением. При всем этом, фиолетовый кластер не пересекается с «плохой компанией» зеленого кластера — можно заметить, что между ними есть всего лишь одно весомое связующее звено.



Логично было предположить, что это «поставщик» тех самых напитков, которые запрещены к продаже школьникам.

Возвращение

Все сделанные аналитически выводы позже подтвердились показаниями сбежавшего брата. Сам он до сих пор считает, что его сестра владеет какой-то математической магией.

«На этом этапе я наконец решила начать переписку и связалась с личностями А, Е и F, — рассказывает Л. — Это было рискованно, но стоило попытаться. Личность F в итоге оказалась бесполезна, хотя во время общения продемонстрировала открыто враждебную позицию. Личность A предпочла меня проигнорировать. Личность E некоторое время утверждала, что ничего не знает, но после, в общем-то, безосновательного, но очень уверенного напора все же признала, что брат находится в безопасности неподалеку. После этого было уже нетрудно опосредованно уговорить его выйти на связь сначала со мной, а потом уже и с родителями».

К этому моменту родители уже поехали подавать заявление о розыске в органы внутренних дел, захватив с собой «черный список» из этих трех личностей.

Предполагалось, что если за выходные брат не появится, с них можно будет начать поиски. Но до этого не дошло, молодой человек сам вернулся домой.

После завершения этой истории граф его социальных связей выглядел так:




Голубые точки — это друзья из новой школы с уклоном в сторону развития творческого потенциала учеников и патриотического воспитания, куда его перевели. На графе они не пересекаются с остальными. Участники же старых зеленого и фиолетового кластеров, которые на этом рисунке еще присутствуют, вскоре были удалены из друзей.

Преподаватели департамента анализа данных и искусственного интеллекта благодарны Л. за то, что она поделилась с ними своей историей. «Огромной радостью для педагога является не только успех его учеников, но и применение знаний на практике, особенно в таком важном деле, как спасение жизни ребенка», — говорит научный руководитель Л. и автор курса по комбинаторике Илья Макаров. — Я уверен, что этот пример заставит многих задуматься о том, сколько личной информации на самом деле хранится в социальных сетях и как обученные профессионалы могут использовать эти данные для предотвращения подобных случаев в будущем».

Описанные выше методы анализа социальной сети в Вышке можно изучить в рамках дисциплин и проектов на магистерских программах «Науки о данных» и «Прикладная статистика с методами сетевого анализа», они также затрагиваются на программе «Журналистика данных». Для всех магистрантов 1 года обучения любых других программ доступен вводный курс «Social Network Analysis» из цикла МАГоЛЕГО, а бакалавры могут взять курс по выбору «Комбинаторика».

Источник - сайт ВШЭ


Удаление информации из Интернета. Стирание негатива из Интернета



Подписаться на Telegram канал yushchuk

Comments