Ющук Евгений Леонидович (yushchuk) wrote,
Ющук Евгений Леонидович
yushchuk

Кейс. О пользе языка запросов поисковиков, утечках и конкурентной разведке.

Специалистам Конкурентной разведки хорошо известно, насколько повышают качество работы операторы поиска поисковых машин при их правильном использовании.

Не так давно отшумел скандал с утечками текстов смс с сайта крупного оператора сотовой связи. Видимо, вдохновленные резульатом, пытливые исследователи стали изучать поисковики на предмет похожих утечек. Результат не заставил себя долго ждать.

Приведу пример от участника Форума МВД Бегемот. Вот что написано о предназначении сайта sexyz.ru непосредственно на самом этом сайте:


А вот какие данные обнаруживаются в свободном доступе в Яндексе простым поиском в определенном домене, в сочетании с некоторыми специфическими сайта ключевыми словами:



Тем же, кого еще интересует механизм утечек (и обнаружения) текстов смс с сайта крупного оператора сотовой связи - предлагаю заглянуть под кат, или непосредственно на страницу Хабра, где это доступно и интересно рассказывается.

Далее - цитата.

FAQ по утечке текстов SMS с сайта «Мегафона»

Феерическая история, ставшая сегодня самой популярной новостью дня в сети, вызывает немало кривотолков. Даже люди, близкие к веб-технологиям, не всегда адекватно оценивают произошедшее, что уж говорить о прочей сетевой общественности, часть которой уже объявила случившееся вирусной рекламой. Я постараюсь развеять туман теории заговора в форме ответов на задававшиеся в комментариях вопросы.

В: Как вдруг поисковик получил доступ к текстам SMS?
О: Да они всегда были всем доступны, by design. Напомню, что речь идёт об анонимной отправке SMS с сайта. Разумеется, для этого не надо быть абонентом «Мегафона», и не требуется регистрация на портале — в этом прелесть услуги, особенно когда вам дорога каждая секунда. Однако снабдить посетителя минимальными удобствами разработчики не поленились: для каждой попытки отправки генерируется страница со случайным адресом, на которой отображается текст SMS и статус её доставки. Вот её-то и может прочитать кто угодно, включая роботов.

В: Разве нет возможности ограничить доступность этих страниц, не осложняя жизнь пользователей?
О: Разумеется, есть. Вот лишь самые очевидные: привязка к сессионной cookie в браузере, сильное ограничение времени жизни страницы и наконец, robots.txt, запрещающий индексацию этих страниц поисковиками. Файл robots.txt был добавлен лишь в ходе сегодняшнего экстренного латания дыр, что подтверждается официальным ответом «Яндекса». Почему об этом не задумались разработчики? У меня есть теория на этот счёт: раздолбайство :)

В: А почему же Google ничего не видит?
О: Для того, чтобы проиндексировать страницы, надо сначала о них узнать. Как правило, поисковики переходят на новые страницы по ссылкам с уже известных им страниц, каковых в распоряжении Google не оказалось. Впрочем, несколько страниц он всё же проиндексировал, просто на фоне «Яндекса» получилось не столь эффектно.

В: Но как же «Яндекс» их нашёл?
О: Это же «Яндекс», найдётся всё. Наиболее правдоподобная версия: установленный на сайте код «Яндекс.Метрики». Заметая следы В ходе аварийных работ «Мегафон» избавился и от него, но в данный момент в Google ещё доступен кэш от 5 июля, где он присутствует. Адреса всех посещённых на сервисе страниц становились известны «Яндексу» — в этом принцип работы «Метрики». Любопытно, что присутствовал там и код Google Analytics, но поисковики по-разному распорядились получаемой информацией. Я бы не назвал это фэйлом «Мегафона» — имело место нормальное использование хороших инструментов. А для сокрытия непубличных данных, повторюсь, надо использовать robots.txt, привязку сессии к браузеру, авторизацию на сайте и другие методы.

В: А почему так мало сообщений проиндексировано?
О: Для начала напомню, что это лишь сообщения, отправленные с сайта, их оттуда не миллионы посылается, как с телефонов. Теперь кое-что о поисковиках. «Яндекс» никогда не пытается выкачать сайт целиком, если счёт страниц идёт на десятки и сотни тысяч, и если только мы не говорим о высокоцитируемой «Википедии». Страницы скачивались постепенно, выбираясь из переполненной очереди непредсказуемым образом, так что к моменту захода робота они уже и «Мегафоном» могли быть удалены. Какая часть сообщений в итоге попадала на поиск, не ясно, но точно небольшая. Ну а старые страницы просто уходили из индекса при очередных обновлениях кэша — мусор на поиске долго не живёт.

В: А что же сообщения все такие интересные? Где односложные «Ок», «Да», «Нет»? Где «Буду через 5 минут» и «Занят, перезвоню»? Почему мало транслита и много ошибок?
О: И снова есть специфика как сервиса, так и поиска. Сайтом пользуются не на бегу, он как раз для длинных SMS кстати. Отвечать с него тоже неудобно — вопрос-то в телефон пришёл. В транслите нет нужды: не влезло в одно сообщение — пиши второе, халява же. Ну и анонимность провоцирует на многое: часть этих текстов вполне может оказаться дурацкими розыгрышами и подставами. Но даже если шаблонных сообщений будет 99%, «Яндекс» покажет на первых страницах именно 1% «интересных» с его точки зрения. Так уж устроено ранжирование по запросу, ограниченному сайтом, но не содержащему текст. Цитируемость у всех страниц нулевая, поведенческие факторы тоже одинаковые, остаётся только контент: чем больше необычных (экспрессивных, ошибочных) слов, тем выше его уникальность, тем он ценнее. Всё это и сделало из поисковой выдачи филиал «Башорга».

В: Да точно это вирусняк! Не бывает же плохого пиара.
О: Кажется, в маркетинге, как и в футболе, у нас разбираются все :) Процитирую комментарий niketas из ушедшего в черновики топика:
Мне кажется, что ты даже когда застанешь девушку в постели с другим парнем, скажешь «Вот это ты меня разыграла, шутница!» и пойдёшь ставить чай на кухню.
Нанесён непоправимый ущерб репутации оператора, Следственный комитет РФ начал проверку по факту утечки, пострадавшие абоненты, чья переписка стала публичной, собираются подавать в суд с требованием денежной компенсации. Какая же каша должна быть в голове, чтобы увидеть в этом выгоду для «Мегафона»? Новых абонентов таким фэйлом не привлечёшь, а вот старых потерять — запросто, в придачу к потере репутации и денег.

UPD (20.07.2011): Обновил информацию по «Яндекс.Метрике», ибо обнаружились доказательства того, что она стояла на сайте (спасибо w0den). Скопировал из комментариев свой ответ про пиар.
Tags: Деловая разведка, Евгений Ющук, Кейс, Коммерческая разведка, Хабрахабр, операторы запросов Яндекса, утечки смс с сайта
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 4 comments