Ющук Евгений Леонидович (yushchuk) wrote,
Ющук Евгений Леонидович
yushchuk

Просмотр страниц сайта, запрещенных к индексации поисковыми машинами.

Вообще, как позже посоветовал уважаемый участник Форума бизнес-разведчиков Vinni (а я потом сделал на основании его слов эту правку), самое простое, что можно сделать, дабы увидеть файл с запрещенными к индексации страницами - ввести URL вида http://имя_исследуемого_сайта/robots.txt


Для тех, кто не ищет легких путей и хочет, чтобы за него работал неизвестный скрипт - текст ниже. :)


Конкурентная разведка. Файл robots.txtКак и обещал участникам семинара, проведенного вчера и позавчера для специалистов конкурентной разведки, на главной странице своего сайта разместил ссылку на сайт Сергея Матвеенко, где можно взять

Кнопку на панель ссылок браузера для просмотра текста файла robots.txt

Тем, кто ранее не сталкивался с файлом robots.txt, хочу сказать, что это размещаемый на сайте текстовый файл, в котором перечислены страницы сайта, запрещенные владельцем для индексации поисковыми машинами. В ряде случаев такие страницы представляют интерес для специалистов конкурентной разведки. Перейдя по ссылке, вы попадете на сайт Сергея Матвеенко, где сможете взять кнопку, автоматизирующую просмотр файла robots.txt.

Надо иметь в виду, что не на всех сайтах такой файл в принципе есть. Но при посещении сайта паук поисковой машины первым делом должен проверять наличие этого файла и, если он есть, не посещать перечисленные в нем страницы. Это так называемый этический ограничитель для поисковой машины, т.к. с технической точки зрения никаких препятствий для индексации страницы нет.
Люди могут посещать такие запрещенные к индексации страницы без ограничений, поскольку доступ к ним не закрыт. Иногда некоторые  из подобных страниц бывают действительно информативными.
Tags: robots.txt, индексация, поисковые машины
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments