Уже можно с уверенностью сказать, что в масштабных проектах вручную достичь результатов, которые обеспечивает СайтСпутник, невозможно в принципе.
Теперь СайтСпутник научили автоматически сбрасывать результаты работы на разных компьютерах в одну общую папку, расположенную в локальной сети или в Интернете.
Новая версия программы решает ряд практических проблем, которые возникают при сборе большого объема первичной информации, а также позволяет повысить устойчивость системы мониторинга к разного рода сбоям.
Вот как автор SiteSputnik''а Алексей Мыльников описывает одну из самых часто встречающихся проблем, решение которых и дает новая версия программы:
В процессе работы СайтСпутник открывает поисковые страницы, RSS-потоки, произвольные страницы (эмуляция RSS-потоков). Есть пользователи, у которых их сотни. Затем реально скачивает страницы - их бывает тысячи.
Затем идет выделение контента ссылок, отсев неуникальных контентов, раскладывание по Рубрикам.
Рубрик бывает сотни, в некоторых Рубриках бывает более 100 правил. На все это требуется время. Есть предприятия, оставляющие работать СайтСпутник на всю ночь. В процессе работы появляется необходимость в подключении новых источников, задании новых запросов, в создании новых Рубрик.
Поэтому скоростью надо заниматься - это актуально практически в любой системе.
Подробно - здесь.
Изображение - с сайта Caricatura.ru