Google без секретов (операторы Гугла в практических примерах)
ВНИМАНИЕ: в статью периодически вносятся дополнения и изменения, отражающие изменения в Гугле. Актуальная версия статьи расположена здесь. Я РЕКОМЕНДУЮ ПЕРЕЙТИ К АКТУАЛЬНОЙ ВЕРСИИ МАТЕРИАЛА.
Эта статья написана для тех, кто пользуется Гуглом (Google) для поиска информации в Интернете и хочет научиться делать это еще более качественно и профессионально.
Гугл становится все более популярным. За ним стоит колоссальный финансовый ресурс, которым грамотно распоряжаются. Так, по информации из интервью инженера по программному обеспечению Google Мэта Катса уже в 2002 году «каждые 28 дней Google индексировал 3 миллиарда веб-документов, в том числе более трех миллионов новых страниц каждый день».
В своей работе в качестве бизнес-тренера я не раз сталкивался с тем, что отсутствие русскоязычного хэлпа затрудняет работу пользователей. Работа Дениса (liveuser) http://www.livejournal.com/community/kub ok/45852.html по поиску через Яндекс подтвердила востребованность и практическую полезность подобных статей, как и тот факт, что не всё, написанное в хэлпах поисковых систем, своевременно обновляется.
Так была написана статья, предлагаемая вашему вниманию.
Здесь на конкретных примерах рассказывается об операторах запросов Гугла.
Основы поиска
Чтобы ввести запрос, напечатайте ключевые слова и нажмите ENTER, либо щелкните кнопку «Поиск в Google».
Гугл использует интеллектуальную технику анализа текстов, которая позволяет искать важные и вместе с тем релевантные страницы по вашему запросу. Для этого Гугл анализирует не только саму страницу, которая соответствует запросу, но и страницы, которые на нее ссылаются, чтобы определить ценность этой страницы для целей вашего запроса. Кроме того, Гугл предпочитает страницы, на которых ключевые слова. Введенные вами, расположены недалеко друг от друга.
Показ ключевых слов в результатах.
Каждый раз в списке найденных страниц Гугл показывает отрывок из текста на странице, выделяя в этом отрывке ключевые слова. Тем самым облегчается обнаружение ключевых слов в тексте.
Второй способ увидеть ключевые слова – загрузить страницу по ссылке «Сохранено в кэше». Недостаток этого способа (а иногда это рассматривается как преимущество) – в том, что вы видите не ту страницу, которая есть сегодня, а ту, которая сохранена в базе Гугла.
Третий способ – традиционный для просмотра текста в браузере – использовать сочетание клавиш CTRL+F. Появится окно «найти» , в которое вводятся искомые слова. Раскладка клавиатуры, установленная в этот момент на компьютере, значения не имеет.
Логическое «И».
По умолчанию при написании слов запроса через пробел Гугл ищет документы, содержащие все слова запроса. Это соответствует оператору AND
Например:
[Кошки собаки верблюды зебры носороги]
Пример результата, сохраненного в кэше, можно видеть на странице:
{Нажмите здесь, чтобы увидеть результат}
Эта статья написана для тех, кто пользуется Гуглом (Google) для поиска информации в Интернете и хочет научиться делать это еще более качественно и профессионально.
Гугл становится все более популярным. За ним стоит колоссальный финансовый ресурс, которым грамотно распоряжаются. Так, по информации из интервью инженера по программному обеспечению Google Мэта Катса уже в 2002 году «каждые 28 дней Google индексировал 3 миллиарда веб-документов, в том числе более трех миллионов новых страниц каждый день».
В своей работе в качестве бизнес-тренера я не раз сталкивался с тем, что отсутствие русскоязычного хэлпа затрудняет работу пользователей. Работа Дениса (liveuser) http://www.livejournal.com/community/kub
Так была написана статья, предлагаемая вашему вниманию.
Здесь на конкретных примерах рассказывается об операторах запросов Гугла.
Основы поиска
Чтобы ввести запрос, напечатайте ключевые слова и нажмите ENTER, либо щелкните кнопку «Поиск в Google».
Гугл использует интеллектуальную технику анализа текстов, которая позволяет искать важные и вместе с тем релевантные страницы по вашему запросу. Для этого Гугл анализирует не только саму страницу, которая соответствует запросу, но и страницы, которые на нее ссылаются, чтобы определить ценность этой страницы для целей вашего запроса. Кроме того, Гугл предпочитает страницы, на которых ключевые слова. Введенные вами, расположены недалеко друг от друга.
Показ ключевых слов в результатах.
Каждый раз в списке найденных страниц Гугл показывает отрывок из текста на странице, выделяя в этом отрывке ключевые слова. Тем самым облегчается обнаружение ключевых слов в тексте.
Второй способ увидеть ключевые слова – загрузить страницу по ссылке «Сохранено в кэше». Недостаток этого способа (а иногда это рассматривается как преимущество) – в том, что вы видите не ту страницу, которая есть сегодня, а ту, которая сохранена в базе Гугла.
Третий способ – традиционный для просмотра текста в браузере – использовать сочетание клавиш CTRL+F. Появится окно «найти» , в которое вводятся искомые слова. Раскладка клавиатуры, установленная в этот момент на компьютере, значения не имеет.
Логическое «И».
По умолчанию при написании слов запроса через пробел Гугл ищет документы, содержащие все слова запроса. Это соответствует оператору AND
Например:
[Кошки собаки верблюды зебры носороги]
Пример результата, сохраненного в кэше, можно видеть на странице:
Логическое «ИЛИ»
Пишется с помощью оператора OR. Обратите внимание, что оператор OR должен быть написан заглавными буквами. Относительно недавно появилась возможность написания логического «ИЛИ» в виде вертикальной черты ( | ), подобно тому, как это делается в Яндексе.
Например:
[Таксы длинношерстные OR гладкошерстные]
Интересно, что Гугл может показать и те страницы, на кoтopыx нет ключевых слов, но эти слова содержатся в ссылках на показанную страницу. В таком случае при просмотре страницы с помощью ссылки «Сохранено в кэше» будет видна надпись: «Эти слова присутствуют только в ссылках на эту страницу: таксы длинношерстные гладкошерстные». Пример можно увидеть по адресу:
{Нажмите здесь, чтобы увидеть результат}
Заглавные буквы или прописные?
Гугл НЕ чувствителен к регистру букв. Все буквы воспринимаются как прописные, вне зависимости от того, как их вводили в поисковую строку. Запросы [Эйфелева Башня] и [эйфелева башня] дадут одинаковые результаты.
Пример результата на момент написания статьи:
Результаты 1 - 10 из примерно 91 900 для Эйфелева Башня.
Результаты 1 - 10 из примерно 91 900 для эйфелева башня.
Стоп-слова.
В хэлпах написано, что Гугл, подобно большинству поисковых машин, игнорирует стоп-слова. И, как и многие другие, имеет механизм принудительного включения стоп-слов в результаты поиска. К стоп-словам относятся большинство артиклей английского языка, союзов и предлогов русского языка.
В реальности ситуация, похоже, изменилась.
Тест: вводим по-русски букву
[в] . Результат:
Результаты 1 - 10 из примерно 48 600 000 для в.
Вводим по-английски артикль
[the] . Результат:
Результаты 1 - 10 из примерно 8 670 000 000 для the.
Оператор «Плюс» (+)
Тем не менее, бывают ситуации, когда надо принудительно включить в текст какое-либо слово, которое может иметь варианты написания. В хэлпе Гугла приводится пример с запросом «Star Wars Episode I», где римская единица представляет собой латинскую букву “I” (Ай). Если сделать запрос просто как
[Star Wars Episode I]
То результат будет
Результаты 1 - 10 из примерно 13 200 000 для Star Wars Episode I.
В том числе в выдаче появятся слова «Episode II», «Episode IV» и т.п.
Если сделать запрос:
[Star Wars Episode +I]
то результат будет
Результаты 1 - 10 из примерно 9 290 000 для Star Wars Episode +I.
И в него войдут только тексты, содержащие слово «Episode I»
Морфология слов.
Гугл НЕ поддерживает морфологию слов. Слова надо вводить в нужных словоформах. Правда, отчасти это компенсируется интеллектуальной системой поиска, которая может найти нужную словоформу в ссылках на страницу. Чтобы убедиться в правильности утверждения об отсутствии поддержки морфологии, давайте возьмем словосочетание, по которому можно увидеть все без исключения результаты. На эту роль подходит «Глоклая куздра».
Тест:
Запрос:
[глоклая куздра]
Результаты 1 - 4 из примерно 16 для глоклая куздра.
В выдаче три адреса:
1. www.flame.ws/txt/index.php/t737.html
2. www.dom.no/modules.php?name=Forums&file=v iewtopic&p=31986&highlight=
3. gb.anekdot.ru/vm.html?file=vm&date=1998-0 8-07
Запрос:
[глоклую куздру]
Результаты 1 - 1 из 1 для глоклую куздру.
В выдаче один адрес:
gb.anekdot.ru/vm.html?file=vm&date=1998-0 8-07
Запрос:
[глоклой куздре]
Результат: Не найдено ни одного документа, соответствующего запросу глоклой куздре.
Правда, это не мешает Гуглу иногда выделять по запросу «площадь» слово «площади» как релевантное. Однако подобное выделение встречается на странице выдачи, но не в кэше.
Просто для сравнения, приведу результат Яндекса. По всем трем запросам Яндекс давал на момент написания статьи одинаковый результат:
Результат поиска: страниц — 13, сайтов — не менее 5
Улучшение запроса во время поиска.
Поскольку Гугл выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли ввести в начале поиска, но нашли в ходе его выполнения в найденных текстах. В ряде случаев это может помочь улучшить поиск. Если же добавлять эти слова к уже имеющемуся запросу, то можно иногда излишне сузить диапазон результатов.
Исключение слов из запроса. Логическое «НЕ».
Как известно, информационный мусор часто встречается при составлении запроса. Чтобы его удалить, стандартно используются операторы исключения – логическое «НЕ». В Гугле такой оператор представлен знаком «минус». Используя этот оператор, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.
Тест:
Запрос:
[Журавль колодец]
Результаты 1 - 10 из примерно 778 для Журавль колодец.
Запрос:
[Журавль колодец –птица]
Результаты 1 - 10 из примерно 715 для Журавль колодец -птица.
Запрос:
[Журавль -колодец –птица]
Результаты 1 - 10 из примерно 120 000 для Журавль -колодец -птица.
Запрос:
[Журавль -колодец -птица –птиц]
Результаты 1 - 10 из примерно 106 000 для Журавль -колодец -птица -птиц.
Запрос:
[Журавль -колодец -птица -птиц –журавли]
Результаты 1 - 10 из примерно 104 000 для Журавль -колодец -птица -птиц -журавли.
Поиск точной фразы.
Искать точную фразу на практике требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляет собой стабильно повторяющееся словосочетание.
Чтобы справиться с такой задачей при помощи Гугла, требуется заключить запрос в кавычки (имеются в виду двойные кавычки, которые применяются, например, для выделения прямой речи).
Забавным, но показательным примером может быть задание из учебника русского языка для 7 класса под ред. Н.М. Шанского. На стр. 45 приведено задание разделить текст на абзацы. Автор – М.Шолохов. Произведение не указано. Вот фрагмент текста: [«За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки.»]
Введем этот текст в кавычках в Гугл и получим следующий результат:
Результаты 1 - 10 из примерно 15 для «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки.».
Как выяснилось, этот фрагмент относится к произведению Тихий дон / книга четвертая. А забавность примера в том, что у Шолохова этот текст оказался вообще не разбитым на абзацы.
Гугл воспринимает как знаки, связывающие слова в единую фразу, не только кавычки, но и такие символы, как дефис, слэш (косая черта), точка, знак равенства, апостроф.
Результаты 1 - 10 из примерно 27 400 для мать-и-мачеха.
Результаты 1 - 10 из примерно 27 300 для мать/и/мачеха.
Результаты 1 - 10 из примерно 27 300 для мать=и=мачеха.
Результаты 1 - 10 из примерно 27 300 для мать.и.мачеха.
Результаты 1 - 10 из примерно 27 300 для мать'и'мачеха.
Во всех вышеприведенных случаях первым в выдаче стоит текст, фрагмент которого приведен ниже: «Мать-и-мачеха (Tussilago farfara) — одно из самых раноцветущих растений: зацветает в
... Как лекарственное растение мать-и-мачеха применяется, прежде всего, ...»
При этом все три слова - «мать», «и», «мачеха» рассматриваются как отдельные, но стоящие рядом и в этой последовательности. Пример можно увидеть на сохраненной в кэше странице по адресу:
{Нажмите здесь, чтобы увидеть результат}
Интересно, что по запросу [мать-и-мачеха] оказалось на 100 документов больше, чем по остальным, но если взять это слово в кавычки, то результат уравнивается:
Результаты 1 - 10 из примерно 27 300 для "мать-и-мачеха".
Чтобы прояснить этот казус, введем запрос такого вида:
[мать-и-мачеха -"мать-и-мачеха"]
Получим: Результаты 1 - 10 из примерно 27 для мать-и-мачеха -"мать-и-мачеха".
В выдаче появятся тексты такого содержания:
Санкт-Петербургская Федерация Настольного Футбола
Матьимачеха. Королев Петр Трушков Кирилл. 2. Экспромт. Гриневич Василий ...
Матьимачеха - игроки получают по 60 рейтинговых очков; Экспромт - игроки ...
www.kickerclub.spb.ru/tournaments/2005-0 9-03.html - 17k
Количество слов в строке поиска.
Во многих источниках встречается информация, что поисковая строка Гугла вмещает 10 слов или что Гугл проводит поиск только по 10 словам.
В моем эксперименте эти данные не подтвердились. Так, введем запрос из 23 слов:
[крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр]
Результат:
Результаты 1 - 3 из примерно 5 для крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр.
Ресторан.Ru | Кулинария | Кулинарные рецепты | Вторые блюда | С ...
(салат, помидоры, огурцы, гамбургеры, булочки, сыр, майонез) ... (макароны, лук, перец, помидоры, мука, масло, рубленое мясо, мясной бульон, сыр) ...
www.restoran.ru/index.phtml?t=1&pid=2516
В КЭШе подчеркнуты все 23 слова и в тексте они также присутствуют.
Увидеть эту страничку из кэша можно по ссылке:
{Нажмите здесь, чтобы увидеть результат}
Если изменить запрос, используя логическое «ИЛИ» вместо логического «И», то результат прогнозируемо меняется, но все слова в выдаче по-прежнему выделены Гуглом.
[крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр]
Результат:
Результаты 1 - 10 из примерно 3 430 000 для крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр.
В начале сентября 2006 г. появились публикации, в которых было сказано, что Гугл позволяет вводить в строку запроса не более 32 слов. Эта информация соответствует действительности.
Стемминг (а также wildcard).
Стемминг – возможность усечения слова до его корня. После усечения слова до его корня производится поиск релевантных вариантов слов, производных от этого корня. Другими словами, стемминг позволяет искать все однокоренные слова.
Техника поиска по маске (wildcard) предствавляет собой написание базового слова (или части слова), после которых идет символ маски – «звездочка» (*), заменяющая собой любое возможное продолжение слова. Таким образом, если поисковая машина поддерживает поиск по маске, то ищутся все слова, которые одинаково начинаются. Эта техника особенно удобна, когда вам неизвестно точное написание конкретного слова, либо когда вы хотите включить все возможные варианты слова в свой поиск.
Например, когда по запросу [тарт*]
получают как «тарталетку», так и «тартар».
Так вот, Гугл эти технологии НЕ поддерживает. Зато он поддерживает вариант, когда вместо ЦЕЛОГО СЛОВА вводится звездочка.
Например, по запросу:
[красная * площадь]
Будет выдано:
«Красная и Манежная площади», с подчеркиванием всех этих слов, в том числе буквы "и". В какой-то степени это похоже на поиск с расстоянием между словами.
По запросу:
[красная * площадь -"красная площадь"]
Будут получены результаты « Красная (Семеновская) площадь », где слово «Семеновская» не считается релевантным и не подчеркивается Гуглом.
Дополнительные операторы
Оператор cache:
Поисковая машина хранит версию текста, которая проиндексирована поисковым пауком, в специальном хранилище в формате, называемом кэшем. Кэшированную версию страницы можно извлечь, если оригинальная страница недоступна (например, не работает сервер, на котором она хранится). Кэшированная страница показывается в том виде, в котором она хранится в базе данных поисковой машины и сопровождается надписью наверху страницы о том, что это страница из кэша. Там же содержится информация о времени создания кэшированной версии. На странице из кэша ключевые слова запроса подсвечены, причем каждое слово для удобства пользователя подсвечено своим цветом.
Например:
«Это сохраненная в кэше G o o g l e копия страницы http://www.kickerclub.spb.ru/tournaments/2 005-09-03.html, записанная 4 янв 2006 06:07:09 GMT.»
Можно создать запрос, который сразу будет выдавать кэшированную версию страницы с определенным адресом.
Например, запрос:
[cache:www.bstm.ru] будет сразу выдавать версию страницы www.bstm.ru из кэша, а не проверять ее нынешнее состояние.
ВНИМАНИЕ: пробела между оператором cashe: и URL’ом запрашиваемой страницы быть не должно.
Если вы хотите, чтобы ключевые слова на кэшированной версии страницы были подчеркнуты, их надо через пробел указать после оператора cashe: и адреса страницы.
Например:
[cache:www.bstm.ru библиотека]
Оператор info:
Оператор info: позволяет увидеть информацию, которая известна Гуглу об этой странице.
Например, запрос: [info:www.bstm.ru] дает следующий результат:
BSTM - Бизнес-школа технологий менеджмента | Екатеринбург : Новости
phpsm, phpsitemanager. ... Президентская программа. О программе • Стратегический
менеджмент • Менеджмент качества • Маркетинг на предприятии ...
www.bstm.ru/
Google может показать следующую информацию об этом адресе:
Пишется с помощью оператора OR. Обратите внимание, что оператор OR должен быть написан заглавными буквами. Относительно недавно появилась возможность написания логического «ИЛИ» в виде вертикальной черты ( | ), подобно тому, как это делается в Яндексе.
Например:
[Таксы длинношерстные OR гладкошерстные]
Интересно, что Гугл может показать и те страницы, на кoтopыx нет ключевых слов, но эти слова содержатся в ссылках на показанную страницу. В таком случае при просмотре страницы с помощью ссылки «Сохранено в кэше» будет видна надпись: «Эти слова присутствуют только в ссылках на эту страницу: таксы длинношерстные гладкошерстные». Пример можно увидеть по адресу:
Заглавные буквы или прописные?
Гугл НЕ чувствителен к регистру букв. Все буквы воспринимаются как прописные, вне зависимости от того, как их вводили в поисковую строку. Запросы [Эйфелева Башня] и [эйфелева башня] дадут одинаковые результаты.
Пример результата на момент написания статьи:
Результаты 1 - 10 из примерно 91 900 для Эйфелева Башня.
Результаты 1 - 10 из примерно 91 900 для эйфелева башня.
Стоп-слова.
В хэлпах написано, что Гугл, подобно большинству поисковых машин, игнорирует стоп-слова. И, как и многие другие, имеет механизм принудительного включения стоп-слов в результаты поиска. К стоп-словам относятся большинство артиклей английского языка, союзов и предлогов русского языка.
В реальности ситуация, похоже, изменилась.
Тест: вводим по-русски букву
[в] . Результат:
Результаты 1 - 10 из примерно 48 600 000 для в.
Вводим по-английски артикль
[the] . Результат:
Результаты 1 - 10 из примерно 8 670 000 000 для the.
Оператор «Плюс» (+)
Тем не менее, бывают ситуации, когда надо принудительно включить в текст какое-либо слово, которое может иметь варианты написания. В хэлпе Гугла приводится пример с запросом «Star Wars Episode I», где римская единица представляет собой латинскую букву “I” (Ай). Если сделать запрос просто как
[Star Wars Episode I]
То результат будет
Результаты 1 - 10 из примерно 13 200 000 для Star Wars Episode I.
В том числе в выдаче появятся слова «Episode II», «Episode IV» и т.п.
Если сделать запрос:
[Star Wars Episode +I]
то результат будет
Результаты 1 - 10 из примерно 9 290 000 для Star Wars Episode +I.
И в него войдут только тексты, содержащие слово «Episode I»
Морфология слов.
Гугл НЕ поддерживает морфологию слов. Слова надо вводить в нужных словоформах. Правда, отчасти это компенсируется интеллектуальной системой поиска, которая может найти нужную словоформу в ссылках на страницу. Чтобы убедиться в правильности утверждения об отсутствии поддержки морфологии, давайте возьмем словосочетание, по которому можно увидеть все без исключения результаты. На эту роль подходит «Глоклая куздра».
Тест:
Запрос:
[глоклая куздра]
Результаты 1 - 4 из примерно 16 для глоклая куздра.
В выдаче три адреса:
1. www.flame.ws/txt/index.php/t737.html
2. www.dom.no/modules.php?name=Forums&file=v
3. gb.anekdot.ru/vm.html?file=vm&date=1998-0
Запрос:
[глоклую куздру]
Результаты 1 - 1 из 1 для глоклую куздру.
В выдаче один адрес:
gb.anekdot.ru/vm.html?file=vm&date=1998-0
Запрос:
[глоклой куздре]
Результат: Не найдено ни одного документа, соответствующего запросу глоклой куздре.
Правда, это не мешает Гуглу иногда выделять по запросу «площадь» слово «площади» как релевантное. Однако подобное выделение встречается на странице выдачи, но не в кэше.
Просто для сравнения, приведу результат Яндекса. По всем трем запросам Яндекс давал на момент написания статьи одинаковый результат:
Результат поиска: страниц — 13, сайтов — не менее 5
Улучшение запроса во время поиска.
Поскольку Гугл выдает все слова, которые вы вводите в запросе, имеет смысл составлять новые запросы, содержащие те слова, которые вы забыли ввести в начале поиска, но нашли в ходе его выполнения в найденных текстах. В ряде случаев это может помочь улучшить поиск. Если же добавлять эти слова к уже имеющемуся запросу, то можно иногда излишне сузить диапазон результатов.
Исключение слов из запроса. Логическое «НЕ».
Как известно, информационный мусор часто встречается при составлении запроса. Чтобы его удалить, стандартно используются операторы исключения – логическое «НЕ». В Гугле такой оператор представлен знаком «минус». Используя этот оператор, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.
Тест:
Запрос:
[Журавль колодец]
Результаты 1 - 10 из примерно 778 для Журавль колодец.
Запрос:
[Журавль колодец –птица]
Результаты 1 - 10 из примерно 715 для Журавль колодец -птица.
Запрос:
[Журавль -колодец –птица]
Результаты 1 - 10 из примерно 120 000 для Журавль -колодец -птица.
Запрос:
[Журавль -колодец -птица –птиц]
Результаты 1 - 10 из примерно 106 000 для Журавль -колодец -птица -птиц.
Запрос:
[Журавль -колодец -птица -птиц –журавли]
Результаты 1 - 10 из примерно 104 000 для Журавль -колодец -птица -птиц -журавли.
Поиск точной фразы.
Искать точную фразу на практике требуется либо для поиска текста определенного произведения, либо для поиска определенных продуктов или компаний, в которых название или часть описания представляет собой стабильно повторяющееся словосочетание.
Чтобы справиться с такой задачей при помощи Гугла, требуется заключить запрос в кавычки (имеются в виду двойные кавычки, которые применяются, например, для выделения прямой речи).
Забавным, но показательным примером может быть задание из учебника русского языка для 7 класса под ред. Н.М. Шанского. На стр. 45 приведено задание разделить текст на абзацы. Автор – М.Шолохов. Произведение не указано. Вот фрагмент текста: [«За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки.»]
Введем этот текст в кавычках в Гугл и получим следующий результат:
Результаты 1 - 10 из примерно 15 для «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки.».
Как выяснилось, этот фрагмент относится к произведению Тихий дон / книга четвертая. А забавность примера в том, что у Шолохова этот текст оказался вообще не разбитым на абзацы.
Гугл воспринимает как знаки, связывающие слова в единую фразу, не только кавычки, но и такие символы, как дефис, слэш (косая черта), точка, знак равенства, апостроф.
Результаты 1 - 10 из примерно 27 400 для мать-и-мачеха.
Результаты 1 - 10 из примерно 27 300 для мать/и/мачеха.
Результаты 1 - 10 из примерно 27 300 для мать=и=мачеха.
Результаты 1 - 10 из примерно 27 300 для мать.и.мачеха.
Результаты 1 - 10 из примерно 27 300 для мать'и'мачеха.
Во всех вышеприведенных случаях первым в выдаче стоит текст, фрагмент которого приведен ниже: «Мать-и-мачеха (Tussilago farfara) — одно из самых раноцветущих растений: зацветает в
... Как лекарственное растение мать-и-мачеха применяется, прежде всего, ...»
При этом все три слова - «мать», «и», «мачеха» рассматриваются как отдельные, но стоящие рядом и в этой последовательности. Пример можно увидеть на сохраненной в кэше странице по адресу:
Интересно, что по запросу [мать-и-мачеха] оказалось на 100 документов больше, чем по остальным, но если взять это слово в кавычки, то результат уравнивается:
Результаты 1 - 10 из примерно 27 300 для "мать-и-мачеха".
Чтобы прояснить этот казус, введем запрос такого вида:
[мать-и-мачеха -"мать-и-мачеха"]
Получим: Результаты 1 - 10 из примерно 27 для мать-и-мачеха -"мать-и-мачеха".
В выдаче появятся тексты такого содержания:
Санкт-Петербургская Федерация Настольного Футбола
Матьимачеха. Королев Петр Трушков Кирилл. 2. Экспромт. Гриневич Василий ...
Матьимачеха - игроки получают по 60 рейтинговых очков; Экспромт - игроки ...
www.kickerclub.spb.ru/tournaments/2005-0
Количество слов в строке поиска.
Во многих источниках встречается информация, что поисковая строка Гугла вмещает 10 слов или что Гугл проводит поиск только по 10 словам.
В моем эксперименте эти данные не подтвердились. Так, введем запрос из 23 слов:
[крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр]
Результат:
Результаты 1 - 3 из примерно 5 для крупа мука яйца масло соль перец лук макароны молоко хлеб сметана сахар помидоры рубленое мясо фарш говядина майонез салат огурцы гамбургеры булочки сыр.
Ресторан.Ru | Кулинария | Кулинарные рецепты | Вторые блюда | С ...
(салат, помидоры, огурцы, гамбургеры, булочки, сыр, майонез) ... (макароны, лук, перец, помидоры, мука, масло, рубленое мясо, мясной бульон, сыр) ...
www.restoran.ru/index.phtml?t=1&pid=2516
В КЭШе подчеркнуты все 23 слова и в тексте они также присутствуют.
Увидеть эту страничку из кэша можно по ссылке:
Если изменить запрос, используя логическое «ИЛИ» вместо логического «И», то результат прогнозируемо меняется, но все слова в выдаче по-прежнему выделены Гуглом.
[крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр]
Результат:
Результаты 1 - 10 из примерно 3 430 000 для крупа OR мука OR яйца OR масло OR соль OR перец OR лук OR макароны OR молоко OR хлеб OR сметана OR сахар OR помидоры OR рубленое OR мясо OR фарш OR говядина OR майонез OR салат OR огурцы OR гамбургеры OR булочки OR сыр.
В начале сентября 2006 г. появились публикации, в которых было сказано, что Гугл позволяет вводить в строку запроса не более 32 слов. Эта информация соответствует действительности.
Стемминг (а также wildcard).
Стемминг – возможность усечения слова до его корня. После усечения слова до его корня производится поиск релевантных вариантов слов, производных от этого корня. Другими словами, стемминг позволяет искать все однокоренные слова.
Техника поиска по маске (wildcard) предствавляет собой написание базового слова (или части слова), после которых идет символ маски – «звездочка» (*), заменяющая собой любое возможное продолжение слова. Таким образом, если поисковая машина поддерживает поиск по маске, то ищутся все слова, которые одинаково начинаются. Эта техника особенно удобна, когда вам неизвестно точное написание конкретного слова, либо когда вы хотите включить все возможные варианты слова в свой поиск.
Например, когда по запросу [тарт*]
получают как «тарталетку», так и «тартар».
Так вот, Гугл эти технологии НЕ поддерживает. Зато он поддерживает вариант, когда вместо ЦЕЛОГО СЛОВА вводится звездочка.
Например, по запросу:
[красная * площадь]
Будет выдано:
«Красная и Манежная площади», с подчеркиванием всех этих слов, в том числе буквы "и". В какой-то степени это похоже на поиск с расстоянием между словами.
По запросу:
[красная * площадь -"красная площадь"]
Будут получены результаты « Красная (Семеновская) площадь », где слово «Семеновская» не считается релевантным и не подчеркивается Гуглом.
Дополнительные операторы
Оператор cache:
Поисковая машина хранит версию текста, которая проиндексирована поисковым пауком, в специальном хранилище в формате, называемом кэшем. Кэшированную версию страницы можно извлечь, если оригинальная страница недоступна (например, не работает сервер, на котором она хранится). Кэшированная страница показывается в том виде, в котором она хранится в базе данных поисковой машины и сопровождается надписью наверху страницы о том, что это страница из кэша. Там же содержится информация о времени создания кэшированной версии. На странице из кэша ключевые слова запроса подсвечены, причем каждое слово для удобства пользователя подсвечено своим цветом.
Например:
«Это сохраненная в кэше G o o g l e копия страницы http://www.kickerclub.spb.ru/tournaments/2
Можно создать запрос, который сразу будет выдавать кэшированную версию страницы с определенным адресом.
Например, запрос:
[cache:www.bstm.ru] будет сразу выдавать версию страницы www.bstm.ru из кэша, а не проверять ее нынешнее состояние.
ВНИМАНИЕ: пробела между оператором cashe: и URL’ом запрашиваемой страницы быть не должно.
Если вы хотите, чтобы ключевые слова на кэшированной версии страницы были подчеркнуты, их надо через пробел указать после оператора cashe: и адреса страницы.
Например:
[cache:www.bstm.ru библиотека]
Оператор info:
Оператор info: позволяет увидеть информацию, которая известна Гуглу об этой странице.
Например, запрос: [info:www.bstm.ru] дает следующий результат:
BSTM - Бизнес-школа технологий менеджмента | Екатеринбург : Новости
phpsm, phpsitemanager. ... Президентская программа. О программе • Стратегический
менеджмент • Менеджмент качества • Маркетинг на предприятии ...
www.bstm.ru/
Google может показать следующую информацию об этом адресе:
