Сышышь ты, выходи сюда,
поговорим !

Как обнаружить и проверить поисковые роботы

  1. Что такое гусеницы?
  2. Почему кто-то хочет их обнаружить?
  3. Обнаружение агента пользователя - Здравствуйте, меня зовут Googlebot
  4. Разве они не могли просто лгать?
  5. Метод проверки
  6. IP-диапазоны
  7. Проверка Googlebot - поиск DNS
  8. Как быть на 100% уверен?
  9. Whitelisting
  10. Резюме

Мы живем во времена веб-революции. Каждый день все больше и больше сайтов переходят с чистого HTML на обогащенные JavaScript сайты. В то время как пользователи получают выгоду от современных технологий (если они хотят обновить свои браузеры), веб-сканеры борются с ними. На рынке поиска Google является бесспорным лидером. Это лидирует не только по доле рынка, но и по технологиям. Однако даже они используют 3-летний браузер Chrome 41 для рендеринга! Вы можете прочитать больше об этом в статья Томека Рудзки , Эта проблема часто вызывает проблемы, связанные с SEO. Одним из решений является предоставление сканерам предварительно отрендеренной версии файла HTML вместо кода JavaScript. Эта техника не считается маскировкой и разрешена Google. Чтобы сделать это, мы должны быть в состоянии определить, сделан ли запрос пользователем или ботом. Чтобы узнать больше о дружественной к поиску доставке JavaScript, вы можете посмотреть эта презентация Google I / O '18 , Давайте начнем с некоторых основ.

Что такое гусеницы?

Если вы ищете способ обнаружить и проверить сканеры, вы, вероятно, уже знаете, что это такое. Тем не менее, сканеры (иногда называемые пауками) - это компьютерные программы (боты), которые сканируют сеть. Другими словами, они посещают веб-страницы, находят ссылки на другие страницы и посещают их. Часто они отображают контент, который, как они находят, позже используют для поисковых целей (индексация) или помогают разработчикам диагностировать проблемы на своих веб-сайтах.

Почему кто-то хочет их обнаружить?

Если у вас есть веб-сайт, и вы хотите, чтобы его отображали в результатах поиска, например, в результатах поиска Google, вам необходимо сначала его сканеры посетить. Они должны иметь возможность сканировать ваш сайт и индексировать ваш контент. Если вы обнаружите проблемы с SEO на своем веб-сайте, проверка журналов сервера для запросов робота Google может стать одним из шагов, которые вам необходимо предпринять для диагностики проблем. Хотите знать, как выполнить анализ журнала сервера? Проверьте эту блестящую статью Камила Сподимек! Есть и более конкретные цели. Например, в некоторых странах вас могут по закону ограничить доступ к вашему сайту. При блокировании пользователей вы должны разрешить доступ для поисковых роботов из этой страны, особенно если эта страна является США ( робот Googlebot сканирует в основном из США ). Как говорилось в начале, постоянно растущее использование JavaScript в Интернете, безусловно, выгодно для пользователей, но рендеринг JS является проблемой для поисковых систем. Если ваш веб-сайт неправильно обрабатывается ботами, или ваш контент часто меняется, вы должны динамически отображать ваши страницы и предоставлять обработчикам HTML-код, а не код JavaScript.

Очевидно, что для этого вам необходимо знать, был ли запрос сделан реальным пользователем или сканером.

Обнаружение агента пользователя - Здравствуйте, меня зовут Googlebot

Обнаружение агента пользователя - Здравствуйте, меня зовут Googlebot

Когда вы просматриваете Интернет, вы можете иногда чувствовать себя анонимным. Ваш браузер, однако, никогда не делает. Каждый запрос, который он делает, должен быть подписан своим именем, называемым User Agent. Например, это пользовательский агент браузера Chrome: Mozilla / 5.0 (Windows NT 10.0; Win64; x64) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 67.0.3396.79 Safari / 537.36 Боты также имеют уникальных пользовательских агентов, например следующее имя принадлежит настольной версии Googlebot: Mozilla / 5.0 (совместимо; Googlebot / 2.1; + http: //www.google.com/bot.html)

Разве они не могли просто лгать?

Да, в самом деле. Настоящий робот Google не будет обманчивым и представится со своим настоящим именем. Тем не менее, есть другие боты, которые могут быть вредными, которые представятся с именем Googlebot. Некоторые браузеры также могут изменять User Agent. Например, вы можете подделать хиты робота Google, используя инструмент Google Chrome Inspect. Мы, SEO, также часто посещаем страницы или даже сканируем целые сайты, представляя себя как Googlebot для целей диагностики. Однако, если вы ищете способ обнаружения всех запросов от конкретного бота и не возражаете, включая запросы из источников, которые касаются их личности, метод обнаружения User Agent является самым простым и быстрым для реализации.

Метод проверки

Если вам нужно правильно проверить источник запроса, вам нужно проверить IP-адрес, с которого был сделан запрос. Лгать об этом сложно. Можно использовать прокси-сервер DNS и скрыть истинный IP-адрес, но это покажет IP-адрес прокси, который можно идентифицировать. Если вы можете идентифицировать запросы, исходящие из диапазона IP-адресов искателя, вы настроены. Некоторые сканеры предоставляют вам списки IP-адресов или диапазоны, но большинство из них, включая Googlebot, этого не делают. И для этого есть веские причины. Тем не менее, они предоставляют способ проверить IP-адрес запроса. Прежде чем я объясню, как это сделать, давайте немного вернемся назад и исследуем сценарии, в которых вы должны проверять запросы сканеров.

  1. Первый сценарий, который мы рассмотрим, - это анализ логов сервера. Вы, конечно, не хотите, чтобы этот надоедливый скребок, который посетил ваш сайт, показывался как робот Googlebot в ваших журналах. Представьте себе, что по какой-то причине часть вашего сайта не проиндексирована, потому что она заблокирована в robots.txt, но в ваших журналах вы можете увидеть попадания в эту часть, сделанные скребком, который наплевать на robots.txt. Как вы собираетесь установить, смог ли настоящий робот Google получить доступ к этим страницам или нет, если вы не отфильтруете этот скребок?
  2. Другая ситуация, которой вы действительно хотите избежать, - это использовать скребки с предварительно отрендеренной версией вашего сайта. Это вредно по двум причинам. Первое: предварительный рендеринг стоит времени на обработку сервера . Эта стоимость не является незначительной, и большое количество запросов может значительно снизить производительность! Вы хотите выполнить тяжелую работу по рендерингу только для тех сканеров, которые вам нужны. Второе: рендеринг JavaScript может быть сложным. Если эти надоедливые скребки получат непроявленный JavaScript, есть большая вероятность, что некоторые из них не смогут украсть ваш контент.

Хорошо, теперь давайте перейдем к мясу.

IP-диапазоны

Как указано выше, некоторые популярные сканеры поисковых систем предоставляют статические списки или диапазоны IP-адресов. Я перечислю некоторые здесь. DuckDuckGo:

  • 72.94.249.34
  • 72.94.249.35
  • 72.94.249.36
  • 72.94.249.37
  • 72.94.249.38

Источник: https://duckduckgo.com/duckduckbot Ask.com:

  • 65.214.45.143
  • 65.214.45.148
  • 66.235.124.192
  • 66.235.124.7
  • 66.235.124.101
  • 66.235.124.193
  • 66.235.124.73
  • 66.235.124.196
  • 66.235.124.74
  • 63.123.238.8
  • 202.143.148.61

Источник: https://www.distilnetworks.com/bot-directory/bot/teoma/ Twitter и Facebook позволяют загружать их текущие списки IP-адресов с помощью следующих команд Bash.

БотКоманда

Facebook whois -h whois.radb.net - '-i origin AS32934' | grep ^ route Twitter whois -h whois.radb.net - '-i origin AS13414' | grep ^ route

Bash - это среда командной строки Linux, которую вы можете смоделировать в Windows, используя CygWin ,

Проверка Googlebot - поиск DNS

Для ботов, которые не предоставляют официальных списков IP-адресов, вам придется выполнить поиск DNS, чтобы проверить их происхождение. DNS-поиск - это метод подключения домена к IP-адресу. В качестве примера я покажу вам, как обнаружить робота Googlebot, но процедура для других сканеров идентична. В случае проверки бота вы начнете с IP-адреса запроса и попытаетесь определить его исходный домен. Первый шаг в этом процессе называется обратным поиском DNS, при котором вы будете просить сервер представить себя с доменным именем. Если вы используете командную строку Windows, вы собираетесь использовать команду nslookup . В Linux эквивалентной командой является host.

Оцените команду nslookup с IP-адресом запроса и прочитайте имя домена. Это должно заканчиваться правильным доменом. Правильный домен для Googlebot - .googlebot.com. Недостаточно искать имя по этой строке. Чтобы обеспечить правильную проверку, она должна быть на самом конце! Например, домен с именем googlebot.com.imascam.se определенно не принадлежит действительному роботу Google (я только что его создал).

Как быть на 100% уверен?

Есть способ обмануть этот метод. Можно настроить перенаправление со своего мошеннического сервера на действительный сервер Googlebot. В этом случае, если вы спросите у сервера его имя, вы получите правильный домен Googlebot! Чтобы исключить эту возможность, вы должны спросить доменное имя для его IP-адреса. Вы можете сделать это с помощью той же команды, но на этот раз с именем домена вместо IP-адреса.

Если IP-адрес из ответа совпадает с IP-адресом запроса, вы настроены. Вы подтвердили подлинность Googlebot! Вот список популярных доменов сканеров :

Имя службы Доменное имя Baidu * .crawl.baidu.com Baidu * .crawl.baidu.jp Bing * .search.msn.com Googlebot * .google.com Googlebot * .googlebot.com Yahoo * .crawl.yahoo.net Яндекс .yandex.ru Яндекс * .yandex.net Яндекс * .yandex.com

Небольшой бонус: в случае с Bing вы можете проверить IP прямо на этом страница но вы не можете автоматизировать процесс проверки, так как это только для человека.

Whitelisting

В этот момент вы, вероятно, спрашиваете себя, почему Google не опубликовал свой список IP-адресов, как Facebook. Ответ прост: их диапазоны IP-адресов могут измениться в будущем. Такой список наверняка выживет в некоторых конфигурациях серверов, что сделает их уязвимыми для обмана в будущем. Тем не менее, вы не должны использовать метод поиска для каждого запроса! Это убьет ваше время до первого байта (TTFB) и в конечном итоге замедлит ваш сайт. Вместо этого вы хотите создать временный белый список IP-адресов. Основная идея заключается в том, что когда вы получаете запрос от пользовательского агента Googlebots, вы сначала проверяете свой белый список. Если он в списке, вы знаете, что это действительный робот Google. В случаях, когда он исходит от IP-адреса, которого нет в белом списке, вы должны выполнить nslookup. Если адрес подтвержден положительно, он входит в белый список. Имейте в виду, что белый список является временным. Вам следует периодически удалять или перепроверять все IP-адреса. Если вы получаете много ложных запросов, вы можете подумать и о черном списке, чтобы исключить такие запросы без поиска DNS. Ниже вы найдете простую диаграмму, которая представляет идею, описанную выше.

Резюме

Прежде чем приступить к реализации этих решений, спросите себя, что вам действительно нужно. Если вам нужно обнаружить ботов и не возражать против ложных срабатываний, тогда перейдите к простейшему обнаружению User Agent. Однако, когда вы ищете уверенность, вам необходимо разработать процедуру поиска DNS. При этом имейте в виду, что вы действительно хотите избежать увеличения времени отклика сервера, что, безусловно, сделает поиск DNS. Реализуйте некоторый метод кэширования результатов поиска, но не держите их слишком долго, потому что IP-адреса ботов поисковых систем могут измениться.

Похожие

Что такое SEO-анализ? Как?
... какие исследования следует проводить, чтобы получить лучшие позиции в поисковых системах. Есть много платных / бесплатных инструментов, которые вы можете использовать для проведения SEO анализа. Однако вы можете сделать это самостоятельно с помощью различных элементов управления. Почему SEO-анализ важен? Google постоянно обновляет свой алгоритм поисковой системы в течение года. В секторе, где все быстро меняется, работа, которую вы выполняете сегодня, может
Seo - что это такое?
... методы Сео-оптимизации, которые способны перетащить вес весов в свою сторону, используются обязательно. Вообще ситуация очень похожа на то, как показано на картинке: Теперь о том, почему к продвижению вашего сайта нужно привлекать специалистов. Есть несколько причин:
Что такое панировочные сухари?
Хлебные крошки - это слово в английском языке, означающее «крошки хлеба», эта концепция, применяемая к информатике, применяется в честь хлебных крошек, которые оставили «большой палец», чтобы не потеряться, когда вы заходите в места, которые вы не знали. Таким образом, он всегда мог вернуться, не теряясь в любое время. Как я уже сказал, применительно к компьютерам и, в частности, к веб-страницам, на нашем веб-сайте обязательно есть руководство по навигации по категориям
Что такое отбивная пила?
Отрезная пила - это электроинструмент, который используется для прямой резки дерева. У него могут быть особенности, которые позволяют ему резать углы, что делает его торцовкой. Отрезная пила по внешнему виду похожа на циркулярную пилу. Большинство деревообрабатывающих или столярных мастерских используют режущие пилы для точного
«Совы не то, что они кажутся».
Я, наверное, уже упоминал об этом раньше, но когда дело доходит до фильмов и телевидения, меня все портят. Отчасти это моя вина: я читаю развлекательные сайты и десятку лучших для удовольствия, но даже без этого у меня действительно есть умение спотыкаться о спойлерах в самых нелепых и невероятных местах. Чтобы дать вам представление, вот список некоторых вещей, для которых я был испорчен - некоторые из которых были полностью понятны, а некоторые из них были совершенно НЕ ОДОБРЕННЫ: Battlestar
Что такое SEM? Чем не SEM?
... как я работаю в маркетинговом агентстве с оплатой за клик :). [а не SEM] Однако многие используют эту аббревиатуру, немногие действительно знают значение. Давайте разберемся со специализированной терминологией. Что такое SEM? SEM = поисковый маркетинг; бесплатный перевод, поисковый маркетинг.
Что такое токсичные обратные ссылки и как их удалить?
В: Что такое токсичные обратные ссылки и как их идентифицировать и удалить? A: Токсичные обратные ссылки - это неестественные ссылки, которые вредят поисковому рейтингу сайта. Обновление Google Penguin направлено на наказание веб-сайтов с плохим профилем обратных ссылок. Как создаются токсичные обратные ссылки? Если ваш сайт имеет огромный профиль токсичных обратных ссылок, есть вероятность, что SEO-компания, которую
SEO Архивы
Что такое индексируемость? Индексируемость - это простота анализа веб-сайта поисковыми системами Интернета (Google, Yahoo, MSN Live ...). Методы оптимизации для поисковых систем (SEO, Search Engine Optimization) должны быть приняты во внимание и необходимы, если мы хотим, чтобы нас знали через Интернет. Если сеть не проиндексирована, она никогда не появится в результатах
Что такое SEM Rush и как он работает?
SEM Rush - это инструмент, предназначенный для оптимизации и упрощения цифровой маркетинговой деятельности. Он предлагает необходимые данные для работать SEO , реклама и стратегии генерации ссылок на сайт. Он идеально подходит для профессионалов, рекламных агентств, исследователей рынка, владельцев бизнеса и тех, кто заинтересован в улучшении присутствия вашего бренда в Интернете. Первые
Что такое перенаправления 301 и 302 и как их использовать?
Представьте себе, что через долгое время вам нужно открыть закладку, которая у вас уже более нескольких лет. Вы пытаетесь открыть его, и… внезапно вы видите ошибку - « Страница 404 не найдена ». Страница, которую вы искали, осталась без следа, может быть, весь сайт отсутствует, или, возможно, это было небольшое изменение URL, но вы, вероятно, никогда об этом не узнаете. Это ваше первое касание с кодами состояния HTTP, в частности с 400-типом. Существуют различные
Что такое SEO и какова цель?
... как Google и Bing, привлечь посетителей на ваш сайт. Целью SEO является, среди прочего, повышение рейтинга в Google и т. Д., Привлечение трафика, преобразование посетителей в клиентов и повышение рентабельности инвестиций (возврат инвестиций). Два типа SEO. Мы можем разделить SEO на две разные области: «на странице» и «вне страницы». «На странице» - это означает

Комментарии

И после того, как они ждут загрузки вашего сайта, они расстроены или напуганы, потому что их колонки на большой громкости, и они не знают, что услышат музыку?
И после того, как они ждут загрузки вашего сайта, они расстроены или напуганы, потому что их колонки на большой громкости, и они не знают, что услышат музыку? Можно предположить, что они не вернутся в ваш блог. Используйте дизайн с темным фоном и яркими текстами Эта проблема не об эстетике, а о полезности и способности контента для чтения. Чтение текста в Интернете является более сложным для глаз, чем чтение традиционных писем. Использование темного фона
«Потому что, если бы мы даже не могли представить, что существует такой грозный осьминог, как этот, то что еще мы даже не рассматривали?
«Потому что, если бы мы даже не могли представить, что существует такой грозный осьминог, как этот, то что еще мы даже не рассматривали?»
Конечно, Google хочет верить, что вы популярны, и обратные ссылки - это способ показать вам, что вы есть, но они больше не полагаются на них, чтобы учитывать ваш рейтинг, почему?
Конечно, Google хочет верить, что вы популярны, и обратные ссылки - это способ показать вам, что вы есть, но они больше не полагаются на них, чтобы учитывать ваш рейтинг, почему? Потому что они знают, что их можно купить! Google потратил много времени, сил, энергии и денег, чтобы выяснить, что действительно важно для их посетителей, и, что самое главное, они поделились ВСЕМИ своими находками с вами, веб-мастером. Вы можете прочитать их руководство, чтобы узнать, что действительно
Они предоставляют информацию о пользователях и их поисковом поведении - но они не могут предсказать, что их может заинтересовать в будущем: какие продукты, услуги и информация актуальны?
Они предоставляют информацию о пользователях и их поисковом поведении - но они не могут предсказать, что их может заинтересовать в будущем: какие продукты, услуги и информация актуальны? Как можно конкретно обратиться к клиенту? Кто тогда разрабатывает общую стратегию? Рассказчики, копирайтеры, журналисты и стратеги способны на это. Хорошие рассказчики в области текста и изображения, а также специалисты по SEO вместе составляют основу для хорошей стратегии
Напротив, чтобы правильно ссылаться на сайт, важно понимать его посетителей: кто они, как они выражают себя, чем они интересуются, как они потребляют контент (на каком устройстве, под каким формат)?
Напротив, чтобы правильно ссылаться на сайт, важно понимать его посетителей: кто они, как они выражают себя, чем они интересуются, как они потребляют контент (на каком устройстве, под каким формат)? Эти размышления затем подпитывают темы, которые мы выбираем, как мы относимся к ним ... Мобильный,
Что такое перенаправление HTML и почему этот метод не рекомендуется?
Что такое перенаправление HTML и почему этот метод не рекомендуется? Переадресация HTML автоматически отправит посетителя вашей страницы на новый сайт через определенное время. Как правило, он дает посетителю сообщение о том, что сайт был перемещен и что он будет перенаправлен
Если эти люди (если они есть, а не запланированные боты следят за профилями в Instagram) не будут взаимодействовать с вашими публикациями, что они хорошего?
Если эти люди (если они есть, а не запланированные боты следят за профилями в Instagram) не будут взаимодействовать с вашими публикациями, что они хорошего? Важно знать ваше сообщество и знать, что вам нравится, что предлагать и чего ожидать от вашего бренда . И без взаимодействия ... дерьмо. Подумайте немного ... Как вы будете измерять ROI (возврат инвестиций), если не будет взаимодействия с вашими фальшивыми подписчиками, фальшивыми, картонными или как
Как их обнаружить и как их повысить?
Как их обнаружить и как их повысить? Благодаря RM Tech SEO инструмент аудита который недавно смог объединить в своем анализе полные данные из Google Search Console . Как RM Tech может помочь мне оптимизировать SEO моего сайта? Еще 20% усилий нужно приложить на Blogbuster.fr;)
Хотя не существует жесткого и быстрого правила для определения того, что является приемлемым, а что нет, мой лучший совет - спросите себя: что я хочу решить для пользователя?
Хотя не существует жесткого и быстрого правила для определения того, что является приемлемым, а что нет, мой лучший совет - спросите себя: что я хочу решить для пользователя? Вы должны относиться к роботам поисковых систем, которые сканируют ваш сайт, так же, как и к любому другому пользователю. Узнайте больше о производство цифрового контента и узнайте, чем пренебрегают профессионалы контент-маркетинга
Так что, если Google не считает слова в статье и использует это как фактор ранжирования, почему исследования предполагают, что более длинные статьи будут иметь более высокий рейтинг?
Так что, если Google не считает слова в статье и использует это как фактор ранжирования, почему исследования предполагают, что более длинные статьи будут иметь более высокий рейтинг? Это из-за других факторов, связанных с более длинными статьями. Более длинные статьи, как правило, содержат более ценную информацию, что делает их более полезными для читателя. И что Google хочет получить наивысший рейтинг на странице? Удобный, популярный контент. Дело не в количестве слов; это то,
Вы действительно чувствуете, что если SEO не постоят за себя, это может быть конец SEO, как мы его знаем?
Вы действительно чувствуете, что если SEO не постоят за себя, это может быть конец SEO, как мы его знаем? Аарон Уолл: «Я не думаю, что индустрия выросла внезапно, и действительно были статьи о ее неизбежной смерти за годы до того, как я даже вошел в индустрию, поэтому я не думаю, что индустрия умрет быстрой смертью или умрет одновременно. Более вероятно, что люди постепенно маргинализируются, в то время как их прибыль уменьшается, и они теряют личные свободы.

Что такое гусеницы?
Почему кто-то хочет их обнаружить?
Что такое гусеницы?
Почему кто-то хочет их обнаружить?
Хотите знать, как выполнить анализ журнала сервера?
Как вы собираетесь установить, смог ли настоящий робот Google получить доступ к этим страницам или нет, если вы не отфильтруете этот скребок?
Как быть на 100% уверен?
Как?
Почему SEO-анализ важен?
Чем не SEM?