Сышышь ты, выходи сюда,
поговорим !

Обширный /robots.txt руководство для SEO

  1. Введение в /robots.txt
  2. Действующие правила /robots.txt
  3. Disallow:
  4. Разрешать:
  5. Crawl задержки:
  6. Карта сайта:
  7. Common /robots.txt
  8. Разрешить полный доступ
  9. Блокировать весь доступ
  10. Запретить определенную папку
  11. Запретить определенный файл
  12. Добавить карту сайта
  13. Распространенные ошибки
  14. Обычный пользовательский агент
  15. Часто задаваемые вопросы о /robots.txt
  16. Мой /robots.txt не имеет Sitemap, я должен добавить один?
  17. Каталоги чувствительны к регистру?
  18. Поле / инструкции чувствительны к регистру?
  19. Как я могу проверить изменения в файлах /robots.txt?

Это руководство «от новичка до продвинутого» в /robots.txt. Каждая инструкция содержит советы по распространенным ошибкам и подводным камням. Написан для начинающих оптимизаторов и маркетологов, но полон полезной информации для людей со всеми уровнями знаний.

Введение в /robots.txt

Стандарт /robots.txt позволяет владельцам сайтов давать инструкции роботам, которые посещают их сайты. Это может быть просьба не сканировать определенную часть веб-сайта или инструкция по поиску карты сайта XML.

Файл /robots.txt представляет собой простой текстовый файл с простыми инструкциями, которые всегда размещаются в одном и том же месте веб-сайта:

Как это работает?

Роботы, например, из Google, проверяют, есть ли на сайте файл /robots.txt, прежде чем он впервые сканирует сайт. Он ищет правила, специфичные для их User-агента (Googlebot). Если ничего не найдено, оно следует общим правилам User-agent.

Действующие правила /robots.txt

Агент пользователя:

У каждого робота есть свой пользовательский агент. По сути, это имя робота, которое позволяет вам предоставлять определенным ботам доступ к файлам, а другим - нет.

  • Пользователь-агент: * = Любой робот
  • Пользователь-агент: Google = поиск Google
  • Пользователь-агент: Googlebot-Image = Google images
  • Пользователь-агент: AhrefsBot = Ahrefs webcrawler

Важно : робот будет обращать внимание только на самую конкретную группу инструкций. В приведенном ниже примере есть две инструкции агента пользователя. Один для «любого робота» и один для «DuckDuckBot». DuckDuckBot будет только смотреть на свои собственные инструкции (и игнорировать другие правила) и будет выглядеть в других папках как / api /.

Пользовательский агент: * Disallow: / cgi-bin / Disallow: / tmp / Disallow: / api / User-agent: DuckDuckBot Disallow: / duckhunt /

Disallow:

С помощью правила Disallow вы можете легко заблокировать целые разделы вашего сайта от индексации в поисковых системах. Вы также можете заблокировать доступ ко всему сайту для всех или конкретных ботов. В зависимости от ваших потребностей это может быть полезно для динамических, временных или защищенных разделов вашего сайта.

User-agent: * # Block / cms и любые файлы в нем Disallow: / cms # Block / images / resized (/ images все еще разрешено) Disallow: / images / resized /

Чтобы сделать это проще, вы можете использовать сопоставление с шаблоном, чтобы заблокировать сложные URL-адреса.

  • * = любая последовательность символов
  • $ = Соответствует концу URL

User-agent: * # Блокировка URL-адресов, начинающихся с / photo like # / photos # / photo / Overview Disallow: / photo # Блокировка URL-адресов, начинающихся с / blog / и заканчивающихся / stats / Disallow: / blog / * / stats $

(Символ хеша - это способ добавления комментариев. Роботы игнорируют их.)

Важно: не блокируйте ваши файлы CSS или JavaScript. Поисковые системы нуждаются в этом, чтобы правильно отобразить ваш сайт.

Разрешать:

С помощью правила Разрешить вы можете разблокировать подкаталог, заблокированный правилом запрета. Это может быть полезно, если вы запретили часть (или весь) сайт, но хотите разрешить определенные файлы / папки.

User-agent: * # Заблокировать доступ ко всему в папке администратора Запретить: / admin # За исключением /admin/css/style.css Разрешить: /admin/css/style.css # И все в папке / admin / js. Как: # /admin/js/global.js # /admin/js/ajax/update.js Разрешить: / admin / js /

Другое использование дает доступ к определенным роботам.

# Запретить доступ ко всем роботам. User-agent: * Disallow: / # Кроме Googlebot User-agent: Googlebot Разрешить: /

Crawl задержки:

Если робот использует слишком много ресурсов на сайте, вы можете замедлить его сканирование с помощью правила задержки сканирования.

Пользователь-агент: * Задержка сканирования: 5

Поскольку это не является официальной частью стандарта, реализация меняется в зависимости от робота. В целом: чем выше число, тем меньше раз будет сканироваться ваш сайт.

  • Google (Googlebot) игнорирует эту команду. Вы можете изменить скорость сканирования в Консоль поиска ,
  • Baidu игнорирует эту команду. Его можно изменить с помощью функции Инструментов для веб-мастеров, но в настоящее время он недоступен на английском языке.
  • Bing (BingBot) рассматривает это как «временное окно», в течение которого BingBot будет сканировать ваш веб-сайт только один раз.
  • Яндекс (YandexBot) количество секунд ожидания между обходами.

Важное замечание: Если файл Robots.txt содержит высокую задержку сканирования, чтобы убедиться, что ваш сайт своевременно индексируется. Поскольку в день происходит 86400 секунд задержки при сканировании: 30 - это 2880 страниц, сканируемых в день, что может быть слишком мало для больших сайтов.

Карта сайта:

Одним из основных применений файла /robots.txt (для SEO) является объявление карты сайта. Это делается путем добавления следующей строки, за которой следует полный URL.

Карта сайта: https://www.example.com/sitemap.xml Карта сайта: https://www.example.com/blog-sitemap.xml

Если у вас есть несколько файлов Sitemap, вы можете добавить их с новым правилом.

Что нужно иметь в виду

  • Карта сайта должна начинаться с заглавной буквы S.
  • Карта сайта не зависит от инструкций агента пользователя.
  • Ссылка должна быть полной URL. Вы не можете использовать относительный путь.

Убедитесь, что ссылка возвращает HTTP-заголовок OK 200 (без перенаправлений).

Common /robots.txt

Это некоторые распространенные шаблоны /robots.txt, которые вы можете использовать для своих сайтов.

Разрешить полный доступ

Не блокируйте роботов для доступа к вашему сайту, оставив пустое правило Disallow.

Пользователь - агент: * Disallow:

Блокировать весь доступ

Пользователь-агент: * Disallow: /

Запретить определенную папку

Пользователь-агент: * Disallow: / admin /

Запретить определенный файл

Пользователь-агент: * Disallow: /images/my-embarrassing-photo.png

Добавить карту сайта

Карта сайта: https://www.example.com/sitemap.xml

Распространенные ошибки

Установка пользовательских правил User-agent без повторения Disallow rules

Благодаря тому, что /robots.txt работает, если вы устанавливаете пользовательского агента пользователя для бота, он будет следовать только тем правилам, которые вы для него установили. Обычно совершаемая ошибка состоит в том, чтобы иметь расширенные правила Disallow для подстановочного знака (`*`) и позднее добавлять новое правило без повторения этих правил Disallow.

# (Отредактированная версия IMDb /robots.txt) # # Ограничить скорость сканирования ScoutJet # Пользовательский агент: задержка сканирования ScoutJet: 3 # # # # Все остальные # Пользовательский агент: * Disallow: / tvschedule Disallow: / ActorSearch Disallow: / ActressSearch Disallow: / AddRecommendation Disallow: / ads / Disallow: / AlternateVersions Disallow: / AName Disallow: / Запретить награды: / BAgent Disallow: / Ballot / # # Карта сайта: http://www.imdb.com/sitemap_US_index.xml. GZ

/robots.txt для IMDb имеет обширные правила Disallow, но они не повторяются для ScoutJet . Предоставление этому боту доступа ко всем папкам.

Обычный пользовательский агент

Ищете конкретного робота? Это наиболее часто используемые пользовательские агенты /robots.txt.

Пользователь-агент # Google [подробнее] Googlebot Обычный поисковый робот Google Googlebot-Image Google Images робот Bing [подробнее] Bingbot Обычный поисковый робот Bing MSNBot Старый сканер для Bing, но все еще используемый MSNBot-Media Crawler для образов Bing Создатель снимка страницы BingPreview [подробнее] Яндекс [подробнее] YandexBot Обычный поисковый робот Yandex YmagesImages Crawler для Яндекс картинок Baidu [подробнее] Baiduspider Основной поисковый паук для Baidu Baiduspider-image Crawler for Baidu Images Applebot Crawler для Apple. Используется для предложений Siri и Spotlight. Инструменты SEO AhrefsBot WebCrawler для Ahrefs MJ12Bot WebCrawler для Majestic rogerbot WebCrawler для Moz Разное DuckDuckBot WebCrawler для DuckDuckGo

Широко поддерживаются два подстановочных знака. Звездочки * соответствуют любой последовательности символов и $, который соответствует концу URL.

Блокировать определенные типы файлов

User-agent: * # Блокировать файлы, оканчивающиеся на .json # Звездочки допускают любое имя файла # Знак доллара гарантирует, что он соответствует только концу URL-адреса, а не странно отформатированному URL (например, /locations.json.html) Disallow: / * .json $

Заблокировать любой URL с помощью?

User-agent: * # Заблокировать все URL, содержащие знак вопроса Disallow: / *?

Блокировать страницы результатов поиска (но не саму страницу поиска)

User-agent: * # Заблокировать страницу результатов поиска Disallow: /search.php?query=*

Часто задаваемые вопросы о /robots.txt

Мне действительно нужен файл /robots.txt?

Да. Хотя вы можете обойтись без файла /robots.txt, разумно всегда его создавать. Хорошие боты всегда будут пытаться посетить ваш файл /robots.txt. Если у вас его нет, журналы вашего сервера будут заполнены 404 ошибками. Если вы хотите, вы можете просто создать пустой файл.

Мой /robots.txt не имеет Sitemap, я должен добавить один?

Да. Несмотря на то, что вам обязательно нужно отправить свой файл сайта через консоль поиска Google, разумно добавить его в файл robots.txt. Это просто сделать и избавляет вас от отправки карты сайта всем поисковым системам (Google, Bing, Yandex, Baidu имеют собственные инструменты для веб-мастеров). Это также помогает другим сканерам (не поисковым системам) найти вашу карту сайта.

Каталоги чувствительны к регистру?

Как и большинство URL-адресов, правила Disallow и Allow чувствительны к регистру. Убедитесь, что ваши правила совпадают с вашими URL.

User-agent: * # / users будет по-прежнему сканироваться, поскольку регистр не соответствует Disallow: / Users

Поле / инструкции чувствительны к регистру?

Сами инструкции не чувствительны к регистру. Вы можете указать правило как Disallow: или disallow :.

Как я могу проверить изменения в файлах /robots.txt?

Это руководство «от новичка до продвинутого» в /robots

Тестер /robots.txt в Google Search Console позволяет проверить, можно ли сканировать определенную страницу.

Есть несколько бесплатных парсеров /robots.txt онлайн, но самый надежный способ - через Google Search Console , Он содержит расширенный инструмент, в котором вы можете ввести URL-адрес и проверить, разрешено ли Google сканировать его.

Txt не имеет Sitemap, я должен добавить один?
Каталоги чувствительны к регистру?
Поле / инструкции чувствительны к регистру?
Txt?
User-agent: * # Заблокировать все URL, содержащие знак вопроса Disallow: / *?
Php?
Txt?
Txt не имеет Sitemap, я должен добавить один?
Каталоги чувствительны к регистру?
Txt?