Обширный /robots.txt руководство для SEO

Введение в /robots.txt
Действующие правила /robots.txt
Disallow:
Разрешать:
Crawl задержки:
Карта сайта:
Common /robots.txt
Разрешить полный доступ
Блокировать весь доступ
Запретить определенную папку
Запретить определенный файл
Добавить карту сайта
Распространенные ошибки
Обычный пользовательский агент
Часто задаваемые вопросы о /robots.txt
Мой /robots.txt не имеет Sitemap, я должен добавить один?
Каталоги чувствительны к регистру?
Поле / инструкции чувствительны к регистру?
Как я могу проверить изменения в файлах /robots.txt?

Это руководство «от новичка до продвинутого» в /robots.txt. Каждая инструкция содержит советы по распространенным ошибкам и подводным камням. Написан для начинающих оптимизаторов и маркетологов, но полон полезной информации для людей со всеми уровнями знаний.

Введение в /robots.txt

Стандарт /robots.txt позволяет владельцам сайтов давать инструкции роботам, которые посещают их сайты. Это может быть просьба не сканировать определенную часть веб-сайта или инструкция по поиску карты сайта XML.

Файл /robots.txt представляет собой простой текстовый файл с простыми инструкциями, которые всегда размещаются в одном и том же месте веб-сайта:

Как это работает?

Роботы, например, из Google, проверяют, есть ли на сайте файл /robots.txt, прежде чем он впервые сканирует сайт. Он ищет правила, специфичные для их User-агента (Googlebot). Если ничего не найдено, оно следует общим правилам User-agent.

Действующие правила /robots.txt

Агент пользователя:

У каждого робота есть свой пользовательский агент. По сути, это имя робота, которое позволяет вам предоставлять определенным ботам доступ к файлам, а другим - нет.

Пользователь-агент: * = Любой робот
Пользователь-агент: Google = поиск Google
Пользователь-агент: Googlebot-Image = Google images
Пользователь-агент: AhrefsBot = Ahrefs webcrawler

Важно : робот будет обращать внимание только на самую конкретную группу инструкций. В приведенном ниже примере есть две инструкции агента пользователя. Один для «любого робота» и один для «DuckDuckBot». DuckDuckBot будет только смотреть на свои собственные инструкции (и игнорировать другие правила) и будет выглядеть в других папках как / api /.

Пользовательский агент: * Disallow: / cgi-bin / Disallow: / tmp / Disallow: / api / User-agent: DuckDuckBot Disallow: / duckhunt /

Disallow:

С помощью правила Disallow вы можете легко заблокировать целые разделы вашего сайта от индексации в поисковых системах. Вы также можете заблокировать доступ ко всему сайту для всех или конкретных ботов. В зависимости от ваших потребностей это может быть полезно для динамических, временных или защищенных разделов вашего сайта.

User-agent: * # Block / cms и любые файлы в нем Disallow: / cms # Block / images / resized (/ images все еще разрешено) Disallow: / images / resized /

Чтобы сделать это проще, вы можете использовать сопоставление с шаблоном, чтобы заблокировать сложные URL-адреса.

* = любая последовательность символов
$ = Соответствует концу URL

User-agent: * # Блокировка URL-адресов, начинающихся с / photo like # / photos # / photo / Overview Disallow: / photo # Блокировка URL-адресов, начинающихся с / blog / и заканчивающихся / stats / Disallow: / blog / * / stats $

(Символ хеша - это способ добавления комментариев. Роботы игнорируют их.)

Важно: не блокируйте ваши файлы CSS или JavaScript. Поисковые системы нуждаются в этом, чтобы правильно отобразить ваш сайт.

Разрешать:

С помощью правила Разрешить вы можете разблокировать подкаталог, заблокированный правилом запрета. Это может быть полезно, если вы запретили часть (или весь) сайт, но хотите разрешить определенные файлы / папки.

User-agent: * # Заблокировать доступ ко всему в папке администратора Запретить: / admin # За исключением /admin/css/style.css Разрешить: /admin/css/style.css # И все в папке / admin / js. Как: # /admin/js/global.js # /admin/js/ajax/update.js Разрешить: / admin / js /

Другое использование дает доступ к определенным роботам.

# Запретить доступ ко всем роботам. User-agent: * Disallow: / # Кроме Googlebot User-agent: Googlebot Разрешить: /

Crawl задержки:

Если робот использует слишком много ресурсов на сайте, вы можете замедлить его сканирование с помощью правила задержки сканирования.

Пользователь-агент: * Задержка сканирования: 5

Поскольку это не является официальной частью стандарта, реализация меняется в зависимости от робота. В целом: чем выше число, тем меньше раз будет сканироваться ваш сайт.

Google (Googlebot) игнорирует эту команду. Вы можете изменить скорость сканирования в Консоль поиска ,
Baidu игнорирует эту команду. Его можно изменить с помощью функции Инструментов для веб-мастеров, но в настоящее время он недоступен на английском языке.
Bing (BingBot) рассматривает это как «временное окно», в течение которого BingBot будет сканировать ваш веб-сайт только один раз.
Яндекс (YandexBot) количество секунд ожидания между обходами.

Важное замечание: Если файл Robots.txt содержит высокую задержку сканирования, чтобы убедиться, что ваш сайт своевременно индексируется. Поскольку в день происходит 86400 секунд задержки при сканировании: 30 - это 2880 страниц, сканируемых в день, что может быть слишком мало для больших сайтов.

Карта сайта:

Одним из основных применений файла /robots.txt (для SEO) является объявление карты сайта. Это делается путем добавления следующей строки, за которой следует полный URL.

Карта сайта: https://www.example.com/sitemap.xml Карта сайта: https://www.example.com/blog-sitemap.xml

Если у вас есть несколько файлов Sitemap, вы можете добавить их с новым правилом.

Что нужно иметь в виду

Карта сайта должна начинаться с заглавной буквы S.
Карта сайта не зависит от инструкций агента пользователя.
Ссылка должна быть полной URL. Вы не можете использовать относительный путь.

Убедитесь, что ссылка возвращает HTTP-заголовок OK 200 (без перенаправлений).

Common /robots.txt

Это некоторые распространенные шаблоны /robots.txt, которые вы можете использовать для своих сайтов.

Разрешить полный доступ

Не блокируйте роботов для доступа к вашему сайту, оставив пустое правило Disallow.

Пользователь - агент: * Disallow:

Блокировать весь доступ

Пользователь-агент: * Disallow: /

Запретить определенную папку

Пользователь-агент: * Disallow: / admin /

Запретить определенный файл

Пользователь-агент: * Disallow: /images/my-embarrassing-photo.png

Добавить карту сайта

Карта сайта: https://www.example.com/sitemap.xml

Распространенные ошибки

Установка пользовательских правил User-agent без повторения Disallow rules

Благодаря тому, что /robots.txt работает, если вы устанавливаете пользовательского агента пользователя для бота, он будет следовать только тем правилам, которые вы для него установили. Обычно совершаемая ошибка состоит в том, чтобы иметь расширенные правила Disallow для подстановочного знака (`*`) и позднее добавлять новое правило без повторения этих правил Disallow.

# (Отредактированная версия IMDb /robots.txt) # # Ограничить скорость сканирования ScoutJet # Пользовательский агент: задержка сканирования ScoutJet: 3 # # # # Все остальные # Пользовательский агент: * Disallow: / tvschedule Disallow: / ActorSearch Disallow: / ActressSearch Disallow: / AddRecommendation Disallow: / ads / Disallow: / AlternateVersions Disallow: / AName Disallow: / Запретить награды: / BAgent Disallow: / Ballot / # # Карта сайта: http://www.imdb.com/sitemap_US_index.xml. GZ

/robots.txt для IMDb имеет обширные правила Disallow, но они не повторяются для ScoutJet . Предоставление этому боту доступа ко всем папкам.

Обычный пользовательский агент

Ищете конкретного робота? Это наиболее часто используемые пользовательские агенты /robots.txt.

Пользователь-агент # Google [подробнее] Googlebot Обычный поисковый робот Google Googlebot-Image Google Images робот Bing [подробнее] Bingbot Обычный поисковый робот Bing MSNBot Старый сканер для Bing, но все еще используемый MSNBot-Media Crawler для образов Bing Создатель снимка страницы BingPreview [подробнее] Яндекс [подробнее] YandexBot Обычный поисковый робот Yandex YmagesImages Crawler для Яндекс картинок Baidu [подробнее] Baiduspider Основной поисковый паук для Baidu Baiduspider-image Crawler for Baidu Images Applebot Crawler для Apple. Используется для предложений Siri и Spotlight. Инструменты SEO AhrefsBot WebCrawler для Ahrefs MJ12Bot WebCrawler для Majestic rogerbot WebCrawler для Moz Разное DuckDuckBot WebCrawler для DuckDuckGo

Широко поддерживаются два подстановочных знака. Звездочки * соответствуют любой последовательности символов и $, который соответствует концу URL.

Блокировать определенные типы файлов

User-agent: * # Блокировать файлы, оканчивающиеся на .json # Звездочки допускают любое имя файла # Знак доллара гарантирует, что он соответствует только концу URL-адреса, а не странно отформатированному URL (например, /locations.json.html) Disallow: / * .json $

Заблокировать любой URL с помощью?

User-agent: * # Заблокировать все URL, содержащие знак вопроса Disallow: / *?

Блокировать страницы результатов поиска (но не саму страницу поиска)

User-agent: * # Заблокировать страницу результатов поиска Disallow: /search.php?query=*

Часто задаваемые вопросы о /robots.txt

Мне действительно нужен файл /robots.txt?

Да. Хотя вы можете обойтись без файла /robots.txt, разумно всегда его создавать. Хорошие боты всегда будут пытаться посетить ваш файл /robots.txt. Если у вас его нет, журналы вашего сервера будут заполнены 404 ошибками. Если вы хотите, вы можете просто создать пустой файл.

Мой /robots.txt не имеет Sitemap, я должен добавить один?

Да. Несмотря на то, что вам обязательно нужно отправить свой файл сайта через консоль поиска Google, разумно добавить его в файл robots.txt. Это просто сделать и избавляет вас от отправки карты сайта всем поисковым системам (Google, Bing, Yandex, Baidu имеют собственные инструменты для веб-мастеров). Это также помогает другим сканерам (не поисковым системам) найти вашу карту сайта.

Каталоги чувствительны к регистру?

Как и большинство URL-адресов, правила Disallow и Allow чувствительны к регистру. Убедитесь, что ваши правила совпадают с вашими URL.

User-agent: * # / users будет по-прежнему сканироваться, поскольку регистр не соответствует Disallow: / Users

Поле / инструкции чувствительны к регистру?

Сами инструкции не чувствительны к регистру. Вы можете указать правило как Disallow: или disallow :.

Как я могу проверить изменения в файлах /robots.txt?

Это руководство «от новичка до продвинутого» в /robots

Тестер /robots.txt в Google Search Console позволяет проверить, можно ли сканировать определенную страницу.

Есть несколько бесплатных парсеров /robots.txt онлайн, но самый надежный способ - через Google Search Console , Он содержит расширенный инструмент, в котором вы можете ввести URL-адрес и проверить, разрешено ли Google сканировать его.

Вы действительно чувствуете, что если SEO не постоят за себя, это может быть конец SEO, как мы его знаем?
Вы действительно чувствуете, что если SEO не постоят за себя, это может быть конец SEO, как мы его знаем? Аарон Уолл: «Я не думаю, что индустрия выросла внезапно, и действительно были статьи о ее неизбежной смерти за годы до того, как я даже вошел в индустрию, поэтому я не думаю, что индустрия умрет быстрой смертью или умрет одновременно. Более вероятно, что люди постепенно маргинализируются, в то время как их прибыль уменьшается, и они теряют личные свободы.

Почему мой сайт не имеет рейтинга и почему мой конкурент работает лучше меня?
Почему мой сайт не имеет рейтинга и почему мой конкурент работает лучше меня? Вы получите ответы на эти и другие вопросы во время обучения SEO Onetomarket. Onetomarket разработал два учебных курса: базовый тренинг по SEO для начинающих и продвинутый тренинг по SEO для продвинутых. Оба курса сочетают теорию с практикой и дают вам конкретные инструменты, с которых вы можете начать немедленно. Благодаря индивидуальному дизайну учебных курсов, есть возможность специально рассмотреть вашу ситуацию

Имея это в виду, как один SEO-пакет может работать так же хорошо для вашего сайта, как и для другого?
Имея это в виду, как один SEO-пакет может работать так же хорошо для вашего сайта, как и для другого? Ответ в том, что это не может и не сработает. Любая SEO-компания, которая обещает луну и звезды, не проводя аудит и оценку вашего сайта, в первую очередь, не справится с этой задачей. Цена может быть правильной, но результаты отсутствуют. Индивидуальные услуги SEO получают результаты Если вы хотите получить реальную отдачу от своих инвестиций в SEO, вы должны быть готовы

» Или «Сделать SEO для моего сайта», а не вводить весь заголовок, верно?
» Или «Сделать SEO для моего сайта», а не вводить весь заголовок, верно? Что ж, это означает, что «делаю» и «моя веб-страница» являются ключевыми словами моей публикации , и что я должен их усилить, если хочу естественным образом позиционировать себя на верхних позициях поисковых систем. Затем идет борьба за эти ключевые слова со стороны моего конкурента, это не то же самое, что позиционировать слово «авто» или «рецепт», как слово «вилка» или «ложка».

Как вы знаете, если SEO вашего сайта так высоко, как это должно быть?
Как вы знаете, если SEO вашего сайта так высоко, как это должно быть? Вы используете инструменты анализа веб-сайтов, чтобы узнать свою оценку SEO и улучшить факторы, которые являются низкими или отсутствуют! Каждый инструмент анализа веб-сайтов, который вы используете, будет давать вам другой рейтинг, но все они будут раскрывать разные вещи, которые также требуют вашего внимания. Ваш SEO-рейтинг действительно динамичный, постоянно развивающийся зверь, который нуждается в вашем постоянном

Вы чувствуете, что не знаете, как интерпретировать ответы на поставленные выше вопросы и вопросы?
Вы чувствуете, что не знаете, как интерпретировать ответы на поставленные выше вопросы и вопросы? Если это так, мы рекомендуем читать дальше! Продвинутый в вопросах о SEO Рекомендации Google должны быть серьезными, так как Google часто обеспечивает до 70% трафика на сайт. Владельцы сайтов нередко пересекают границы важности поисковой системы Google для сайта. Поэтому мы хотим немного углубиться в таких вопросах, как обновление

Возможно, вы даже не знаете, как это работает, но вы уже знакомы с концепцией SEO (поисковой оптимизации), если у вас нет статьи на тему " Что такое SEO?
Вы чувствуете, что не знаете, как интерпретировать ответы на поставленные выше вопросы и вопросы? Если это так, мы рекомендуем читать дальше! Продвинутый в вопросах о SEO Рекомендации Google должны быть серьезными, так как Google часто обеспечивает до 70% трафика на сайт. Владельцы сайтов нередко пересекают границы важности поисковой системы Google для сайта. Поэтому мы хотим немного углубиться в таких вопросах, как обновление

Ты видишь оптимизация вашего сайта для поисковых систем как хорошо для вашего бизнеса, или как дополнительная стоимость, которая не стоит ваших инвестиций или усилий?
Вы чувствуете, что не знаете, как интерпретировать ответы на поставленные выше вопросы и вопросы? Если это так, мы рекомендуем читать дальше! Продвинутый в вопросах о SEO Рекомендации Google должны быть серьезными, так как Google часто обеспечивает до 70% трафика на сайт. Владельцы сайтов нередко пересекают границы важности поисковой системы Google для сайта. Поэтому мы хотим немного углубиться в таких вопросах, как обновление

Почему вы не ведете блог, не более или не часто?
Почему вы не ведете блог, не более или не часто? Не пора ли возродить культуру кросс-блогового обсуждения?

Как вы придумываете часто задаваемые вопросы?
Как вы придумываете часто задаваемые вопросы? Помимо создания страниц в верхней части головы (что неплохо для начала), вы всегда можете собирать часто задаваемые вопросы из: Клерки, вспомогательный персонал, представители обслуживания клиентов - люди на передовой всегда засыпают вопросами. Ваша команда продаж! Разговаривать с ними в любое время - отличная идея. Инструменты обратной связи на сайте, такие как Qualaroo

Это означает, что вы можете создавать и получать доступ к своему веб-сайту в обтекаемом виде, как на этой диаграмме - веб-сайт> раздел блога> статьи о SEO> 2015> Каковы преимущества SEO?
Это означает, что вы можете создавать и получать доступ к своему веб-сайту в обтекаемом виде, как на этой диаграмме - веб-сайт> раздел блога> статьи о SEO> 2015> Каковы преимущества SEO? Хотите узнать больше о выборе Joomla CMS? Как всегда, вам не требуется никакого опыта программирования для создания ваших сайтов упорядоченным образом, и это потому, что Joomla была создана для этого в первую очередь. Вы также получаете полный контроль над всеми элементами вашего сайта

Txt не имеет Sitemap, я должен добавить один?
Каталоги чувствительны к регистру?
Поле / инструкции чувствительны к регистру?
Txt?
User-agent: * # Заблокировать все URL, содержащие знак вопроса Disallow: / *?
Php?
Txt?
Txt не имеет Sitemap, я должен добавить один?
Каталоги чувствительны к регистру?
Txt?