Файл robots.txt. Правильний robots.txt для Wordpress

Чому треба обов'язково створювати файл robots.txt
Створюємо правильний robots.txt для WordPress
Директива - «User-agent:»
Директива - «Disallow:»
Директива - «Allow:»
Директива - «Host:"
Директива - «Sitemap:»

Привіт шановні читач SEO-Mayak.com ! Сьогодні я торкнуся таку важливу теми, як «Індексація сайту пошуковими роботами». Вірніше, мова піде саме про заборону для індексації файлів не відносяться до контенту.

Навіщо забороняти індексацію? Відповідаючи на це питання я відразу обмовлюся, не треба забороняти пошуковикам індексувати блог, необхідно навпаки всіляко цьому сприяти. Закривати від індексації потрібно тільки ті файли, які не містять корисну інформацію. До таких відносяться: системні файли WordPress, а також дублі контенту і деякі інші файли.

Наше завдання правильно вказати дорогу пошуковим роботам до дійсно важливих файлів і «опустити шлагбаум» на шляху до будь-якого «сміття». Для цього в арсеналі у вебмайстрів є два незамінних інструменту. З їх допомогою можна правильно організувати рух пошуковиків по блогу, розставити «дорожні знаки» і пріоритети.

Перший інструмент - це файл robots.txt, який якраз і служить таким собі «регулювальником», що дозволяє роботам йти в одне місце і забороняє їм іти в інше. Про це файлі і піде мова далі.

Другий інструмент - це файл Sitemap.xml, який створює «дорожню розмітку» (карту сайту) і значно спрощує пошуковим системам навігацію по блогу. ( Файл sitemap.xml для пошукових систем Google і Яндекс )

Чому треба обов'язково створювати файл robots.txt

txt

Припустимо, забрів пошуковий робот на сайт або блог не важливо, на якому з вини адміністратора або іншої особи був створений файл robots.tx t. Що робить робот в першу чергу? В першу чергу він якраз шукає файл robots.tx t, але так як такого файлу немає, робот приймається знайомиться з сайтом керуючись своїми власними секретними алгоритмами.

Замість того, щоб індексувати опублікований матюкав, робот гуляє по каталогу wp-admin або wp-includes в пошуках щось схожого на контент. А через деякий фіксований час «Центр Управління» дає команду роботу слідувати на сайт до Василя Пупкину і робот, так і не діставшись до головної мети свого візиту - контенту, відправитися гуляти далі по просторах інтернету.

Але коли він повернеться, а повернеться він тепер нескоро, повторитися знову та ж сама історія, а горе-адміністратор буде гріти собі голову, чому його сайт погано індексується.

З цього всього можна зробити кілька корисних висновків:

Висновок №1. Час, що відводить пошуковій машині для індексації ресурсу строго лімітований.

Висновок №2. Робот напевно повідомить в своєму рапорті «Центру Управління» про сайті в якому нічого індексувати і ЦУ поправить розклад наступних відвідин з позначкою - «Відвідувати рідше».

Вивод№3. При багаторазовому повторенні такої ситуації ЦУ обов'язково вживе заходів по поваленню позицій такого не благонадійного ресурсу і засуне в глиб пошуку від гріха по-далі.

Так ось, щоб не відчувати себе в ролі «горе адміністратора» треба обов'язково створити файл robots.txt і правильно розставити в ньому «заборонні знаки», тим самим вказувати найкоротшу дорогу до контенту, який дійсно необхідно індексувати.

Створюємо правильний robots.txt для WordPress

Новачкам напевно складно зрозуміти процес створення файлу robots.txt, хоча в принципі сильно хитрого нічого немає. Постараюся розкласти все по поличках.

Файл robots.txt повинен знаходитися в корені сайту. Як завантажувати файли на сервер читайте в статті - « FTP клієнт Filezilla »

створюється за допомогою звичайного текстового документа має формат .txt в якому прописуються наступний директиви:

Директива - «User-agent:»

Директива «User-agent» служить для зазначення назви пошукового робота, наприклад:

User-agent: Yandex

Всі директиви, які розташовані нижче будуть відноситься безпосередньо до робота Яндекса.

або:

User-agent: Googlebot

В цьому випадку подальші директиви будуть звернені до Гуглу.

Можна написати і так:

User-agent: *

Спецсимвол «*» можна перевести як - «Будь-який текст», тобто таким спецсимволи можна замінити назву всіх інших пошукових роботів, щоб не прописувати для кожного окремі директиви в силу їх незначності серед двох гігантів Яндекс і Google. Останні в свою чергу ігнорують спецсимвол «*» і побачивши своє «ім'я» у файлі robots.txt і стануть сліпо слідувати директивам, призначеним для цього імені.

Напевно вам буде цікаво дізнатися назви роботів інших відомих пошукових систем, список нижче:

Alexa - ia_archiver;
AltaVista - Scooter;
AOL - Slurp;
Aport - Aport;
Ask - Teoma;
Bing - bingbot;
Live - MSNBot;
MSN - MSNBot;
Lycos - Lycos;
Nigma - Nigma.ru;
Yahoo! - Slurp (або Yahoo! Slurp);
Вебальта - WebAlta (WebAlta Crawler / 2.0);
Мейл.ру - Mail.Ru;
Рамблер - StackRambler.

Треба відзначити, що кожен великий пошуковик має команду роботів «помічників» і всі вони мають своє індивідуальне призначення. На буду перебирати всі пошуковики, зупинюся лише на роботах Яндекса:

YandexBot - основний індексує робот;
YandexMedia - робот, що індексує мультимедійні дані;
YandexImages - індексатор Яндекс картинок;
YandexCatalog - «простуківалка» Яндекс каталогу;
YandexDirect - робот, що індексує сторінки сайтів, що беруть участь в рекламній мережі Яндекса;
YandexBlogs - робот пошуку по блогам, що індексує коментарі постів;
YandexNews - робот Яндекс.Новинах;
YandexPagechecker - робот, який звертається до сторінці при валідації мікророзмітки через форму «Валідатор мікророзмітки».

Для всіх перерахованих роботів можна задавати окремі директиви.

Директива - «Disallow:»

Директива «Disallow:" забороняє роботу індексувати зазначену частину сайту або весь сайт цілком, дивлячись яке значення містить дана директива. наприклад:

User-agent: Yandex
Disallow: /

Директива «Disallow:» містить спецсимвол «/», який є заборонним знаком, а так як після нього ні чого не вказано, робот розуміє це, як команду забороняє індексацію всього сайту в цілому.

Якщо після спецсимволи «/» прописати назву якогось каталогу, наприклад:

User-agent: Yandex
Disallow: / wp-admin

Для робота це буде означати заборону індексації за все, що знаходитися в каталозі wp-admin. Не важко здогадатися, що таким способом можна блокувати шлях робота до каталогів або окремих файлів, а також шляхи в URL адресі. Наприклад, цей URL буде блокований:

seo-mayak.com/wp-admin/post.php

Але як же бути якщо треба дозволити роботу зайти в певний каталог і вже потім заборонити йому подальше просування по деяких напрямках? Робиться це просто:

User-agent: Yandex
Disallow: / wp-admin
Disallow: / wp-content / plugins

Як Ви вже здогадалися, прописується шлях до каталогу, який треба блокувати.

Також можна заборонити індексацію по символам таких, як «?», Яке трапляється в URL провідному на певні сторінки:

User-agent: Yandex
Disallow: / wp-admin
Disallow: / wp-content / plugins
Disallow: / *? *

Давайте розберемося в останній директиві, що там за знаки такі. Як я вже писав вище, спецсимвол «*» позначає будь-який текст - значить забороняються будь-які URL, які включають в себе символ «?», Причому цей символ повинен знаходитися між будь-якими іншими символами. приклад:

seo-mayak.com/post.php?post=618

Якщо в деяких «небажаних» URL символ «?» Знаходитися в кінці, то прописувати треба так:

User-agent: Yandex
Disallow: / wp-admin
Disallow: / wp-content / plugins
Disallow: / *? *
Disallow: / *?

Сподіваюся, пояснив зрозуміло.

Тепер напевно у багатьох може виникнути питання - «А навіщо забороняти роботу індексувати URL, адже це і є контент?»

Справа в тому, що один і той же контент дуже часто буває доступний за різними URL і це призводить до його дублювання в рамках одного сайту. Дублі бувають повними або частковими (під частковими дублями маються на увазі анонси записів ) Пошукові системи негативно ставляться до таких прояви і якщо дублікатів багато, то в гіршому випадки сайт може загриміти під фільтр.

Тому проскануйте Ваш сайт на дублікати і забороніть їх індексацію в файлі robots.txt за допомогою символів входять в URL. Про дублі сторінок читайте в статті - « Схожі, дубльовані сторінки. Як виявити дублі контенту «.

Йдемо далі. Дійшла черга до ще одного спецсимволи - «$», який вказує роботу на виборчий замкнений індексації. приклад:

User-agent: Yandex
Disallow: / page $

В даному прикладі спец символ «$» вказав на заборону індексації URL містить в собі послідовність літер «page» але не заборонив індексувати page.php, що дозволяє біліше тонко робити настроювання файлу robots.txt.

Директива - «Allow:»

Якщо директива «Disallow:» є забороняє, то «Allow:» - роздільною. До неї можна прописувати ті ж значення як і до «Disallow:»

User-agent: Yandex
Allow: / wp-content

Директива - «Host:"

Директива «Host:" призначена тільки для Яндекса і вказує йому на головне дзеркало сайту , Яке і буде індексуватися роботом виключаючи всі інші дзеркала, що також охороняє від дублювання контенту. ще необхідно зробити 301 редирект через файл .htaccess. Прописують цю директиву так:

User-agent: Yandex
Disallow: / wp-admin
Disallow: / wp-content / plugins
Disallow: / *? *
Disallow: / *?
Host: сайт.ru

Або так:

User-agent: Yandex
Disallow: / wp-admin
Disallow: / wp-content / plugins
Disallow: / *? *
Disallow: / *?
Host: www.сайт.ru

Без http: // і без https: //.

Директива - «Sitemap:»

Директива «Sitemap:» вказує шлях до другого незамінним інструментом, прискорює індексацію - це файли sitemap.xml і файл sitemap.xml.gz створюють карту сайту для пошукових систем. приклад:

User-agent: Yandex
Disallow: / wp-admin
Disallow: / wp-content / plugins
Disallow: / *? *
Disallow: / *?
Host: сайт.ru
Sitemap: http: //сайт.ru/sitemap.xml

Я пройшовся по основним директивам, які застосовуються при створенні файлу robots.txt, але хочу дати ще одну пораду. Файл robots.txt доступний для перегляду будь-якому користувачеві Інтернету досить набрати в адресному рядку сайт.ru / robots.txt і Ви зможете подивитися robots.txt у будь-якого сайту, до речі мій блог не виняток.

Також раджу прочитати - «Supplemental index. Додатковий (сопливий) індекс Google » .

У висновку хочу сказати, що за процесом індексації треба поглядати і в разі необхідності вносити зміни в файл robots.txt.

Перевірити файл robots.txt можна можна за наступними адресами:

Яндекс вебмастер -

1. вписується URL блогу без http: // і без https: //

2. Натискаєте кнопку - «Завантажити robots.txt з сайту».

3. Після того як файл завантажитися натискаєте кнопку - «Перевірити».

Google Інструменти для веб-майстрів -

Google Інструменти для веб-майстрів -

Якщо є питання, чи готовий вислухати. Висловіть свою думку будь ласка в коментарях.

Читайте також, як створити динамічну XML карту сайту .

До зустрічі!

З повагою, Кирилов Віталій

Навіщо забороняти індексацію?
Що робить робот в першу чергу?
Також можна заборонити індексацію по символам таких, як «?
Як я вже писав вище, спецсимвол «*» позначає будь-який текст - значить забороняються будь-які URL, які включають в себе символ «?
Php?
Disallow: / *?
Тепер напевно у багатьох може виникнути питання - «А навіщо забороняти роботу індексувати URL, адже це і є контент?
Disallow: / *?
Disallow: / *?
Disallow: / *?