Файл robots.txt. Правильний robots.txt для Wordpress
- Чому треба обов'язково створювати файл robots.txt
- Створюємо правильний robots.txt для WordPress
- Директива - «User-agent:»
- Директива - «Disallow:»
- Директива - «Allow:»
- Директива - «Host:"
- Директива - «Sitemap:»
Привіт шановні читач SEO-Mayak.com ! Сьогодні я торкнуся таку важливу теми, як «Індексація сайту пошуковими роботами». Вірніше, мова піде саме про заборону для індексації файлів не відносяться до контенту.
Навіщо забороняти індексацію? Відповідаючи на це питання я відразу обмовлюся, не треба забороняти пошуковикам індексувати блог, необхідно навпаки всіляко цьому сприяти. Закривати від індексації потрібно тільки ті файли, які не містять корисну інформацію. До таких відносяться: системні файли WordPress, а також дублі контенту і деякі інші файли.
Наше завдання правильно вказати дорогу пошуковим роботам до дійсно важливих файлів і «опустити шлагбаум» на шляху до будь-якого «сміття». Для цього в арсеналі у вебмайстрів є два незамінних інструменту. З їх допомогою можна правильно організувати рух пошуковиків по блогу, розставити «дорожні знаки» і пріоритети.
Перший інструмент - це файл robots.txt, який якраз і служить таким собі «регулювальником», що дозволяє роботам йти в одне місце і забороняє їм іти в інше. Про це файлі і піде мова далі.
Другий інструмент - це файл Sitemap.xml, який створює «дорожню розмітку» (карту сайту) і значно спрощує пошуковим системам навігацію по блогу. ( Файл sitemap.xml для пошукових систем Google і Яндекс )
Чому треба обов'язково створювати файл robots.txt
Припустимо, забрів пошуковий робот на сайт або блог не важливо, на якому з вини адміністратора або іншої особи був створений файл robots.tx t. Що робить робот в першу чергу? В першу чергу він якраз шукає файл robots.tx t, але так як такого файлу немає, робот приймається знайомиться з сайтом керуючись своїми власними секретними алгоритмами.
Замість того, щоб індексувати опублікований матюкав, робот гуляє по каталогу wp-admin або wp-includes в пошуках щось схожого на контент. А через деякий фіксований час «Центр Управління» дає команду роботу слідувати на сайт до Василя Пупкину і робот, так і не діставшись до головної мети свого візиту - контенту, відправитися гуляти далі по просторах інтернету.
Але коли він повернеться, а повернеться він тепер нескоро, повторитися знову та ж сама історія, а горе-адміністратор буде гріти собі голову, чому його сайт погано індексується.
З цього всього можна зробити кілька корисних висновків:
Висновок №1. Час, що відводить пошуковій машині для індексації ресурсу строго лімітований.
Висновок №2. Робот напевно повідомить в своєму рапорті «Центру Управління» про сайті в якому нічого індексувати і ЦУ поправить розклад наступних відвідин з позначкою - «Відвідувати рідше».
Вивод№3. При багаторазовому повторенні такої ситуації ЦУ обов'язково вживе заходів по поваленню позицій такого не благонадійного ресурсу і засуне в глиб пошуку від гріха по-далі.
Так ось, щоб не відчувати себе в ролі «горе адміністратора» треба обов'язково створити файл robots.txt і правильно розставити в ньому «заборонні знаки», тим самим вказувати найкоротшу дорогу до контенту, який дійсно необхідно індексувати.
Створюємо правильний robots.txt для WordPress
Новачкам напевно складно зрозуміти процес створення файлу robots.txt, хоча в принципі сильно хитрого нічого немає. Постараюся розкласти все по поличках.
Файл robots.txt повинен знаходитися в корені сайту. Як завантажувати файли на сервер читайте в статті - « FTP клієнт Filezilla »
створюється за допомогою звичайного текстового документа має формат .txt в якому прописуються наступний директиви:
Директива - «User-agent:»
Директива «User-agent» служить для зазначення назви пошукового робота, наприклад:
User-agent: Yandex
Всі директиви, які розташовані нижче будуть відноситься безпосередньо до робота Яндекса.
або:
User-agent: Googlebot
В цьому випадку подальші директиви будуть звернені до Гуглу.
Можна написати і так:
User-agent: *
Спецсимвол «*» можна перевести як - «Будь-який текст», тобто таким спецсимволи можна замінити назву всіх інших пошукових роботів, щоб не прописувати для кожного окремі директиви в силу їх незначності серед двох гігантів Яндекс і Google. Останні в свою чергу ігнорують спецсимвол «*» і побачивши своє «ім'я» у файлі robots.txt і стануть сліпо слідувати директивам, призначеним для цього імені.
Напевно вам буде цікаво дізнатися назви роботів інших відомих пошукових систем, список нижче:
- Alexa - ia_archiver;
- AltaVista - Scooter;
- AOL - Slurp;
- Aport - Aport;
- Ask - Teoma;
- Bing - bingbot;
- Live - MSNBot;
- MSN - MSNBot;
- Lycos - Lycos;
- Nigma - Nigma.ru;
- Yahoo! - Slurp (або Yahoo! Slurp);
- Вебальта - WebAlta (WebAlta Crawler / 2.0);
- Мейл.ру - Mail.Ru;
- Рамблер - StackRambler.
Треба відзначити, що кожен великий пошуковик має команду роботів «помічників» і всі вони мають своє індивідуальне призначення. На буду перебирати всі пошуковики, зупинюся лише на роботах Яндекса:
- YandexBot - основний індексує робот;
- YandexMedia - робот, що індексує мультимедійні дані;
- YandexImages - індексатор Яндекс картинок;
- YandexCatalog - «простуківалка» Яндекс каталогу;
- YandexDirect - робот, що індексує сторінки сайтів, що беруть участь в рекламній мережі Яндекса;
- YandexBlogs - робот пошуку по блогам, що індексує коментарі постів;
- YandexNews - робот Яндекс.Новинах;
- YandexPagechecker - робот, який звертається до сторінці при валідації мікророзмітки через форму «Валідатор мікророзмітки».
Для всіх перерахованих роботів можна задавати окремі директиви.
Директива - «Disallow:»
Директива «Disallow:" забороняє роботу індексувати зазначену частину сайту або весь сайт цілком, дивлячись яке значення містить дана директива. наприклад:
- User-agent: Yandex
- Disallow: /
Директива «Disallow:» містить спецсимвол «/», який є заборонним знаком, а так як після нього ні чого не вказано, робот розуміє це, як команду забороняє індексацію всього сайту в цілому.
Якщо після спецсимволи «/» прописати назву якогось каталогу, наприклад:
- User-agent: Yandex
- Disallow: / wp-admin
Для робота це буде означати заборону індексації за все, що знаходитися в каталозі wp-admin. Не важко здогадатися, що таким способом можна блокувати шлях робота до каталогів або окремих файлів, а також шляхи в URL адресі. Наприклад, цей URL буде блокований:
- seo-mayak.com/wp-admin/post.php
Але як же бути якщо треба дозволити роботу зайти в певний каталог і вже потім заборонити йому подальше просування по деяких напрямках? Робиться це просто:
- User-agent: Yandex
- Disallow: / wp-admin
- Disallow: / wp-content / plugins
Як Ви вже здогадалися, прописується шлях до каталогу, який треба блокувати.
Також можна заборонити індексацію по символам таких, як «?», Яке трапляється в URL провідному на певні сторінки:
- User-agent: Yandex
- Disallow: / wp-admin
- Disallow: / wp-content / plugins
- Disallow: / *? *
Давайте розберемося в останній директиві, що там за знаки такі. Як я вже писав вище, спецсимвол «*» позначає будь-який текст - значить забороняються будь-які URL, які включають в себе символ «?», Причому цей символ повинен знаходитися між будь-якими іншими символами. приклад:
- seo-mayak.com/post.php?post=618
Якщо в деяких «небажаних» URL символ «?» Знаходитися в кінці, то прописувати треба так:
- User-agent: Yandex
- Disallow: / wp-admin
- Disallow: / wp-content / plugins
- Disallow: / *? *
- Disallow: / *?
Сподіваюся, пояснив зрозуміло.
Тепер напевно у багатьох може виникнути питання - «А навіщо забороняти роботу індексувати URL, адже це і є контент?»
Справа в тому, що один і той же контент дуже часто буває доступний за різними URL і це призводить до його дублювання в рамках одного сайту. Дублі бувають повними або частковими (під частковими дублями маються на увазі анонси записів ) Пошукові системи негативно ставляться до таких прояви і якщо дублікатів багато, то в гіршому випадки сайт може загриміти під фільтр.
Тому проскануйте Ваш сайт на дублікати і забороніть їх індексацію в файлі robots.txt за допомогою символів входять в URL. Про дублі сторінок читайте в статті - « Схожі, дубльовані сторінки. Як виявити дублі контенту «.
Йдемо далі. Дійшла черга до ще одного спецсимволи - «$», який вказує роботу на виборчий замкнений індексації. приклад:
- User-agent: Yandex
- Disallow: / page $
В даному прикладі спец символ «$» вказав на заборону індексації URL містить в собі послідовність літер «page» але не заборонив індексувати page.php, що дозволяє біліше тонко робити настроювання файлу robots.txt.
Директива - «Allow:»
Якщо директива «Disallow:» є забороняє, то «Allow:» - роздільною. До неї можна прописувати ті ж значення як і до «Disallow:»
- User-agent: Yandex
- Allow: / wp-content
Директива - «Host:"
Директива «Host:" призначена тільки для Яндекса і вказує йому на головне дзеркало сайту , Яке і буде індексуватися роботом виключаючи всі інші дзеркала, що також охороняє від дублювання контенту. ще необхідно зробити 301 редирект через файл .htaccess. Прописують цю директиву так:
- User-agent: Yandex
- Disallow: / wp-admin
- Disallow: / wp-content / plugins
- Disallow: / *? *
- Disallow: / *?
- Host: сайт.ru
Або так:
- User-agent: Yandex
- Disallow: / wp-admin
- Disallow: / wp-content / plugins
- Disallow: / *? *
- Disallow: / *?
- Host: www.сайт.ru
Без http: // і без https: //.
Директива - «Sitemap:»
Директива «Sitemap:» вказує шлях до другого незамінним інструментом, прискорює індексацію - це файли sitemap.xml і файл sitemap.xml.gz створюють карту сайту для пошукових систем. приклад:
- User-agent: Yandex
- Disallow: / wp-admin
- Disallow: / wp-content / plugins
- Disallow: / *? *
- Disallow: / *?
- Host: сайт.ru
- Sitemap: http: //сайт.ru/sitemap.xml
Я пройшовся по основним директивам, які застосовуються при створенні файлу robots.txt, але хочу дати ще одну пораду. Файл robots.txt доступний для перегляду будь-якому користувачеві Інтернету досить набрати в адресному рядку сайт.ru / robots.txt і Ви зможете подивитися robots.txt у будь-якого сайту, до речі мій блог не виняток.
Також раджу прочитати - «Supplemental index. Додатковий (сопливий) індекс Google » .
У висновку хочу сказати, що за процесом індексації треба поглядати і в разі необхідності вносити зміни в файл robots.txt.
Перевірити файл robots.txt можна можна за наступними адресами:
Яндекс вебмастер -
1. вписується URL блогу без http: // і без https: //
2. Натискаєте кнопку - «Завантажити robots.txt з сайту».
3. Після того як файл завантажитися натискаєте кнопку - «Перевірити».
Google Інструменти для веб-майстрів -
Якщо є питання, чи готовий вислухати. Висловіть свою думку будь ласка в коментарях.
Читайте також, як створити динамічну XML карту сайту .
До зустрічі!
З повагою, Кирилов Віталій
Навіщо забороняти індексацію?Що робить робот в першу чергу?
Також можна заборонити індексацію по символам таких, як «?
Як я вже писав вище, спецсимвол «*» позначає будь-який текст - значить забороняються будь-які URL, які включають в себе символ «?
Php?
Disallow: / *?
Тепер напевно у багатьох може виникнути питання - «А навіщо забороняти роботу індексувати URL, адже це і є контент?
Disallow: / *?
Disallow: / *?
Disallow: / *?