Сышышь ты, выходи сюда,
поговорим !

robots.txt

  1. Якщо у вас немає файла robots.txt
  2. Не використовуйте файл robots.txt, щоб запобігти індексації!
  3. Рада!
  4. приклад
  5. Приклад відповідності шаблонів
  6. Реальні приклади:
  7. Список звичайних павуків для використання з robots.txt
  8. субдоменов
  9. Мій досвід роботи в якості консультанта SEO

Файл robots.txt є простим текстовим файлом на корені вашого домену, www.dindomän.se / robots.txt, який дає інструкції пошуковим системам щодо способу шпинделя.

Якщо у вас немає файла robots.txt

  • Всі пошукові системи та інші програми, які павука Інтернету є вільними для доступу та індексування всього вмісту вашого сайту.
  • Багато людей запитують цей файл, і якщо це не так, це може негативно вплинути на ефективність вашого сайту.

Завжди рекомендується мати такий файл, навіть якщо він порожній (дозволяє все), тому що пошукові системи запитують його.

Всі основні пошукові системи (Google, Yahoo, Live) і, мабуть, більшість маленьких, погодилися на загальний стандарт і дотримувалися вказівок у вашому robots.txt.

Не використовуйте файл robots.txt, щоб запобігти індексації!

Сканування та індексація не збігаються. Якщо URL-адреса може бути доступна через внутрішню або зовнішню посилання, вона, безсумнівно, буде проіндексована, навіть якщо вона не обернена. Facebook отримав мільйони секретних URL-адрес, що містять адреси електронної пошти, індексовані в Google у 2012 році, які були заблоковані файлом robots.txt ( інформація ).

Замість цього використовуйте наведені нижче дії, щоб запобігти індексування:

  • Мета noindex
  • Заголовок HTTP-тегів X-Robots. ( інформація )
  • Реалізувати htpasswd на сервері.
  • Блокувати інше.

Рада!

Джим Вестергрен розробив   доменні Статистика   , Awesome служби в SEO, де ви можете побачити вхідні посилання і багато іншого Джим Вестергрен розробив доменні Статистика , Awesome служби в SEO, де ви можете побачити вхідні посилання і багато іншого.

приклад

Заблокувати весь сайт з усіх пошукових систем:

Агент користувача: * Disallow: /

Заблокувати темп папки:

User-agent: * Disallow: / temp /

Заблокувати всі URL-адреси, починаючи з облікового запису :

Агент користувача: * Disallow: / account

Коментарі відмічені вступною №:

# Тут приходить коментар

Заблокувати окремі частини лише від Google:

Агент користувача: Googlebot Disallow: / temp / Disallow: / unnecessary / junk directory / Disallow: /privat_file.html

Блокувати та видалити всі зображення з пошуку зображень Google:

Агент користувача: Googlebot-Image Disallow: /

Примусити роботів чекати 10 секунд між запитами в павуку:

Агент користувача: * Затримка сканування: 10

Дати схвалення певному файлу в іншому несанкціонованому папці

User-agent: * Disallow: / mapp1 / Allow: /mapp1/fil.html

Заблокувати всіх роботів, крім Google:

Агент користувача: * Disallow: / User-agent: Googlebot Дозволити: /

Показати, де існує XML-карта сайту (можна вказати декілька):

Мапа сайту: http: //www.din-domain.com/sitemap.xml Карта сайту: http: //www.din-domain.com/sitemap2.xml

Приклад відповідності шаблонів

Зірочка (*) відповідає послідовності символів, а знак долара ($) вказує на кінець URL-адреси.

Заблокувати всі каталоги, що починаються з приватних :

User-agent: * Disallow: / private * /

Заблокувати всі URL-адреси вашого домену, які закінчуються на .gif:

User-agent: * Disallow: /*.gif

Заблокувати всі URL-адреси, які містять знак запитання (?):

User-agent: * Disallow: / *?

Заблокувати всі URL-адреси, які містять sessionid, але дозвольте /hur-du-fix-sessionid.html :

User-agent: * Дозволити: /hur-du-fixar-sessionid.html Disallow: / * sessionid

Інші приклади:

# Застосовується до всіх Агентів користувачів: * # Блокувати все, що знаходиться в папці облікового запису, але не URL / обліковий запис / Disallow: / account / * # Блокувати всі URL-адреси, що починаються з / checkout Disallow: / checkout

Реальні приклади:

Приклад для WordPress

Агент користувача: * Disallow: / cgi-bin / Disallow: / wp-admin / Disallow: / wp-includes / Disallow: / wp-content / плагіни / Disallow: / wp-content / cache / Disallow: / wp-content / themes / Disallow: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed / # Завжди переконайтеся, що CSS і Javascript не заблоковані: Дозволити: /*.css$ Дозволити: /*.js $ Sitemap: http://www.example.com/sitemap.xml

Список звичайних павуків для використання з robots.txt

  • Googlebot - головний бот Google для своєї пошукової системи
  • Slurp - Yahoo!
  • msnbot - Live Search
  • Медіа-партнери - Google - бот від Google, який використовується для AdSense
  • Зображення Googlebot - бот Google, який використовується для пошуку зображень Google

Деякі поради та попередження

  • Ви не повинні блокувати CSS і Javascript, тому що Googlebot не може правильно відобразити сторінку, що може призвести до покарання вашого сайту Panda.
  • Не використовуйте файл robots.txt, щоб заблокувати секретні сайти, оскільки будь-хто з веб-переглядачем може бачити ваш файл robots.txt, відкритий для всіх, а потім перейти до місць, де ви хочете зберегти таємницю. Якщо так, використовуйте його META роботи або блокувати на рівні сервера як з .htaccess ,
  • Обов'язково включіть / закрийте папки, які ви хочете заблокувати - інакше ви заблокуєте всі файли, які починаються з цих букв. Наприклад, / temp / folder block temp while / temp блокує всі файли, які починаються з temp, наприклад, template.php .
  • Існує різниця між великими та малими літерами.
  • Підсвічені днища і павуки, такі як ті, хто шукає адреси електронної пошти для спаму, ігнорують ваш файл robots.txt.
  • Якщо ви використовуєте складні правила з, наприклад, зразком, я рекомендую перевірити файл robots.txt у Інструменти Google для веб-майстрів у розділі Сканування -> Заблоковані URL-адреси, щоб ви не помилилися.
  • Сторінки результатів пошуку з внутрішнього пошуку майже завжди блокуються за допомогою robots.txt

субдоменов

Приклад файлу example.com/robots.txt не є дійсним для blog.example.com/robots.txt. Кожен субдомен повинен мати власний файл robots.txt.

Мій досвід роботи в якості консультанта SEO

Найбільш поширені помилки, які я бачив через свої роки як консультант SEO:

  • Немає файла robots.txt
  • Відсутній шлях до Sitemap XML.
  • Речі, які потрібно заблокувати, не блокуються.