robots.txt | SEO-guide.se

Калі ў вас няма файла robots.txt
Не варта выкарыстоўваць robots.txt для прадухілення індэксацыі!
Савет!
прыклад
Прыклады супастаўлення з узорам
Рэальны прыклад:
Спіс агульных павукоў выкарыстоўваць з robots.txt
субдоменов
Мой досвед працы ў якасці кансультанта SEO

Файл robots.txt ўяўляе сабой просты тэкставы файл у каранёвым каталогу вашага дамена, так як www.yourdomain.com / robots.txt, які дае інструкцыі для пошукавых сістэм аб тым, як яны могуць індэксаваць.

Калі ў вас няма файла robots.txt

Усе пошукавыя сістэмы і іншыя прыкладання, што павукі ў Інтэрнэце бясплатна атрымаць доступ і прасканаваць усё ўтрыманне на вашым сайце.
Шмат хто задае гэты файл, і калі гэта так, гэта можа негатыўна паўплываць на прадукцыйнасць вашага сайта.

Заўсёды рэкамендуецца, што ў вас ёсць такі файл, нават калі ён пусты (дазволіць усе), таму што пошукавыя сістэмы будуць прасіць за яго.

Усе асноўныя пошукавыя сістэмы (Google, Yahoo, Live) і, верагодна, большасць малых ўзгаднілі агульны стандарт і прытрымлівацца інструкцый, якія Вы маеце на файле robots.txt.

Не варта выкарыстоўваць robots.txt для прадухілення індэксацыі!

Кволы (паўзком) і індэксацыя не тое ж самае. Калі URL можна атрымаць па ўнутранай або знешняй спасылцы, яна, безумоўна, будзе індэксавацца, нягледзячы на не spindlas. Facebook было больш 2012000000 сакрэтныя URL-адрасы, якія змяшчаюць адрасы электроннай пошты, індэксаваная ў Google былі заблакаваныя robots.txt ( інфармацыя ).

Замест гэтага выкарыстоўвайце наступную працэдуру для прадухілення індэксацыі:

мета NOINDEX
X-Robots-Tag загаловак HTTP. ( інфармацыя )
Рэалізаваць Htpasswd на сэрвэры.
Блок у адваротным выпадку.

Савет!

Джым Вестергрен распрацаваў даменныя Статыстыка , Дзіўнае абслугоўванне ў SEO, дзе вы можаце ўбачыць знешнія спасылкі і многіх іншых Джым Вестергрен распрацаваў даменныя Статыстыка , Дзіўнае абслугоўванне ў SEO, дзе вы можаце ўбачыць знешнія спасылкі і многіх іншых.

прыклад

Блякаваньне ўсёй сайта ад усіх пошукавых сістэм:

User-Agent: * Disallow: /

Папка Temp Блок:

User-Agent: * Disallow: / Temp /

Блакаваць усе URL - адрасы, якія пачынаюцца з уліковай запісам:

User-Agent: * Disallow: / кошт

Каментары адзначаюцца з пачатковым #:

# Вось каментарый

Блок канкрэтных частак толькі ад Google:

User-Agent: Googlebot Disallow: / Temp / Disallow: / непатрэбныя / каталог смецця / Disallow: /private_file.html

Блок і выдаліць усе малюнкі з Google Image Search:

User-Agent: Googlebot-Image Disallow: /

Прымусіць робатаў чакаць 10 секунд паміж запытамі ў яго кволы:

User-Agent: * Абыход затрымкі: 10

Прадастаўленне дазволу на канкрэтны файл у адваротным выпадку несанкцыянаванай тэчкі:

User-Agent: * Disallow: / folder1 / Дазволіць: /mapp1/fil.html

Блакаваць усе робаты, акрамя Google:

User-Agent: * Disallow: / User-Agent: Googlebot Allow: /

Глядзіце, дзе ваш XML карта сайта (вы можаце ўвесці некалькі):

Карта сайта: HTTP: //www.din-domän.com/sitemap.xml карта сайта: HTTP: //www.din-domän.com/sitemap2.xml

Прыклады супастаўлення з узорам

Зорачкай (*) супадае з паслядоўнасцю знакаў, і знак даляра ($) паказвае на канец URL.

Блакаваць усе падкаталогі , якія пачынаюцца з прыватнымі:

User-Agent: * Disallow: / прыватная * /

Блакаваць усе URL-адрас на дамене, які заканчваецца на .gif:

User-Agent: * Disallow: /*.gif$

Блакаваць усе адрасы, якія ўключаюць знак пытання Уключае (?):

User-Agent: * Disallow: / *?

Блакаваць усе адрасы , якія змяшчаюць sessionids , але дазваляюць /hur-du-fixar-sessionid.html:

User-Agent: * Allow: /hur-du-fixar-sessionid.html Disallow: / * SessionID

Іншыя прыклады:

# Ставіцца да ўсяго User-Agent: * # Блакаваць усе ў ўліковага запісу тэчкі, але не URL / кошт / Disallow: / кошт / * # Блакаваць усе адрасы, якія пачынаюцца з / касай Disallow: / выпіска

Рэальны прыклад:

Прыклады для WordPress

User-Agent: * Disallow: / CGI-BIN / Disallow: / WP-адміністратара / Disallow: / WP-уключае / Disallow: / WP-ўтрыманне / ўбудовы / Disallow: / WP-ўтрыманне / кэш / Disallow: / WP-ўтрыманне / тэмы / Disallow: / Trackback / Disallow: / корм / Disallow: * / Trackback / Disallow: * / корм / # заўсёды пераканайцеся, што CSS і JavaScript ня заблякаваны: Дазволіць: /*.css$ Дазволіць: /*.js $ Карта сайта: http://www.exempel.se/sitemap.xml

Спіс агульных павукоў выкарыстоўваць з robots.txt

Googlebot - Google huvudbot для іх пошукавай сістэмы
Slurp - Yahoo!
MSNBot - Live Search
Медыя-партнёры Google - бот ад Google, які выкарыстоўваецца для AdSense
Googlebot-Image - бот ад Google выкарыстоўваецца Google для пошуку малюнкаў

Некаторыя парады і папярэджання

Ня блакіруйце CSS і Javascript, таму што тады вы не GoogleBot адлюстраваць старонку правільна, якая можа зрабіць ваш сайт карацца Panda.
Не выкарыстоўвайце robots.txt, каб блакаваць таемныя месцы, таму што хто-то з дапамогай браўзэра можна праглядаць ваш robots.txt адкрыты для ўсіх, і можа затым прыбой ў тых месцах, якія вы хочаце захаваць у таямніцы. У гэтым выпадку, хутчэй за META робаты або блакаваць на ўзроўні сервера, як з .htaccess ,
Не забудзьцеся ўключыць у / ў канцы тэчкі, якія вы хочаце заблакаваць - у адваротным выпадку заблакаваць усе файлы, якія пачынаюцца з гэтымі літарамі. Напрыклад, блакіроўка / TEMP / часовая тэчкі , а / тэмпература блакуюць усе файлы , якія пачынаюцца з тэмпам такі template.php.
Існуе розніца паміж вялікімі і малымі літарамі.
Шкоднасныя ботамі і павукоў, такіх як тыя, хто шукае адрасы электроннай пошты на спам ігнараваць ваш robots.txt.
Калі вы выкарыстоўваеце складаныя правілы, такія як супастаўленне з узорам, я рэкамендую вам праверыць свой файл robots.txt ў Інструменты для вэб-майстроў Google пад Crawl -> заблякаваныя URL , так што вы не зробіце памылку.
На старонкі вынікаў пошуку з ўнутранага пошуку амаль заўсёды будуць заблякаваныя ў файле robots.txt

субдоменов

Файл exempel.se/robots.txt не сапраўдны для blogg.exempel.se/robots.txt. Кожны субдомен павінен мець свой уласны файл robots.txt.

Мой досвед працы ў якасці кансультанта SEO

Найбольш распаўсюджаныя памылкі, якія я бачыў у маіх гадоў у якасці кансультанта SEO:

Ці з'яўляецца robots.txt
Шлях да XML-карта сайта адсутнічае.
Рэчы, якія павінны быць блакаваныя ня блакуюцца.