robots.txt
- Калі ў вас няма файла robots.txt
- Не варта выкарыстоўваць robots.txt для прадухілення індэксацыі!
- Савет!
- прыклад
- Прыклады супастаўлення з узорам
- Рэальны прыклад:
- Спіс агульных павукоў выкарыстоўваць з robots.txt
- субдоменов
- Мой досвед працы ў якасці кансультанта SEO
Файл robots.txt ўяўляе сабой просты тэкставы файл у каранёвым каталогу вашага дамена, так як www.yourdomain.com / robots.txt, які дае інструкцыі для пошукавых сістэм аб тым, як яны могуць індэксаваць.
Калі ў вас няма файла robots.txt
- Усе пошукавыя сістэмы і іншыя прыкладання, што павукі ў Інтэрнэце бясплатна атрымаць доступ і прасканаваць усё ўтрыманне на вашым сайце.
- Шмат хто задае гэты файл, і калі гэта так, гэта можа негатыўна паўплываць на прадукцыйнасць вашага сайта.
Заўсёды рэкамендуецца, што ў вас ёсць такі файл, нават калі ён пусты (дазволіць усе), таму што пошукавыя сістэмы будуць прасіць за яго.
Усе асноўныя пошукавыя сістэмы (Google, Yahoo, Live) і, верагодна, большасць малых ўзгаднілі агульны стандарт і прытрымлівацца інструкцый, якія Вы маеце на файле robots.txt.
Не варта выкарыстоўваць robots.txt для прадухілення індэксацыі!
Кволы (паўзком) і індэксацыя не тое ж самае. Калі URL можна атрымаць па ўнутранай або знешняй спасылцы, яна, безумоўна, будзе індэксавацца, нягледзячы на не spindlas. Facebook было больш 2012000000 сакрэтныя URL-адрасы, якія змяшчаюць адрасы электроннай пошты, індэксаваная ў Google былі заблакаваныя robots.txt ( інфармацыя ).
Замест гэтага выкарыстоўвайце наступную працэдуру для прадухілення індэксацыі:
- мета NOINDEX
- X-Robots-Tag загаловак HTTP. ( інфармацыя )
- Рэалізаваць Htpasswd на сэрвэры.
- Блок у адваротным выпадку.
Савет!
Джым Вестергрен распрацаваў даменныя Статыстыка , Дзіўнае абслугоўванне ў SEO, дзе вы можаце ўбачыць знешнія спасылкі і многіх іншых.
прыклад
Блякаваньне ўсёй сайта ад усіх пошукавых сістэм:
User-Agent: * Disallow: /
Папка Temp Блок:
User-Agent: * Disallow: / Temp /
Блакаваць усе URL - адрасы, якія пачынаюцца з уліковай запісам:
User-Agent: * Disallow: / кошт
Каментары адзначаюцца з пачатковым #:
# Вось каментарый
Блок канкрэтных частак толькі ад Google:
User-Agent: Googlebot Disallow: / Temp / Disallow: / непатрэбныя / каталог смецця / Disallow: /private_file.html
Блок і выдаліць усе малюнкі з Google Image Search:
User-Agent: Googlebot-Image Disallow: /
Прымусіць робатаў чакаць 10 секунд паміж запытамі ў яго кволы:
User-Agent: * Абыход затрымкі: 10
Прадастаўленне дазволу на канкрэтны файл у адваротным выпадку несанкцыянаванай тэчкі:
User-Agent: * Disallow: / folder1 / Дазволіць: /mapp1/fil.html
Блакаваць усе робаты, акрамя Google:
User-Agent: * Disallow: / User-Agent: Googlebot Allow: /
Глядзіце, дзе ваш XML карта сайта (вы можаце ўвесці некалькі):
Карта сайта: HTTP: //www.din-domän.com/sitemap.xml карта сайта: HTTP: //www.din-domän.com/sitemap2.xml
Прыклады супастаўлення з узорам
Зорачкай (*) супадае з паслядоўнасцю знакаў, і знак даляра ($) паказвае на канец URL.
Блакаваць усе падкаталогі , якія пачынаюцца з прыватнымі:
User-Agent: * Disallow: / прыватная * /
Блакаваць усе URL-адрас на дамене, які заканчваецца на .gif:
User-Agent: * Disallow: /*.gif$
Блакаваць усе адрасы, якія ўключаюць знак пытання Уключае (?):
User-Agent: * Disallow: / *?
Блакаваць усе адрасы , якія змяшчаюць sessionids , але дазваляюць /hur-du-fixar-sessionid.html:
User-Agent: * Allow: /hur-du-fixar-sessionid.html Disallow: / * SessionID
Іншыя прыклады:
# Ставіцца да ўсяго User-Agent: * # Блакаваць усе ў ўліковага запісу тэчкі, але не URL / кошт / Disallow: / кошт / * # Блакаваць усе адрасы, якія пачынаюцца з / касай Disallow: / выпіска
Рэальны прыклад:
Прыклады для WordPress
User-Agent: * Disallow: / CGI-BIN / Disallow: / WP-адміністратара / Disallow: / WP-уключае / Disallow: / WP-ўтрыманне / ўбудовы / Disallow: / WP-ўтрыманне / кэш / Disallow: / WP-ўтрыманне / тэмы / Disallow: / Trackback / Disallow: / корм / Disallow: * / Trackback / Disallow: * / корм / # заўсёды пераканайцеся, што CSS і JavaScript ня заблякаваны: Дазволіць: /*.css$ Дазволіць: /*.js $ Карта сайта: http://www.exempel.se/sitemap.xml
Спіс агульных павукоў выкарыстоўваць з robots.txt
- Googlebot - Google huvudbot для іх пошукавай сістэмы
- Slurp - Yahoo!
- MSNBot - Live Search
- Медыя-партнёры Google - бот ад Google, які выкарыстоўваецца для AdSense
- Googlebot-Image - бот ад Google выкарыстоўваецца Google для пошуку малюнкаў
Некаторыя парады і папярэджання
- Ня блакіруйце CSS і Javascript, таму што тады вы не GoogleBot адлюстраваць старонку правільна, якая можа зрабіць ваш сайт карацца Panda.
- Не выкарыстоўвайце robots.txt, каб блакаваць таемныя месцы, таму што хто-то з дапамогай браўзэра можна праглядаць ваш robots.txt адкрыты для ўсіх, і можа затым прыбой ў тых месцах, якія вы хочаце захаваць у таямніцы. У гэтым выпадку, хутчэй за META робаты або блакаваць на ўзроўні сервера, як з .htaccess ,
- Не забудзьцеся ўключыць у / ў канцы тэчкі, якія вы хочаце заблакаваць - у адваротным выпадку заблакаваць усе файлы, якія пачынаюцца з гэтымі літарамі. Напрыклад, блакіроўка / TEMP / часовая тэчкі , а / тэмпература блакуюць усе файлы , якія пачынаюцца з тэмпам такі template.php.
- Існуе розніца паміж вялікімі і малымі літарамі.
- Шкоднасныя ботамі і павукоў, такіх як тыя, хто шукае адрасы электроннай пошты на спам ігнараваць ваш robots.txt.
- Калі вы выкарыстоўваеце складаныя правілы, такія як супастаўленне з узорам, я рэкамендую вам праверыць свой файл robots.txt ў Інструменты для вэб-майстроў Google пад Crawl -> заблякаваныя URL , так што вы не зробіце памылку.
- На старонкі вынікаў пошуку з ўнутранага пошуку амаль заўсёды будуць заблякаваныя ў файле robots.txt
субдоменов
Файл exempel.se/robots.txt не сапраўдны для blogg.exempel.se/robots.txt. Кожны субдомен павінен мець свой уласны файл robots.txt.
Мой досвед працы ў якасці кансультанта SEO
Найбольш распаўсюджаныя памылкі, якія я бачыў у маіх гадоў у якасці кансультанта SEO:
- Ці з'яўляецца robots.txt
- Шлях да XML-карта сайта адсутнічае.
- Рэчы, якія павінны быць блакаваныя ня блакуюцца.