robots.txt
- Jeśli nie masz pliku robots.txt
- Nie używaj robots.txt, aby zapobiec indeksowaniu!
- Wskazówka!
- przykład
- Przykład dopasowania wzoru
- Prawdziwe przykłady:
- Lista typowych pająków używanych w robots.txt
- subdomen
- Moje doświadczenie jako konsultant SEO
Plik robots.txt jest prostym plikiem tekstowym w katalogu głównym Twojej domeny, www.dindomän.se / robots.txt, który zawiera instrukcje dla wyszukiwarek w zakresie wrzeciona.
Jeśli nie masz pliku robots.txt
- Wszystkie wyszukiwarki i inne aplikacje, które rządzą internetem, mogą swobodnie uzyskiwać dostęp i indeksować wszystkie treści w witrynie.
- Wiele osób żąda tego pliku, a jeśli nie, może to negatywnie wpłynąć na wydajność witryny.
Zawsze zaleca się posiadanie takiego pliku, nawet jeśli jest on pusty (zezwalaj na wszystko), ponieważ wyszukiwarki go zażądają.
Wszystkie główne wyszukiwarki (Google, Yahoo, Live) i prawdopodobnie większość małych zgodziły się na wspólny standard i postępują zgodnie z instrukcjami podanymi w pliku robots.txt.
Nie używaj robots.txt, aby zapobiec indeksowaniu!
Indeksowanie i indeksowanie nie są takie same. Jeśli do adresu URL można uzyskać dostęp za pośrednictwem linku wewnętrznego lub zewnętrznego, z pewnością zostanie on zaindeksowany, nawet jeśli nie jest spindledowany. Facebook otrzymał miliony tajnych adresów URL zawierających adresy e-mail indeksowane w Google w 2012 r., Które zostały zablokowane przez robots.txt ( Informacje ).
Zamiast tego użyj poniższego, aby zapobiec indeksowaniu:
- Meta noindex
- Nagłówek HTTP X-Robots-Tag. ( Informacje )
- Zaimplementuj htpasswd na serwerze.
- Zablokuj inaczej.
Wskazówka!
Jim Westergren rozwinął się Statystyki domeny , niesamowita usługa w ramach SEO, w której możesz zobaczyć linki przychodzące i nie tylko.
przykład
Zablokuj całą witrynę ze wszystkich wyszukiwarek:
Agent użytkownika: * Disallow: /
Zablokuj temp folderu:
User-agent: * Disallow: / temp /
Zablokuj wszystkie adresy URL, zaczynając od konta :
Agent użytkownika: * Disallow: / account
Komentarze są oznaczone # wprowadzeniem:
# Oto komentarz
Blokuj określone części tylko przez Google:
User-agent: Googlebot Disallow: / temp / Disallow: / niepotrzebny / śmieciowy katalog / Disallow: /privat_file.html
Zablokuj i usuń wszystkie obrazy z Wyszukiwarki grafiki Google:
Agent użytkownika: Googlebot-Image Disallow: /
Zmuszaj roboty do odczekiwania 10 sekund między żądaniami w swoim pająku:
Agent użytkownika: * Opóźnienie indeksowania: 10
Zatwierdź konkretny plik w innym niezatwierdzonym folderze:
User-agent: * Disallow: / mapp1 / Allow: /mapp1/fil.html
Zablokuj wszystkie roboty z wyjątkiem Google:
Agent użytkownika: * Disallow: / User-agent: Googlebot Pozwól: /
Pokaż, gdzie znajduje się mapa witryny XML (możesz określić wiele):
Mapa strony: http: //www.din-domain.com/sitemap.xml Mapa witryny: http: //www.din-domain.com/sitemap2.xml
Przykład dopasowania wzoru
Gwiazdka (*) odpowiada sekwencji znaków, a znak dolara ($) oznacza koniec adresu URL.
Blokuj wszystkie katalogi, zaczynając od prywatnych :
User-agent: * Disallow: / private * /
Zablokuj wszystkie adresy URL w swojej domenie kończące się na .gif:
User-agent: * Disallow: /*.gif$
Zablokuj wszystkie adresy URL zawierające znak zapytania (?):
User-agent: * Disallow: / *?
Zablokuj wszystkie adresy URL zawierające sessionid, ale zezwalaj na /hur-du-fix-sessionid.html :
User-agent: * Allow: /hur-du-fixar-sessionid.html Disallow: / * sessionid
Więcej przykładów:
# Dotyczy wszystkich agentów użytkownika: * # Zablokuj wszystko, co znajduje się w folderze konta, ale nie URL / konto / Disallow: / account / * # Zablokuj wszystkie adresy zaczynające się od / checkout Disallow: / checkout
Prawdziwe przykłady:
Przykład dla WordPress
User-agent: * Disallow: / cgi-bin / Disallow: / wp-admin / Disallow: / wp-includes / Disallow: / wp-content / plugins / Disallow: / wp-content / cache / Disallow: / wp-content / themes / Disallow: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed / # Zawsze upewnij się, że CSS i Javascript nie są zablokowane: Allow: /*.css$ Allow: /*.js Mapa witryny $: http://www.example.com/sitemap.xml
Lista typowych pająków używanych w robots.txt
- Googlebot - główny bot Google'a dla ich wyszukiwarki
- Slurp - Yahoo!
- msnbot - Live Search
- Partnerzy medialni - Google - bot z Google używany w programie AdSense
- Googlebot Image - bot Google używany do wyszukiwania grafiki Google
Kilka rad i ostrzeżeń
- Nie powinieneś blokować CSS i Javascript, ponieważ Googlebot nie może poprawnie renderować strony, co może spowodować, że Twoja strona zostanie ukarana przez Pandę.
- Nie używaj pliku robots.txt do blokowania tajnych witryn, ponieważ każdy, kto ma przeglądarkę internetową, może zobaczyć plik robots.txt, który jest otwarty dla wszystkich, a następnie przeglądać miejsca, które chcesz zachować w tajemnicy. Jeśli tak, użyj go META robotów lub zablokuj na poziomie serwera, tak jak w przypadku .htaccess ,
- Pamiętaj, aby dołączyć / zamknąć foldery, które chcesz zablokować - w przeciwnym razie zablokujesz wszystkie pliki, które zaczynają się od tych liter. Na przykład folder / temp / blokuje temp, podczas gdy / temp blokuje wszystkie pliki, które zaczynają się od temp, takie jak template.php .
- Istnieje różnica między małymi i dużymi literami.
- Podświetlone dna i pająki, takie jak te, które szukają adresów e-mail do spamu, ignorują plik robots.txt.
- Jeśli używasz skomplikowanych reguł, na przykład dopasowywania wzorców, polecam przetestowanie pliku robots.txt Narzędzia Google dla webmasterów w obszarze Przeszukiwanie -> Zablokowane adresy URL, dzięki czemu nie popełniłeś błędu.
- Strony wyników wyszukiwania z wyszukiwania wewnętrznego prawie zawsze powinny być blokowane za pomocą robots.txt
subdomen
Przykładowy plik example.com/robots.txt nie jest prawidłowy dla bloga.example.com/robots.txt. Każda subdomena musi mieć własną robots.txt.
Moje doświadczenie jako konsultant SEO
Najczęstsze błędy, które widziałem przez lata jako konsultant SEO:
- Nie ma pliku robots.txt
- Brak ścieżki do mapy witryny XML.
- Rzeczy, które mają zostać zablokowane, nie są blokowane.