Сышышь ты, выходи сюда,
поговорим !

Мусорные страницы 404 оставленные парсерами

Опубликовано: 06.09.2018

Добрый день уважаемые читатели и гости сайта, сегодня я хочу с вами поговорить о такой проблеме как парсинге и его последствиях для вашего сайта. Как только ваш ресурс становится популярным, на него начинают охоту всякие сайты дорвеи  и парсинговые пауки, скачивающие ваш контент и генерируя на его основе свои говносайты, тем самым забивая интернет ворованным и дублирующим контентом, из-за чего может и пострадать ваш ресурс, и ладно бы просто парсили, так делают так, что в результате таких обходов, поисковые пауки оставляют кучу несуществующих страниц 404, которые попадают в индекс и плохо влияют на ваши позиции. Давайте смотреть как это находить и пресекать.

Для начала давайте поймем, чем это плохо:

Во-первых дубль контента, который не очень любит поисковая система, в результате чего может получиться так, что первоисточником будет считаться своровавший у вас сайт, а вы будите в роли вора, за что сразу получите пинальти от Google или Yandex. Из-за специфической работы различных движков, в результате парсинга могут появляться несуществующие 404 страницы, попадающие в индекс, все их вы не сможете закрыть в файле robots.txt, это не возможно. Поисковые системы не любят 404 ошибки и за это песемизируют сайты. Увеличивается нагрузка на хостинг

Как найти 404 страницы

Я уже подробно рассказывал про поиск несуществующих страниц сайта  тут лишь приведу примеры, как это выглядит:

В плагине перенаправление есть соответствующий раздел, в котором отображаются все эти пропавшие или несуществующие страницы WordPress (​/email-newsletter-signup​/, ​/elemente-fier-forjat​/vopsea-si-grund, ​/ever-thought-of-a-cell-phone-as-a-romantic-gift.html и другое барахло), обратите внимание, что все они идут с одного и того же ip адреса, который мы потом забаним.

И что самое плохое, поисковые системы это могут спокойно проглатывать, и закидывать в поисковый индекс. Вот пример Яндекса, через сервис webmaster. Тут вы видите два значения:

Загружено В поиске

Как видно, он загрузил почти 1000 страниц непонятного хлама.

Если в кабинете вебмастера зайти в пункт "Индексирование > Статистика обхода"

То отфильтровав код ответа на 404 (Not Found) вы можете посмотреть, что у вас не находится. В примере видно, что есть страницы у которых в конце формата jpg добавляется еще 1, и логично что вас такой не будет, и таких примеров очень много.

Теперь зная ip адрес злоумышленика вы легко сможете его заблокировать, как это делать я писал тут про файл .htaccess . Надеюсь вам пригодится эта маленькая заметка и вы сможете избежать кучи мусора на вашем ресурсе и выглядеть в глазах поисковой системы в хорошем свете.