Сышышь ты, выходи сюда,
поговорим !

Глоссарий SEO-сканирования

  1. Почему сканирование так важно в SEO?
  2. Анализ журнала
  3. SEO определения
  4. SEO определение сканирования
  5. индексирование
  6. Скорость индексации
  7. Скорость сканирования
  8. Сканирование бюджета
  9. Критерии использования
  10. Частота сканирования
  11. Окно сканирования
  12. Внутренний Pagerank
  13. Бесполезные страницы
  14. Сиротские страницы (nomatch)
  15. Просканированная страница
  16. Активная страница
  17. глубина
  18. скребок
  19. Ловушка для пауков
  20. структура
  21. Некоторые SEO сканеры
  22. О Серже Эстевесе

Я не собираюсь делать список исчерпывающих определений SEO здесь, это было бы слишком долго, вероятно, скучно для не новичков, и есть много других статей, которые делают очень хорошо. Я скорее попытаюсь достичь лексикона терминов, используемых в продвинутых методах SEO сканирование и анализ логов для которого трудно найти определения. К ним относятся жаргон некоторых экспертов, используемый в основном в контексте анализа журналов и анализа сканирования.

Сканирование из поисковой системы - это шаг 1 (или почти) для получения органического трафика: нет сканирования> нет индексации> нет посещений. Его оптимизация представляет собой большой рычаг роста, особенно на больших сайтах, а также на средних сайтах (> 1000 страниц). Хорошо, давайте перейдем к этому небольшому глоссарию сканирования в SEO, который позволит вам узнать не только о его оптимизации, но и несколько советов.

Почему сканирование так важно в SEO?

Я не собираюсь делать список исчерпывающих определений SEO здесь, это было бы слишком долго, вероятно, скучно для не новичков, и есть много других статей, которые делают очень хорошо

Пирамида SEO

Во введении, чтобы полностью понять, что представляет собой сканирование Googlebot, мы рассмотрим его в перевернутой пирамиде, известной пирамиде SEO-ориентированной версии для сканирования (см. Выше):

  1. Потенциал сайта: это потенциал существующего контента и для которого можно создавать страницы. В базе данных сайт часто содержит много информации, но это не обязательно используется полностью, благодаря чему можно создавать страницы или обогащать содержимое.
  2. Представлено на сайте: Тогда у нас есть страницы, которые на самом деле онлайн и доступны в Интернете.
  3. Просмотренные страницы: у нас есть страницы, которые исследуются поисковыми системами. Пирамида продолжает уменьшаться, потому что онлайн-страницы редко видятся в Google, чтобы назвать только его. Глубина, техническая доступность, сетка, тормоза сканирования (паутинная ловушка, ...), ... несколько причин, по которым Google не может сканировать все страницы.
  4. Проиндексированные страницы: все страницы, сканируемые поисковыми системами, не обязательно индексируются. Например, Google уже начинает применять определенные критерии, чтобы судить, должна ли страница соответствовать своему индексу.
  5. Активные страницы: после того, как проиндексированные страницы, чтобы быть активными, они должны быть размещены на первой странице результатов движков для генерации посещений. Здесь также вступают в силу новые алгоритмические критерии.
  6. Эффективные страницы: после размещения необходимо, чтобы страницы хорошо реагировали на намерения пользователя
  7. Конверсия: последний шаг, убедитесь, что сайт приносит конверсии. Контент-маркетинг, пользовательский опыт вступают в игру именно на этом этапе.

Задача хорошего справочника - максимально расширить эту пирамиду и превратить ее в цилиндр (или, по крайней мере, тендер). Сканирование - не совсем первый шаг, как показано в этой пирамиде, но как только мы использовали потенциал сайта и определили страницы, которые должны быть размещены в Интернете, страницы для сканирования Google Это необходимо для правильного восприятия содержимого сайта.

Но это не так просто, дело не только в том, что Google проходит один раз на странице, есть также много других факторов, таких как частота сканирования, окно сканирования, ... чтобы принимать во внимание как мы увидим сразу после.

Анализ журнала

Веб-журналы - это файлы, которые ежедневно архивируют действия веб-сервера, на котором размещен сайт. Мы находим в этих файлах несколько сведений о переходе посетителей на сайт, прохождении GoogleBot (сканера Google), посещениях поисковых систем и т. Д. Мы находим в этой информации:

  • URL целевой страницы
  • URL источника (реферер)
  • код ответа страницы (код 404, код 200, ..)
  • вес страницы
  • дата прохождения гусеничного или посетителя,
  • и другие данные

Анализ логов в SEO позволяет, в частности, понять, как робот Googlebot сканирует сайт, и лучше понять восприятие сайта Google. И где становится действительно интересно, когда мы делаем комбинированный анализ crawl + logs. То есть, когда страницы, просматриваемые инструментом сканирования, объединяются со страницами, просматриваемыми Google. Это важный анализ для правильного аудита сайта, особенно если он большой.

SEO определения

Типы трейлинга (верх / средний / длинный хвост)

Небольшое напоминание об основах: Небольшое напоминание об основах:

  • Длинный хвост представляет запросы пользователей Интернета в поисковой системе через выражения более 4 слов в целом.
  • Средний хвост (средний хвост) от 3 до 4 слов
  • Верхний хвост (короткий хвост), запросы 1 или 2 слова

Другой, более точный, но более сложный способ определения типа тролля - сосредоточиться на поисковом потенциале каждого выражения. Чем выше исследовательский потенциал, тем короче тип тролля и короче хвост. Длинный хвост представляет все небольшие выражения, которые по отдельности представляют небольшое исследование, но чей объем запросов представляет наибольшую часть потенциала трафика сайта.

Оптимизация сканирования сайта имеет своей главной целью оптимизацию главным образом длинного и среднего конечного трафика сайта, а не оптимизацию 2 или 3 коротких выражений хвоста. Растущие проекты SEO, которые позволяют большие рычаги трафика, всегда в оптимизации длинного хвоста. И в любом случае, короткий хвост будет косвенно оптимизирован за счет оптимизации длинного хвоста и повышения хорошее качество netlinking ,

SEO определение сканирования

Чтобы устранить распространенную путаницу, мы должны различать сканер Google (Googlebot) и сканер SEO - инструмент, который пытается исследовать такой сайт, как Google.

Crawler - это робот (бот на английском языке), который исследует сеть для анализа или извлечения исследуемого содержимого. Сканеры поисковых систем, также известные как "пауки", предназначены для индексации и ранжирования веб-страниц на страницах их результатов. Сканер Google называется Googlebot.

Сканеры относятся не только к поисковым системам, почти 50% веб-трафика в мире составляют роботы всех типов, а остальные - люди. Это могут быть «хорошие боты», такие как сканеры поисковых систем, программное обеспечение для сканирования SEO, маркетинговые инструменты, агрегаторы каналов и т. Д.

Программное обеспечение для сканирования SEO, также называемое «поисковый SEO», пытается имитировать поведение сканера, такого как Googlebot, и извлекает из страниц некоторые данные, полезные для лучшего позиционирования этих страниц.

Но есть и плохие боты. Большая часть из них - это программы, которые передаются веб-браузерам с целью насыщения и отбрасывания веб-серверов, которые называются атаками типа «отказ в обслуживании» (DOS = отказ в обслуживании). В результате получается слово «сканер», которое просто относится к действию сканирования на странице, которое также можно перевести как «исследовать».

индексирование

Индексирование относится, в частности, к появлению веб-страницы в индексе поисковой системы, то есть к ее страницам результатов. Просканированная страница не обязательно индексируется. Например, робот Googlebot регулярно сканирует страницы без их индексации, если они не соответствуют критериям индексации.

Скорость индексации

Соотношение между объемом страниц сайта и объемом страниц, проиндексированных поисковой системой.

Скорость сканирования

Скорость сканирования

В контексте анализа сканирования это соотношение между страницами, присутствующими в структуре (страницы, просматриваемые программой сканирования), и страницами, просматриваемыми Google (страницы, просматриваемые Googlebot). Если скорость сканирования сайта составляет 50%, это означает, что Google видит только половину страниц в Интернете.

Google редко видит сайт на 100%, за исключением очень маленьких сайтов, которые увеличивают скорость сканирования, увеличивают скорость индексации и, следовательно, аудиторию сайта. Знание скорости сканирования требует анализа журнала. В приведенной выше таблице, из SEO-аудита для клиента, мы видим, что 9% URL-адресов сайта представляют 25% сканирования Google для 66% посещений. Или как закон Парето распространяется на SEO

Сканирование бюджета

У Google ограниченные и ограниченные ресурсы, и он может сканировать всю сеть, поэтому он выделяет ограниченное время на сканирование каждого сайта, бюджет сканирования. Google недавно подтвердил использование бюджета сканирования На бюджет сканирования влияют несколько критериев:

  • Внутренний PageRank
  • Популярность сайта
  • Свежесть контента
  • Скорость сайта
  • Глубина сайта

Некоторые критерии уменьшают бюджет сканирования как ненужные страницы. Google тратит время на эти бесполезные страницы за счет страниц с хорошим содержанием, которые могут вызывать посещения.

Критерии использования

Он объединяет критерии, используемые Google для измерения поведения пользователя на странице. Это критерий, который также влияет на сканирование Google. Если страница часто нажимается и часто используется пользователями, Google будет часто сканировать ее. Для получения дополнительной информации о том, как Google учитывает пользовательский опыт ,

Частота сканирования

Частота сканирования - это количество попыток Googlebot сканировать страницу за период времени. Мы также говорим о возрасте просканированных страниц, периоде между двумя обходами Google на странице. Google может сканировать до 50 раз одну и ту же страницу в день, если у нее большой интерес (например, очень популярная домашняя страница), и намного меньше. Частота сканирования страницы или категории страниц является отличным показателем интереса Google к этой странице или категории страниц. Если особенно важная категория страниц имеет низкую частоту сканирования, значит что-то не так:

  • Плохая сетка внутренних ссылок
  • Дублированный контент
  • Низкое качество контента

Окно сканирования

Окно сканирования

Это частота сканирования, необходимая для сайта, чтобы сформировать большую часть его аудитории (90%). Если 90% аудитории сайта создается страницами, просканированными Google за 7 дней, окно сканирования составляет 7 дней. Это также означает, что для посещения страницы она должна сканироваться Google не реже одного раза в неделю. Можно также сказать, что в этом случае возраст активных страниц составляет 7 дней, то есть страницы, которые посещают, были просмотрены Google 7 дней назад.

На графике выше мы видим, что возраст активных страниц составляет 7 дней до июня, а затем 15 дней. Сайт был оптимизирован для предоставления более длинного хвостового контента, в том числе, который удлинил окно сканирования. В общем, окно сканирования часто колеблется от 7 до 15 дней, за исключением очень длинных сайтов с более широким окном, до 3 месяцев для некоторых форумов, таких как Doctissimo.

Таким образом, мы понимаем интерес этого индикатора и таким образом гарантируем, что страницы, генерирующие трафик, сканируются в этом окне сканирования. Если из окна сканирования выходит много URL-адресов для сканирования, то есть возраст активных страниц больше, чем у окна, возникает проблема.

Для простоты я дал здесь определение окна сканирования на уровне сайта, но в действительности оно варьируется от одной категории страниц к другой. Статьи или списки продуктов, которые с точки зрения логики отстают от длинной цели SEO, будут иметь более длительное окно для сканирования, чем страница категории, которая теоретически отстает от верхней или средней цели.

Внутренний Pagerank

Внутренний PageRank (PRI) - это симуляция традиционного Google PageRank, рассчитанная некоторыми поисковыми роботами. Он учитывает только внутренние ссылки внутри структуры сайта, а не входящие ссылки с других сайтов. Это данные, которые направлены на то, чтобы лучше понять, как строится структура сайта и, таким образом, лучше разбалансировать его.

Мы также говорим о PRC (страницах Pagerank, отсканированных Google), которые учитывают только те страницы, которые фактически просматривает Google, а не все доступные страницы сайта, как для PRI. Я сделал целую статью, для более подробной информации я отсылаю вас к этой статье, которая также касается анализ входящих ссылок и внутренней сетки

Бесполезные страницы

Бесполезная страница - это страница, которая не имеет цели SEO и / или может нанести ущерб SEO сайта. Это не обязательно бесполезно для пользователя. Среди бесполезных страниц мы находим повторяющиеся страницы, страницы с ошибками, программные 404, страницы с низким добавленным значением, некоторые перенаправления, ловушку для пауков, ...

Сиротские страницы (nomatch)

Сиротские страницы (nomatch)

Потерянная страница или nomatch - это страница, которую видит Google, но пользователь или сканер не могут найти ее, изучив сайт. Потерянная страница, поскольку она находится за пределами структуры сайта и больше не получает выгоды от внутреннего поиска страниц, естественно, имеет потенциал для снижения трафика. Другая проблема, особенно если их много, - это трата сканирования роботом Google, созданная за счет сканирования страниц в структуре сайта.

Учитывая квоту сканирования Google, если Google тратит больше времени на сканирование страниц с небольшим потенциалом трафика (в автономном режиме), он будет тратить меньше времени на сканирование страниц с большим потенциалом трафика (в структуре). Некоторые страницы-сироты являются законными страницами с истекшим сроком действия (листами продуктов), но возникает проблема, если они остаются сиротами в течение длительного времени и слишком сильно конкурируют со страницами в структуре. Проблемные сиротские страницы могут быть:

  • Страницы старой версии сайта, не перенаправленные после миграции и дополнительно дублированные новыми страницами
  • Страницы с истекшим сроком действия, которые всегда отвечают кодом 200 вместо перенаправления или отправки кода ошибки (404 или 410)
  • Проблема с генерацией URL в карте сайта XML

Просканированная страница

Просматриваемая страница - это страница, просканированная программным обеспечением для сканирования и / или роботом Google. Важно отличать страницу, сканированную сканером, инструментом, имитирующим Google, от страницы, сканированной роботом Google.

Активная страница

Страница, которая выполнила хотя бы одно органическое посещение (из поисковой системы) за определенный период. Возраст активной страницы - это средний промежуток времени между двумя обходами Google, чтобы совершить хотя бы одно посещение.

глубина

Количество кликов для перехода на страницу с главной страницы. Домашняя страница обычно имеет глубину 0, и каждый щелчок для перехода на более глубокую страницу добавляет еще одну глубину. Например, страница, доступная в 5 кликов с домашней страницы, имеет глубину 5. Это важный критерий, который влияет на скорость сканирования и потому, что активная скорость страницы имеет тенденцию к снижению с уровнем глубины.

скребок

Действие, выполняемое инструментами или именем, данным этим инструментам для извлечения данных с веб-сайта. Это специализация искателя, специфичная для этой задачи извлечения. Скребок используется SEO или маркетинговыми инструментами, во всем мире для реверс-инжиниринга или для создания технологических или конкурентных часов (например, для мониторинга цен конкурентов).

Ловушка для пауков

Ловушка для пауков

Ловушка для пауков определяет большое количество URL, отсканированных Google, но без какой-либо дополнительной ценности или без привлечения большего количества контента, чем исходный URL. Мы находим классические примеры ловушек для пауков:

  • Календари . Например, на одном из моих сайтов, посвященных аренде жилья, календарь генерировал множество ссылок на каждую дату на страницы, которые не имели отношения к SEO. Гугл торопился, так и не увидев конца.
  • Бесконечные URL-адреса (см. Скриншот выше): это «ошибки» в относительных ссылках, которые генерируют новые URL-адреса в бесконечность.
  • Фасетная навигация : часто встречается на сайтах электронной коммерции, это URL-адреса, соответствующие «почти бесконечным» комбинациям различных фильтров или фасетов.
  • URL-адреса идентификатора сеанса . Для сбора информации о просмотре пользователем некоторые сайты используют идентификаторы сеанса. Проблемы реализации могут генерировать новый идентификатор сеанса при каждом посещении одного URL, создавая ловушку для пауков.

структура

Структура сайта представляет все страницы, доступные по крайней мере с одной внутренней ссылки с любой страницы, доступной прямо или косвенно с домашней страницы. В результате страница, которая не доступна по ссылке на сайт, рассматривается вне структуры (nomatch). Хорошо, что у вас есть хорошая база, чтобы следовать моим следующим статьям, не забывайте бюллетень

Некоторые SEO сканеры

Чтобы сканировать сайт, нет выбора, вы должны пройти через инструмент, сканер, который будет исследовать все страницы, доступные на сайте. Botify , oncrawl, screaming frog, и т. д. ... Для анализа журналов сайта, есть инструменты, подобные предыдущим инструментам, которые также предлагают версии анализа журналов, часто дорогие, особенно если только для конкретного анализа. Есть также инструменты с открытым исходным кодом, такие как logz.io, Graylog , Kibana , которые требуют навыков Linux и хорошей кривой обучения. Вы также можете использовать команды linux и выполнять процедуры Excel, которые могут занимать довольно много времени. Если меня это заинтересует, я могу написать статью, отпустить ваш комментарий.

О Серже Эстевесе

Консультант по SEO / веб-маркетингу: передовые методы SEO в сочетании с рычагами входящего маркетинга (SMO, контент-маркетинг, UX, ereputation, ..).

Почему сканирование так важно в SEO?
Почему сканирование так важно в SEO?