Сышышь ты, выходи сюда,
поговорим !

SEO: как работают поисковые системы

  1. Сканирование и индексация
  2. Возврат результатов поиска

Поисковые системы бродят по сети, просеивая миллиарды точек данных, чтобы за считанные секунды подать информацию. Доступ к мгновенной информации, которую мы считаем само собой разумеющимся, основан на огромной системе поиска данных и программного обеспечения.

Google был самым откровенным о том, как работает его поисковая система, поэтому я буду использовать его в качестве примера.

На самом простом уровне поисковые системы делают две вещи.

  • Указатель информации. Откройте для себя и храните информацию о 30 триллионах отдельных страниц в World Wide Web.
  • Вернуть результаты. С помощью сложной серии алгоритмов и машинного обучения выявляйте и отображайте поисковику страницы, наиболее соответствующие его поисковому запросу.

Сканирование и индексация

Как Google нашел 30 миллионов веб-страниц? В течение последних 18 лет Google сканировал Интернет постранично. Программа, называемая сканером, также называемая роботом, ботом или пауком, начинается с начального набора веб-страниц. Чтобы запустить сканер, человек вводит начальный набор страниц, предоставляя контент сканера и ссылки для индексации и отслеживания. Программное обеспечение Google для сканирования называется Googlebot, Bing - Bingbot, а Yahoo использует Slurp.

Когда бот встречает страницу, он захватывает информацию на этой странице, включая текстовое содержимое, HTML-код, который отображает страницу, информацию о том, как страница связана с ней, и страницы, на которые он ссылается.

По мере сканирования робот Googlebot обнаруживает все больше и больше ссылок. На изображении ниже показана очень упрощенная схема одного, трехстраничного пути сканирования на сайте электронной торговли Jerry's Artarama.

На изображении ниже показана очень упрощенная схема одного, трехстраничного пути сканирования на сайте электронной торговли Jerry's Artarama

Пример простого пути сканирования на Jerrysartarama.com.

Логотип слева указывает на начальную точку на главной странице сайта, где робот Google встречает 184 ссылки: 10 из перечисленных и еще 174. Когда робот Google переходит по ссылке «Акриловые краски и материалы» в заголовке навигации, он обнаруживает другую страницу. На странице «Акриловые краски и среды» есть 135 ссылок. Когда робот Googlebot переходит по ссылке на другую страницу, например, «Акриловые и средние материалы Winsor & Newton», он встречает 108 ссылок. На этом пример заканчивается, но сканеры продолжают получать доступ к страницам по ссылкам на каждой обнаруженной ими странице, пока не будут обнаружены все страницы, которые считаются релевантными.

В процессе сканирования сайта боты будут неоднократно сталкиваться с одними и теми же ссылками. Например, ссылки в верхнем и нижнем колонтитулах должны быть на каждой странице. Вместо повторного просмотра контента за одно посещение робот Google может просто заметить связь между двумя страницами на основе этой ссылки и перейти к следующей уникальной странице.

Вся информация, собранная во время сканирования - для 30 триллионов веб-страниц - хранится в огромных базах данных в огромных центрах обработки данных. Чтобы получить представление о масштабах всего лишь одного из 15 центров обработки данных, посмотрите официальный видеоролик Google «Внутри центра обработки данных Google».

По мере того, как боты сканируют информацию, она сохраняется в индексе внутри центров обработки данных. Индекс организует информацию и сообщает алгоритмам поисковой системы, где найти соответствующую информацию при возврате результатов поиска.

Но индекс не похож на темный шкаф, в который все заполняется случайным образом при сканировании. Индексация аккуратна, с обнаруженной информацией веб-страницы, хранящейся вместе с другой соответствующей информацией, такой как, является ли контент новой или обновленной версией, контекстом контента, структурой ссылок в пределах того определенного веб-сайта и остальной части сети, синонимами для слова в тексте, когда страница была опубликована и содержит ли она изображения или видео.

Возврат результатов поиска

Результаты отображаются после поиска чего-либо в поисковой системе. Каждая отображаемая веб-страница называется результатом поиска, а порядок отображения результатов поиска называется ранжированием.

Но как только информация сканируется и индексируется, как Google решает, что показывать в результатах поиска? Ответ, конечно, является тщательно охраняемым секретом.

То, как поисковая система решает, что отображать, слабо называется ее алгоритмом. Каждая поисковая система использует собственные алгоритмы, которые она разработала, чтобы максимально быстро извлекать наиболее релевантную информацию из своих индексов, чтобы отображать ее так, чтобы ее поисковики-люди сочли ее наиболее полезной.

Например, старший стратег Google Search Quality Андрей Липацев недавно подтверждено что тремя основными факторами поиска Google являются контент, ссылки и RankBrain, система искусственного интеллекта с машинным обучением. Независимо от того, что каждая поисковая система называет своим алгоритмом, основные функции современных алгоритмов поисковой системы похожи.

Контент определяет контекстную релевантность. Слова на странице в сочетании с контекстом, в котором они используются, и страницами, с которыми они связаны, определяют, как содержимое хранится в индексе и на какие поисковые запросы он может отвечать.

Ссылки определяют авторитет и актуальность. В дополнение к обеспечению пути для сканирования и обнаружения нового контента, ссылки также действуют как авторитетные сигналы. Авторитетность определяется путем измерения сигналов, связанных с релевантностью и качеством страниц, ссылающихся на каждую отдельную страницу, а также с релевантностью и качеством страниц, на которые ссылается эта страница.

Алгоритмы поисковой системы объединяют сотни сигналов с машинным обучением, чтобы определить соответствие между контекстом и авторитетом каждой страницы и запросом поисковика, чтобы отобразить страницу результатов поиска. Страница должна быть среди первых семи-десяти наиболее подходящих страниц по алгоритму, как по контексту, так и по авторитетности, чтобы отображаться на первой странице результатов поиска.

Но как только информация сканируется и индексируется, как Google решает, что показывать в результатах поиска?