Сышышь ты, выходи сюда,
поговорим !

Деякі особливості індексації сайту роботами Яндекса

1.
2.
3.
4.
5.
6.

1. Вступ

Яндекс сьогодні є найпопулярнішою пошуковою системою російськомовного Інтернету, якій кожен день користується понад мільйон осіб. Така популярність пояснюється тим, що база Яндекса містить величезну кількість проіндексованих сторінок Інтернету, що містять найрізноманітнішу і часом унікальну інформацію. Укупі з алгоритмом пошуку це призводить до високої релевантності документів, знайдених за запитом користувача і, в кінцевому рахунку, до повного задоволення інформаційної потреби користувача.

На 17.07.06 Яндексом було проіндексовано 1 058 914 756 веб-сторінок. Отримання інформації з сайтів Інтернету і відправка її в базу пошукової системи - завдання спеціального робота-індексатора. Багато в чому завдяки високій швидкості його роботи на сьогоднішній день Яндекс має таку велику базу документів для пошуку.

2. Історія роботів Яндекса

Яндекс з'явився в 1996 році. Але не в якості пошукової системи, а у вигляді декількох відокремлених продуктів. Наприклад, Яndex.Site - програма, яка виробляє пошук на сайті, Яndex.CD - програма пошуку документів на сd-диску.

Сама ж пошукова система виникла восени 1997 року. 23 вересня на виставці Softool Яндекс був офіційно представлений вже в якості повноцінної пошукової системи Інтернету. З тих пір обсяг Рунета безперервно зростав, що змушувало удосконалювати алгоритми індексування і пошуку інформації.

Тому в 1999 році був створений новий пошуковий робот, який крім значного збільшення швидкості індексації дозволив користувачам шукати інформацію по різних зонах документа - в URL, в заголовках, в посиланнях і т.п.

Зараз офіційно анонсовано 11 роботів Яндекса, кожен з яких спеціалізується на певній задачі.

3. Роботи Яндекса

Робот кожної пошукової системи має своє ім'я. Наприклад, у Рамблера - «StackRambler / 2.0», у Гугла - «Googlebot / 2.1». Яндекс в своєму складі має кілька спеціалізованих роботів, які виконують строго певні завдання. Ось яких роботів Яндекса можна зустріти:

  1. Yandex / 1.01.001 (compatible; Win16; I) - основний індексує робот Яндекса. Це найважливіший робот, функція якого - пошук і індексування інформації, знайденої на просторах російського Інтернету. Для всіх seo-фахівців дуже важливо відстежувати появу на своїх сайтах робота-індексатора. Зазвичай робот заходить зі наступних ip-адрес: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Тому, побачивши в логах свого сайту заповітне слово yandex, зверніть свою увагу на ip-адреса, тому як в Інтернеті зараз існує достатня велика кількість сервісів тестування сайту, які дозволяють заходити на сторінки, представляючись як user agent: Yandex / 1.01.001 (compatible ; Win16; I) Може виявитися, що зовсім і не Яндекс відвідав Ваш сайт.
  2. Yandex / 1.01.001 (compatible; Win16; P) - індексатор картинок, які згодом будуть доступні в пошуку на. Для пошукової системи найпростішим шляхом визначення, чи відповідає картинка запитом користувача, є аналіз тега alt. Другий шлях, який як і перший швидше за все використовує сервіс Яндекс.Зображення - аналіз імені файлу. Наприклад, подивіться на чудові лотоси на сторінці. Жодної згадки слова «лотос» в тілі документа, однак картинка все-таки була знайдена за запитом «лотос» завдяки тому, що файл має ім'я lotos.jpg!
  3. Yandex / 1.01.001 (compatible; Win16; H) - робот, який визначає дзеркала сайтів. Завдання цього робота - визначення ступеня схожості двох документів. Якщо документи дуже схожі один на одного, в результатах видачі Яндекс швидше за все покаже тільки один сайт.
  4. Yandex / 1.03.003 (compatible; Win16; D) - робот, який визначає доступність сторінки для індексації при додаванні її через форму.
  5. Yandex / 1.03.000 (compatible; Win16; M) - робот, який звертається при відкритті сторінки за посиланням «Знайдені слова».
  6. YaDirectBot / 1.0 (compatible; Win16; I) - робот, що індексує сторінки сайтів, що беруть участь в.
  7. Yandex / 1.02.000 (compatible; Win16; F) - робот, що індексує іконки сайтів (favicons), які показуються потім в результатах пошуку зліва від посилання на знайдений сайт.

Крім того у Яндекса є група роботів, які визначають, чи доступний в даний момент сайт або документ, на який стоїть посилання у відповідному сервісі.

  1. Yandex / 2.01.000 (compatible; Win16; Dyatel; C) - «простуківалка» Яндекс.Каталогу. Якщо сайт недоступний протягом декількох днів, він знімається з публікації. Як тільки сайт починає відповідати, він автоматично з'являється в Каталозі.
  2. Yandex / 2.01.000 (compatible; Win16; Dyatel; Z) - «простуківалка» Яндекс.Закладок. Посилання на недоступні сайти позначаються сірим кольором.
  3. Yandex / 2.01.000 (compatible; Win16; Dyatel; D) - «простуківалка» Яндекс.Директу. Вона перевіряє коректність посилань з оголошень перед модерацією. Ніяких автоматичних дій не робиться.
  4. Yandex / 2.01.000 (compatible; Win16; Dyatel; N) - «простуківалка» Яндекс.Новостей. Вона формує звіт для контент-менеджера, який оцінює масштаб проблем і, при необхідності, зв'язується з партнером.

На відміну від роботів першої групи, ці роботи не забирають вміст сторінки, а фіксують лише відповідь сервера. Тому вони роблять дещо інший запит до сервера. Наприклад, відвідування робота Dyatel може бути зафіксовано в логах сервера у вигляді рядка такого змісту:

213.180.193.53 - - [02 / Jun / 2006: 02: 22: 00 +0400] "HEAD / HTTP / 1.0" 200 0 "-" "Yandex / 2.01.000 (compatible; Win16; Dyatel; C)".

Як видно, використовується директива Head, яка запитує тільки заголовки сервера. В даному випадку сайт доступний, так як був повернутий статусний код 200 ОК.

Крім перерахованих роботів, у Яндекса є так званий «швидкого робота» - частота індексації їм документа більше в кілька разів, ніж у звичайного робота-індексатора. За заявою головного редактора компанії "Яндекс" Олени Колмановського: «Швидкий робот потрібен для індексації актуальних документів, найбільш затребуваних користувачами».

Дізнатися, чи відвідував сайт швидкий робот, можна тільки одним шляхом - в результатах пошуку поруч з адресою сторінки сайту повинна з'явитися невелика приписка, що позначає, скільки годин назад сторінку відвідав швидкий робот. Наприклад, «5 годин тому».

4. Процес індексації документа

Процес індексації документа роботами пошукових систем як правило починається з додавання сайту в форму на спеціальній сторінці. Для Яндекса це сторінка. Тут потрібно ввести лише адресу сайту, ніяких додаткових даних вносити не потрібно. А ось в Рамблері, наприклад, потрібно вказувати ще і назва сайту, короткий опис реєстрованого сайту і контактну особу.

Якщо сайт додається вперше, то Яндекс видасть повідомлення:

«Звідки успішно доданий. У міру обходу робота він буде проіндексований і стане доступним для пошуку »

Якщо сайт вже відвідували роботом-индексатором, то з'явиться повідомлення:

Документ вже проіндексовані і доступний для пошуку.
Ви можете подивитися, які сторінки сайту доступні в Яндексі до теперішнього часу (* сторінок).

Після додавання нового сайту через форму, його тут же відвідає робот Yandex / 1.03.003 (compatible; Win16; D). Він визначить доступність сайту для індексування, а також встановить, чи задовольняє сайт вимогам Яндекса, основним з яких є вимога російськомовність ресурсу. Тому, як приклад, може виникнути така ситуація:

Адресу не був внесений в базу Яндекса, так як сайт знаходиться поза доменів країн СНД, при цьому наш робот не зміг розпізнати в ньому російський текст.

Якщо ж все добре, то в логах сайту можна буде виявити рядок:

213.180.206.223 - - [18 / Jul / 2006: 10: 22: 08 +0400] "GET / robots.txt HTTP / 1.1 "404 296" - "" Yandex / 1.03.003 (compatible; Win16; D) "
213.180.206.223 - - [18 / Jul / 2006: 10: 22: 08 +0400] "GET / HTTP / 1.1" 200 2674 "-" "Yandex / 1.03.003 (compatible; Win16; D)"

Видно, що спочатку робот звернувся до файлу robots.txt щоб визначити, чи не заборонений сайт до індексації. Потім вже звернувся до головної сторінки.

Після додавання сайту на сторінці менш ніж через два дні сайт відвідає робот-індексатор Yandex / 1.01.001 (compatible; Win16; I). І ще через деякий час сайт буде доступний для пошуку в Яндексі.

5. Можливі перешкоди при індексації документа

Є кілька причин, що перешкоджають правильній індексації сайту в Яндексі.

  1. Технічні неполадки:
      a. Некоректна робота сервера, віддача 404 помилки. b. великий час відповіді сервера (Наприклад, через його великий завантаження. Також великий час відповіді характерно для безкоштовних хостингів)
  2. Штучний заборона індексації:
      a. заборона індексування окремих сторінок у файлі robots.txt b. заборона індексування за допомогою meta-тегів
  3. Інше:
      a. дуже маленький розмір сторінки (Яндекс не індексує файли менше 1 кб) b. ресурс не містить російський текст

6. Висновок

Слід зазначити, що Яндекс індексує не тільки документи html. Крім них доступними для індексації є документи наступних типів: PDF (файл Adobe Acrobat), DOC (MS Word), RTF (Reach text format). Також Яндекс індексує сайти, створені на основі Flash-технологій. А ось Рамблер індексує тільки файли html, htm, shtml, а динамічні сторінки і flash сайти індексує погано.

Переглянути, в якому вигляді зберігається web-сторінка в базі Яндекса, можна наступним чином.

  1. Спочатку потрібно зробити так, щоб сторінка потрапила в видачу. Найпростіше скористатися «розширеним пошуком Яндекса». Вписати в поле «знаходяться на сайті» url сайту, наприклад, і далі в вікно пошуку ввести слово з необхідною сторінки, наприклад, «майстер-клас».
  2. Знайти в результатах пошуку потрібну сторінку і натиснути на посилання «знайдені слова».
  3. Далі у верхній частині документа натиснути на посилання «збережена копія»: 1
  4. У новому вікні відкриється так звана «збережена копія Яндекса». Можна подивитися і порівняти з оригіналом документа. Може виявитися, що деякі слова Яндекс не проіндексовані.

Неіндексацію деяких елементів сторінки може бути викликана кількома причинами:

  1. Текст укладений в тег . Це спеціальний тег, який забороняє індексацію тексту роботу Яндекса.
  2. Текст розташований в скрипті, тобто між тегами
  3. Текст розташований в коментарях

Кожному, хто веде в Інтернеті серйозний проект, необхідно розуміти основні принципи роботи роботів-індексаторів пошукових систем. Знання про те, коли робот приходить на сайт, що індексує, що не індексують, дозволить уникнути багатьох проблем, перш за все технічних, вже на стадії створення сайту і далі - при його супроводі.

Щоб не шукати відповіді на запитання, чому в черговий раз сайт пропав з видачі по деякому запиту, перш за все, варто проаналізувати, а що ж на даний момент проіндексував робот на сайті? Чи не могло виявитися так, що деяка інформація стала недоступна роботу з тих чи інших причин?

Знання основних моментів процесу індексування документа дозволить правильно зробити реєстрацію ресурсу в пошуковій системі і грамотно здійснювати його подальше просування, щоб користувачі завжди знаходили Ваш сайт на просторах Інтернету.

Щоб не шукати відповіді на запитання, чому в черговий раз сайт пропав з видачі по деякому запиту, перш за все, варто проаналізувати, а що ж на даний момент проіндексував робот на сайті?
Чи не могло виявитися так, що деяка інформація стала недоступна роботу з тих чи інших причин?