Індексація сайту в Яндекс і Google, налаштування, перевірка, прискорення індексації
- Що таке індексація сайту і краулінговий бюджет?
- Способи управління індексацією сайту
- канонічні сторінки
- Robots.txt
- Мета-тег Robots
- Які сторінки необхідно закривати від індексації?
- Перевірка проіндексованих сторінок
- Перевірка індексації в панелях Вебмастера Яндекса і Google
- Використання пошукових операторів
- Перевірка індексації за допомогою RDS бару
- Програми для перевірки індексації
- Причини випадання сторінок з індексу
- Методи прискореної індексації
- висновок
Важливою складовою при пошукової оптимізації є робота з внутрішніми факторами. До таких факторів відносять, в тому числі, управління індексацією ресурсу - настройка його взаємодії з роботами пошукових систем. Дане питання функціонування сайту необхідно вирішувати ще на етапі проектування, що дозволить уникнути проблем з просуванням в подальшому.
Що таке індексація сайту і краулінговий бюджет?
Індексація сайту - це процес обходу сторінок веб-ресурсу пошуковими роботами та внесення отриманої інформації в базу пошукових систем, і для того, щоб ресурс з'явився у видачі Яндекса або Google необхідно, щоб він був просканований і доданий в їх індекс.
Пошукові роботи відвідують регулярно сторінки ресурсу, але те, з якою періодичністю вони це роблять, залежить від кількох факторів:
- частота зміни контенту;
- кількість сторінок на сайті;
- обсяг трафіку.
Про нові сторінках пошукові роботи дізнаються з посилань, які з'являються на раніше відомих їм документах, а також по трафіку на них з різних джерел.
При цьому необхідно враховувати, що за один захід робот обробляє кілька сторінок сайту. Таке явище пов'язане з тим, що пошукові роботи не хочуть перенавантажувати сервер своїми запитами. Але яким чином визначається цей ліміт завантажуються документів?
На початку 2017 року представник компанії Google Гері Ілш розповів про таке поняття як Краулінговий бюджет, який об'єднує в собі такі показники: швидкість сканування сайту і краулінговий попит (кількість документів, яке хоче обійти робот Google, засноване на популярності ресурсу та актуальності контенту). Під краулінговим бюджетом Google має на увазі кількість сторінок сайту, які може обійти Googlebot.
Внутрішні чинники сайту, які зменшують показник краулінгового бюджету (за версією Google):
- доступні до індексації документи, в адресі яких вказані ідентифікатори сесій, змінні фільтрації або пошуку, UTM-мітки;
- дублі сторінки;
- документи з 404-відгуком сервера;
- сторінки з низькоякісним і спамние контентом.
Способи управління індексацією сайту
Для того щоб оптимізувати витрати краулінгового бюджету необхідно коректно керувати індексацією сайту - давати можливість індексувати роботам тільки ті сторінки, які важливі для просування ресурсу.
канонічні сторінки
За допомогою налаштування канонічного адреси (canonical) можна явно пошуковим системам вказати, яка сторінка є кращою для індексації. Налаштовувати атрибут canonical необхідно в тому випадку, якщо на сайті присутні документи з однаковим змістом:
- сторінки пагінацію;
- сторінки з UTM-мітками;
- сторінки фільтрації;
- та ін
Для настройки канонічних сторінок необхідно в розділі head вказати наступний код:
<Link rel = "canonical" href = "http: // канонічна /">
Якщо сторінка повинна брати участь в пошуку, то в атрибуті href вказується її url, якщо не повинна і є повним або частковим дублем, то в атрибуті href вказується адреса канонічного документа.
Robots.txt
За допомогою файлу robots.txt, який знаходиться в корені сайту, можна управляти пошуковими роботами:
- Директива Disallow закриває від індексації зазначені сторінки;
- User-Agent дозволяє вказати пошукову систему, для якої написані інструкції індексації;
- Crawl-delay задає частоту звернення роботів до сторінок ресурсу (Google пропускає цей посібник);
- Clean-param забороняє до індексації сторінки із зазначеними динамічними параметрами.
Детальніше про налаштування файлу robots.txt можна знайти в нашій статті: http://promo.altera-media.com/information/expert/pravilnaya-nastrojka-robots-txt/ .
Мета-тег Robots
Даний мета-тег призначений для управління індексацією конкретної сторінки. Для настройки мета-тега необхідно в розділі head вказати:
<Meta name = "robots" content = "параметр">
Список параметрів мета-тега robots:
- index - дозвіл на індексування документа;
- noindex - заборона на індексування документа;
- follow - дозвіл на проходження по посиланнях на сторінці;
- nofollow - заборона на проходження по посиланнях на сторінці;
- all - рівносильно вказівкою content = "index, follow";
- none - рівносильно вказівкою content = "noindex, nofollow".
Відсутність мета-тега в коді сторінки розцінюється як автоматичне дозвіл на індексацію документа і проходження по посиланнях.
Важливо враховувати, що при закритті сторінки від індексації таким чином - робот все одно "витрачає" свій краулінговий бюджет на її прочитання, найкраще даний мета-тег використовувати для заборони переходу по посиланнях.
Які сторінки необхідно закривати від індексації?
Від індексації пошуковими системами слід закривати такі типи сторінок:
- Для сторінок пагінацію слід вказувати канонічний адресу (не варто закривати такі їх за допомогою мета-тега robots або robots.txt: широкий асортимент - один з важливих комерційних факторів);
- Технічні сторінки (без корисного контенту) слід закривати в robots.txt;
- Сторінки персональної інформації (особистий кабінет, реєстрації та ін.) Варто закривати в robots.txt:
- Для сторінок, які формуються при сортуванні товарів в каталозі, варто вказувати канонічний адресу;
- Сторінки версії для друку варто закривати в robots.txt;
- Сторінки з результатами пошуку по сайту варто закривати в robots.txt і за допомогою тега robots, якщо їх не можна оптимізувати під отримання додаткового трафіку.
Грамотне управління індексацією допоможе оптимізувати краулінговий бюджет і спрямувати ліміти на обнародувано сторінки ресурсу.
Перевірка проіндексованих сторінок
Для перевірки коректної індексації ресурсу можна скористатися кількома способами.
Перевірка індексації в панелях Вебмастера Яндекса і Google
В Яндекс вебмайстрів в розділі Індексації є можливість проаналізувати індексацію ресурсу:
Володіючи цією інформацією можна оперативно усувати помилки на сайті для повернення необхідних сторінок в індекс пошукової системи Яндекс.
Google, на жаль, не має настільки зручним інструментом для аналізу проіндексованих документів. За допомогою консолі Google для веб-майстрів можна подивитися:
- Кількість проіндексованих сторінок;
- Кількість закритих сторінок у файлі robots.txt:
Використання пошукових операторів
Пошукові системи розробили спеціальні пошукові оператори, що дозволяють уточнювати пошуковий запит. Наприклад, за допомогою оператора «site:" можна дізнатися приблизну кількість проіндексованих сторінок.
Велика різниця між кількістю проіндексованих сторінок в Яндексі і в Google може свідчити про те, що у сайту проблеми з технічною оптимізацією.
За допомогою оператора url: в Яндексі можна перевірити проіндексована чи конкретна сторінка:
Перевірка індексації за допомогою RDS бару
Панель інструментів RDS бар - це плагін для браузерів Google Chrome і Mozilla Firefox, який в браузері відображається у вигляді додаткової панелі інструментів. Даний плагін дозволяє швидко переглянути основні показники ресурсу:
- кількість проіндексованих сторінок в Яндексі і в Google;
- проіндексована чи поточна сторінка в Яндексі і в Google;
Програми для перевірки індексації
Для автоматизації процесу аналізу внутрішніх помилок веб-ресурсу і проблем індексації існують спеціальні інструменти - парсери сайту і індексу пошукових систем:
- Netpeak Spider - програма дозволяє перевірити відгуки сторінок, подивитися канонічні адреси, закрита чи сторінка в robots.txt або за допомогою мета-тега robots:
- Comparser - спеціалізована програма для глибокого аналізу індексації сайту, яка дозволяє виконувати наступні операції:
- сканування сторінок всього веб-ресурсу (відгуків і канонічних адрес);
- сканування індексу пошукових систем (Яндекс і Google);
- пошук сторінок, які є в індексі пошукових систем, але на сайті на них відсутні внутрішні посилання;
- автоматичне видалення непотрібних сторінок з індексу Яндекса і Google.
Причини випадання сторінок з індексу
Велика кількість що випали посадочних сторінок з пошуку Яндекса і Google призводить до падіння позицій сайту і трафіку. Можна виділити кілька основних причин випадання сторінок з індексу пошукових систем:
- 301 або 302 відгук (налаштовані редіректи на інший документ);
- Наявність дублів (наприклад, сторінки пагінацію, фільтрації, сортування та інші типи сторінок, де дублюються мета-дані і контент);
- Помилкове закриття розділу сайту або сторінки в файлі robots.txt або мета-тегом robots;
- 404 відгук;
- 5xx відгук, який свідчить про те, що є збої в роботі хостингу або CMS, через що сторінки тривалий час недоступні для роботів пошукових систем.
Для запобігання випаданню посадочних сторінок ресурсу з індексу пошукових систем слід стежити за технічної оптимізацією сайту і своєчасно усувати виникаючі помилки. Але якщо, пошукова система видалила сторінку з пошуку, то слід скористатися таким алгоритмом:
- Визначити причину випадання з індексу;
- Усунути причину;
- Надіслати випала сторінку на індексацію (переіндексацію).
Методи прискореної індексації
Якщо сторінка нова або відсутній в індексі з якоїсь причини (і причина випадання з індексу виправлена), то за допомогою таких способів, можна прискорити додавання її в індекс:
- Вказівка сторінки (сторінок) в файлі sitemap.xml з датою оновлення та пріоритетом на індексування;
- Відправлення в інструмент "Переобход сторінок" в Яндексі;
- Розміщення посилань на документ на зовнішніх ресурсах;
- Розміщення посилань на документ в соціальних мережах;
- Отримання моментального трафіку з хорошою активністю, де джерелом трафіку може бути навіть e-mail-розсилка;
- Коректна настройка внутрішньої перелинковки на сайті.
висновок
Управління індексацією - важлива частина роботи при просуванні. На відміну від роботи з зовнішніми факторами пошукової оптимізації - можливість впливати на індексацію сторінок завжди доступна і зміни швидше відображаються в індексі пошукових систем, але краще всього передбачити грамотне взаємодія сайту з пошуковими роботами ще на етапі розробки ресурсу.
Важливо вчасно відслідковувати всі внутрішні помилки на сайті, щоб мати можливість швидко їх усунути до того, як пошукові системи видалять сторінки з індексу. А якщо це вже сталося - необхідно оперативно відправити випали (або нові) сторінки на індексацію.
Що таке індексація сайту і краулінговий бюджет?Що таке індексація сайту і краулінговий бюджет?
Але яким чином визначається цей ліміт завантажуються документів?
Які сторінки необхідно закривати від індексації?