Сканування веб-сторінок: процес краулінга

28 вересня 2023 р.

SEO

Taras Soros

27 переглядів

Давайте обмалюємо картину сучасної веб-павутини, для того що зрозуміти принципи сканування пошукових машин. Звичайно в даному контексті будемо розбирати саме Google, як найпопулярнішу із них.

Інтернет на сьогоднішній момент нараховує велику кількість веб-сторінок, яких потрібно сканувати, витрачаючи на це колосальні ресурси. Тому питання оптимізації такого підходу був не за горами та врешті решт вихід знайшовся. Для розв’язання цього питання, Google на основі сукупності алгоритмів визначає важливі сторінки, щоб розуміти, яку веб-сторінку потрібно сканувати в першу чергу.

Важливо зрозуміти, що сканування сторінки не означає попадання її в індекс. Хід сканування, а також виявлення проблем, можна побачити в GSC (Google Search Console).

Основні фактори впливу на сторінку

Перерахуймо одні з основних факторів, які впливають на рейтинг сторінки:

  • Положення сторінки в структурі сайту
  • PR сторінки
  • Тип сторінки або файлу
  • Наявність сторінки в Sitemap.xml
  • Кількість і тип внутрішніх посилань
  • Кількість зовнішніх посилань
  • Актуальність і якість контенту
  • Частота оновлення
  • Загальна якість сайту

Це не єдині фактори, їх може бути більше, але як правило, Google їх не розкриває.

Оптимізація всіх цих факторів дозволяє надати пріоритетність для сканування та індексації конкретної сторінки для пошукової машини. Тобто, чим краще технічно веб-сторінка буде оптимізована, тим в неї будуть вищі показники для показу в результатах видачі.

Бюджет сканування

Наступний момент про який поговоримо буде проте те, як простежити бюджет сканування сайту (краулінговий бюджет). Отож, визначення наступне, краулінговий бюджет – це кількість сторінок, які встигає переглянути пошукова система (робот) за певний період часу.

Внаслідок цього, ми можемо краще зрозуміти розхід бюджету сканування сторінок, які пошукові системи побачили та показали в результатах пошуку під час аналізу вашого сайту.

Збільшивши на сторінці кількість ключових сторінок на сайті, і при цьому зменшивши бюджет на перегляд менш важливих, можна покращити успішність вашого сайту в органічній видачі.

Для вимірювання нашого бюджету сканування потрібна якась величина, і вона у нас є, взявши від середнього значення скільки разів в день, бот Google заходив на наш сайт. Це і буде наш бюджет сканування.

Його ще можна перевірити методом аналізу логів на сервері, відфільтрувавши по Google боту. Такий метод більш доцільний, через те, що можна вибирати будь-який період сканування сайту і наводити різні порівняння з іншими місяцями. Такий метод більш точний для оцінки краулінгового бюджету.

Для аналізу логів можна скористатися програмою SEO Log File Analyser від ScreamingFrog: https://www.screamingfrog.co.uk/log-file-analyser/

Сканування сайту через GSC

Ще один метод, який менш точний, але вартий уваги, це за допомогою GSC.

Відкриваємо консоль Google https://search.google.com/search-console

Вибираємо “Налаштування” і відкриваємо звіт по статистиці сканування, яка базується на основі останніх 90 днів (візьміть це до уваги).

Статистика сканування

Оцінюємо бюджет сканування

Що нам це дає? Поки що не багато. За останні 90 днів наш сайт був просканований 8,56 тис. разів (в середньому 95 запитів в день).

Кількість запитів сканування

HTML сторінки в середньому були проскановані 32 рази в день.

html сторінки

Також варто звернути на ще одну вкладку “За відповіддю”. Тут маємо 90% з відповіддю 200 (ОК).

Статус 200

Тепер в день маємо в середньому 29 просканованих HTML сторінок. Таким чином порівнюючи об’єм сайту та бюджет сканування, можна приблизно оцінити за який період часу сайт повністю просканується.

Тепер припустимо ваш сайт має 200 сторінок (проіндексованих), згідно з нашими визначеннями, сайт повністю просканується за 7 днів, що вважається непоганим результатом.

Багато хто нехтує вкладкою сканування звіту, проте вона також може дати корисні метрики у просуванні сайту.

Наведені обчислення є вкрай приблизними, оскільки важливі сторінки сайту Google пересканує набагато частіше, ніж неважливі. А ще рідше він сканує сторінки, які не потрапили в індекс.

Для успішного сканування важливо уникати сторінок з помилками 5xx, оскільки наявність таких сторінок зменшує бюджет сканування. У разі виникнення помилок сервера 5xx, роботи Google тимчасово збільшують час сканування.

Ви не можете контролювати збільшення бюджету сканування безпосередньо. Google збільшить ваш бюджет сканування, якщо вважає це необхідним, на основі здатності вашого вмісту якісно відповідати на запити користувачів. Тому, якщо ви хочете знизити витрати на сканування, крім загального покращення SEO, краще оптимізувати поточний бюджет сканування, ніж намагатися збільшити його.

Читайте також
301 редірект у файлі .htaccess 301 редірект у файлі .htaccess

Правила 301 редіректу можна прописувати у файлі .htaccess. Це серверний файл програми Apache.

Редірект: їхні типи та використання Редірект: їхні типи та використання

Редірект – це спосіб перенаправити користувачів, та пошукових роботів на іншу веб-сторінку

Пошукові оператори Google Пошукові оператори Google

Які є пошукові оператори, та як їх вводити. Використання пошукових операторів google для власної вигоди.