Існує декілька способів як можна перевірити індексацію сайта:
- За допомогою оператора “site:”. Такий спосіб працює для декількох ПС (пошукових систем). Наприклад:
site:домен сайту.
- Просканувати сайт за допомогою спеціальних інструментів таких як: Screaming Frog.
- Подивитися дані у вебмайстрах Google
Аналіз сканування та індексації сайта
Перевіряти будемо на основі сайту https://specarchiv.lviv.ua
Наступне що нам потрібно зробити, так це зібрати дані щодо кількості проіндексованих сторінок на сайті. Є декілька способів, як це можна зробити.
Дані за оператором “site:”
site:specarchiv.lviv.ua
Google – 53 сторінки
Дані отримані за допомогою веб-краулера Screaming Frog
Screaming Frog – 99 стор.
Дані з GSC
Google Search Console – 34
Роботу над будь-яким проєктом потрібно починати зі збору цих даних. Вони дадуть нам змогу зрозуміти, які сторінки скануються та індексуються ПС, а які ні.
Аналіз отриманих даних.
Порівнюємо показники даних з Google та інших ПС. Якщо показники приблизно однакові – це хороша ознака. Значна різниця в даних може бути викликана низкою причин.
Кожна ПС по різному сканують сторінки.
Для Google важлива авторитетність сайту загалом, а потім якість сторінки. Тобто в індекс Google можуть потрапити менш якісні сторінки, якщо Google вважає сайт авторитетним.
Які сторінки ПС можуть вважати неякісними (сміттєвими):
- Малоінформативні (порожні) сторінки. Сторінки без тексту з малою кількістю інформації.
- Дублі сторінок.
Для виявлення сторінок низької якості можна скористатися даними з Google Search Console (звіт “Покриття” → розділ “Виключено” та переглянути сторінки зі статусом помилки “Сторінка просканована, але не проіндексована”).
Порівнюємо показники вебмайстрів і веб-краулера
Якщо сторінок, які ми бачимо в результатах сканера, більше, ніж у вебмайстрі, – значить, потрібно визначити закономірність сторінок, які не потрапили в індекс ПС.
Під закономірністю мається на увазі єдину причину, через яку група сторінок не просканувалася.
Якщо дані за сканером менші – значить шукаємо сторінки, які павук не зміг спарсити. Для цього в таблицю Excel вивантажуємо сторінки без помилок із вебмайстра і спаршені сторінки з павука (screaming frog). Далі за перетином url визначаємо сторінки, які павук не спарсив (не побачив). Аналізуємо ці сторінки і намагаємося визначити причини.
Суть полягає в тому, що якщо похибка різних сканувань різними краулерами відрізняється, значить є явна причина додатково проаналізувати відскановані сторінки.
Порожні сторінки і їх аналіз
Щоб виявити порожні сторінки, необхідно зібрані сканером сторінки відсортувати за розміром у Кб. Скриншот на прикладі даних вебкраулера Screaming Frog.
Варто звертати увагу на сторінки, які мають однаковий розмір кб. Порожні сторінки потрібно або видалити (якщо вони не потрібні), або доопрацювати (наповнити корисним контентом).
Визначаємо дублікати сторінок
Найпростіший спосіб знайти дублікати сторінок – це впорядкувати за алфавітом html-сторінки за даними Title.
Тобто можна припустити, що якщо title – назва сторінки однакові, значить і вміст цих сторінок може бути однаковим.
Проаналізувавши таким чином сторінки, ми зможемо виявити як мінімум кілька типових помилок:
- дублікати title (їх потрібно буде унікалізувати);
- дублікати сторінок (їх потрібно буде склеїти);
- неправильно налаштовані сторінки пагінації (потрібно правильно оформити сканування сторінок пагінації);
- виявити розділи на сайті, в яких присутні порожні сторінки (виявити причини цього й усунути);