Hello Everybody. Сьогодні поговоримо про Sitemap.xml, або як ще називають – карта сайту. Поїхали.
Коротко про sitemap.xml
Файл XML-карти сайту є засобом, що надає список сторінок, які повинна знати пошукова система. Google своєю чергою буде намагатися відвідати всі сторінки, вказані у sitemap.xml. Але відсутність сторінки в карті сайту не завадить пошуковій системі дізнатися про її існування, якщо на неї є посилання з інших сторінок.
Файл XML-карти сайту повинен бути відформатований відповідно до протоколу sitemap та розміщений в кореневій директорії (не в папці) тієї частини сайту, яку вона охоплює.
Файл повинен мати інформацію про те, як організований контент на сайті (наприклад, веб-сторінки, відео та інші ресурси). Він допомагає Google та іншим пошуковим системам більш точно індексувати ваш матеріал. Наприклад, у файлі sitemap можна вказати, які розділи сайту найважливіші та надати додаткову інформацію про них (коли сторінка останній раз оновлювалась, чи існують її версії на інших мовах тощо).
Нарешті, в файл sitemap можна додати додаткову інформацію про контент різних типів, зокрема про відео, зображення та новини. Наприклад:
- Для відеофайлів: тривалість, рейтинг, обмеження за віком.
- Для графічних файлів: розташування зображень, розміщених на сторінці.
- Для новин: назва статті та дата публікації.
Аудит карти сайту
Необхідно провести аудит, щоб перевірити валідність карти сайту та те, що вона містить URL-адреси, які ви хочете індексувати, а також відсутні ті URL-адреси, які краще не індексувати.
Для XML-карт діють наступні обмеження: файл sitemap може містити не більше 50 000 URL-адресів, а його розмір у нестисненому вигляді не повинен перевищувати 50 мб. Якщо розмір файлу або кількість розділів в ньому перевищують ці ліміти, потрібно розділити його на декілька частин. Ви можете створити та надіслати індексний sitemap в Google, який містить дані про окремі файли sitemap. При необхідності можна надіслати кілька файлів або індексів sitemap.
Загальні рекомендації щодо файлів sitemap:
- Вказуйте повні URL-адреси, використовуючи один і той же синтаксис. Google буде сканувати саме ті URL-адреси, які ви вкажете. Наприклад, якщо адреса сайту – https://www.example.com/, не вказуйте URL-адресу https://example.com/ (без www) або ./mypage.html (відносний).
- Розмістіть файл sitemap на кореневому рівні сайту, щоб він застосовувався до всього сайту, а не тільки до підкаталогів.
- Використовуйте атрибут hreflang для позначення двомовних версій сторінок.
- Створюйте файли sitemap в кодуванні UTF-8 та застосовуйте екранування для URL-адрес.
- Розбивайте великі файли sitemap на менші, якщо це необхідно. Файл sitemap може містити до 50 000 URL-адресів і не повинен перевищувати розмір 50 МБ. Google рекомендує замість окремих файлів sitemap відправляти їх індексний файл.
- Включайте в файли sitemap тільки канонічні URL-адреси. Якщо у вас є дві версії сторінки, вкажіть тільки ту, яка повинна з’являтися в результатах пошуку.Якщо на вашому сайті є дві версії, наприклад з префіксом “www” та без нього, то слід вибрати головну версію та розмістити у ній файл sitemap, а на сторінки другої версії додати атрибут rel=canonical або налаштувати редірект.
- Якщо у вас є мобільна та звичайна версія сторінки з різними URL, то радимо вказувати лише одну з них. Якщо потрібно включити обидві версії URL, в такому випадку краще додавати анотацію, щоб позначити ці версії.
- Для вказання додаткових MIME-типів, таких як зображення, відео та новини, використовуйте файли Sitemap з розширеним синтаксисом.
- Якщо є версії сторінки на інших мовах або для інших регіонів, то їх можна вказати за допомогою атрибута hreflang у файлі sitemap або тегах HTML.
Перевірте наявність в robots.txt рядка з шляхом файлу sitemap.
Наприклад:
SITEMAP: HTTPS://EXAMPLE.COM/MY_SITEMAP.XML
Перевірка на валідність в GSC
В цьому випадку карта сайту не знайдена, або ж її не додано в ручну. В результаті потрібно її додати.
В наступному прикладі можна побачити проіндексовану карту сайту.
Якщо Google вже отримав ваш sitemap з іншого ресурсу, потрібно всеодно відправити його через GSC, щоб в майбутньому мати змогу слідкувати за сторінками сайту.
Для цього у звіті про індексацію сторінок потрібно вибрати.
Дальше можна проаналізувати індексацію відправлених чи невідправлених хмл-картів сайту.
Відправити файл sitemap можна тільки за допомогою консолі в тому випадку, коли у вас будуть права власника. Якщо таких прав немає, просто додайте посилання на файл sitemap у robots.txt.
Коли додаєте Sitemap в robots.txt перевірте чи він доступний роботу Googlebot. Щоб це перевірити, перейдіть по url sitemap в режимі інкогніто.
Валідність sitemap в Google
Наступним кроком давайте перевіримо чи у Google є доступ до файлу Sitemap, це можна зробити двома способами:
- Введіть URL файлу sitemap в адресний рядок браузера. Файл має відкритися у форматі XML. Він виглядатиме як набір вкладених блоків.
- Перевірте URL файлу sitemap, ввівши його в поле https://search.google.com/u/1/search-console?action=inspect
У розділі Доступність має бути зазначено “URL можна проіндексувати”. Якщо це не так, має бути названо причину, через яку це неможливо зробити (наприклад, правило robots.txt, невірний URL або робота брандмауера). Якщо у Google немає доступу до файлу sitemap, усуньте цю проблему.
Переконавшись у тому, що ваш файл доступний, відкрийте звіт про файли sitemap https://search.google.com/search-console/sitemaps і надішліть файл sitemap.
Час від часу перевіряйте, чи може Google отримувати й обробляти ваші файли sitemap.
Якщо ви внесли до файлу значні зміни, які необхідно негайно опрацювати, ви можете відправити його в Google повторно, подавши новий запит. В іншому разі він оброблятиметься відповідно до звичайного розкладу сканування сайту.
Якщо файл не вдається отримати під час першого запиту або пізніше під час запланованого повторного сканування, то Google продовжує спроби протягом декількох днів, а потім припиняє їх, якщо файл, як і раніше, недоступний або містить критичні помилки. У цьому випадку ви маєте усунути проблему і надіслати файл повторно, подавши новий запит.
Якщо видалити файл sitemap, він зникне зі звіту, але Google запам’ятає його і всі перераховані в ньому URL. Якщо вам потрібно, щоб роботи Google перестали відвідувати ваші веб-сторінки, забороніть їм це за допомогою правила у файлі robots.txt.