SEO оптимізація сайтів: блог для просування сайтів та їхня технічна частина

Файл robots.txt використовується для вказівки інструкцій для пошукових роботів про те, які сторінки сайту можуть скануватися та індексуватися. Файл розташовується в кореневій директорії сайту і вказує, які сторінки мають бути доступні для сканування, а які – ні. Це допомагає керувати трафіком, який генерують пошукові роботи на сайті.

Файл robots.txt працює на рівні домену або піддомену, тому його правила застосовуватимуться до всіх сторінок у цьому домені або піддомені. Він не поширюється на інші домени або піддомени на тому самому сервері.

Крім того, використання файлу robots.txt може допомогти заощадити бюджет сканування. Якщо пошукові роботи не скануватимуть сторінки, які не мають значення для сайту, то бюджет сканування можна перерозподілити на важливіші сторінки. Це може призвести до більш ефективної індексації сайту пошуковими системами та поліпшення загального SEO-рейтингу сайту.

Файл robots.txt не призначений для заборони показу сторінок у пошукових системах, він лише вказує на те, які сторінки мають скануватися, а які ні. Якщо ви хочете заборонити індексацію певної сторінки, то для цього можна використовувати директиву мета-тега noindex.

Використання файлу robots.txt може допомогти зменшити кількість запитів, які Google надсилає на ваш сервер, оскільки він дає змогу вказати, які сторінки та розділи сайту мають скануватися, а які ні. Це може бути корисно для зменшення навантаження на сервер і підвищення продуктивності сайту.

Robots.txt не призначений для блокування показів веб-сторінки в результатах пошуку Google. Якщо на сторінку є посилання з інших сайтів, то робото Googlebot може добавити цю сторінку в індекс, навіть не відкриваючи її. Щоб виключити її з результатів пошуку, потрібно закрити до неї доступ за допомогою директиви noindex.

Перевірка на валідність robots.txt.

Ось правила щодо формату та розташування файлу:

Файл має називатися robots.txt.
На сайті має бути тільки один такий файл.
Файл robots.txt потрібно розмістити в кореневому каталозі сайту. Наприклад, на сайті https://www.example.com/ він має розташовуватися за адресою https://www.example.com/robots.txt.
Він не повинен перебувати в підкаталозі (наприклад, за адресою https://example.com/pages/robots.txt). Якщо ви не знаєте, як отримати доступ до кореневого каталогу, або у вас немає відповідних прав, зверніться до хостинг-провайдера. Якщо у вас немає доступу до кореневого каталогу сайту, використовуйте альтернативний метод блокування, наприклад метатеги.
Файл robots.txt можна розмістити за адресою з субдоменом (наприклад, https://website.example.com/robots.txt) або нестандартним портом (наприклад, https://example.com:8181/robots.txt).
Дія robots.txt поширюється тільки на шляхи в межах протоколу, хоста і порту, де він розміщений. Іншими словами, правило за адресою https://example.com/robots.txt діє тільки для файлів, що належать до домену https://example.com/, але не до субдомену, такого як https://m.example.com/
Файл robots.txt має являти собою текстовий файл у кодуванні UTF-8 (яке включає коди символів ASCII). Google може проігнорувати символи, які не належать до UTF-8, у результаті чого будуть оброблені не всі правила з файлу robots.txt.

Як виконується robots.txt

Правила у файлі robots.txt є свого роду інструкція для пошукових роботів, що вказують, які розділи сайту можна або не можна сканувати.

Перерахуймо основні моменти ведення robots.txt:

Файл robots.txt складається з однієї або більше груп.
Кожна група може містити кілька правил, по одному на рядок. Ці правила також називаються директивами. Кожна група починається з рядка User-agent, що визначає, якому роботу адресовані правила в ній.
Група містить таку інформацію:
До якого агента користувача належать директиви групи.
До яких каталогів або файлів у цього агента є доступ.
До яких каталогів або файлів у цього агента немає доступу.
Символ # означає початок коментаря.

Під час обробки файлу robots.txt пошукові роботи читають його згори донизу і виконують правила в порядку їхнього слідування. Агент користувача, який намагається отримати доступ до сайту, перевіряє наявність правил у файлі robots.txt, порівнює їх із набором правил, визначених для цього агента у файлі, і застосовує ті правила, які найбільше підходять для цього агента.

Якщо для агента користувача не було задано жодних правил у файлі robots.txt, то за замовчуванням йому дозволено сканувати будь-які сторінки і каталоги, доступ до яких не заблоковано правилом “Disallow”. Це означає, що якщо ви не вказуєте явно заборону на доступ до певних розділів вашого сайту, то пошукові роботи зможуть сканувати його на свій розсуд.

Правила повинні вказуватися з урахуванням регістру. Наприклад, правило disallow: /file.asp поширюється на URL https://www.example.com/file.php, але не на https://www.example.com/FILE.php.

Правила robots.txt, які підтримуються роботами Google

user-agent: є обов’язковою у файлі robots.txt і вказує на конкретного пошукового робота або групу роботів, до яких застосовуються правила. Це дає змогу задавати різні правила для різних пошукових роботів. У файлі robots.txt можна використовувати знак “*” як універсального агента користувача, який буде застосовуватися до всіх пошукових роботів, при цьому можна як закрити так і відкрити доступ до всіх роботів.

# Приклад 1: БЛОКУЄМО GOOGLEBOT
# Не забуваємо, що # це коментарі
USER-AGENT: GOOGLEBOT
DISALLOW: /

Copy

# Приклад 2: БЛОКУЄМО GOOGLEBOT И ADSBOT
USER-AGENT: GOOGLEBOT
USER-AGENT: ADSBOT-GOOGLE
DISALLOW: /

Copy

# Приклад 3: БЛОКУЄМО ВСІ КРАУЛЕРИ, КРІМ ADSBOT (ADSBOT ПОВИНЕН ВВОДИТИСЬ ОКРЕМО)
USER-AGENT: *
DISALLOW: /

Copy

disallow: (кожне правило має містити щонайменше одну директиву disallow або allow). Вказує на каталог або сторінку щодо кореневого домену, які не можна сканувати агенту користувача. Якщо правило стосується сторінки, має бути вказано повний шлях до неї, як в адресному рядку браузера. На початку рядка має бути символ /. Якщо правило стосується каталогу, рядок має закінчуватися символом /.

allow: (кожне правило має містити щонайменше одну директиву disallow або allow). Вказує на каталог або сторінку щодо кореневого домену, які дозволено сканувати агенту користувача. Використовується для того, щоб перевизначити правило disallow і дозволити сканування підкаталогу або сторінки в закритому для обробки каталозі. Якщо правило стосується сторінки, має бути вказано повний шлях до неї, як у адресному рядку браузера. Якщо правило стосується каталогу, рядок має закінчуватися символом /.

sitemap: (необов’язкова директива, яка може повторюватися кілька разів або не використовуватися зовсім). Вказує на розташування файлу Sitemap, використовуваного на сайті. URL файлу Sitemap має бути повним. Google не перебирає варіанти URL із префіксами http і https або з елементом www і без нього. Із файлів Sitemap роботи Google отримують інформацію про те, який контент потрібно сканувати і як відрізнити його від матеріалів, які можна або не можна обробляти.

Всі правила, крім sitemap, підтримують знак * для визначення всіх шляхів.

Рядки, які не мають прописаного правила – ігноруються.

Якщо у файлі robots.txt є кілька груп для певного агента, виконується внутрішнє об’єднання цих груп.

USER-AGENT: GOOGLEBOT-NEWS
DISALLOW: /FISH

USER-AGENT: *
DISALLOW: /CARROTS

USER-AGENT: GOOGLEBOT-NEWS
DISALLOW: /SHRIMP

Copy

Пошукові роботи об’єднують правила з урахуванням агента користувача, як зазначено у прикладі.

USER-AGENT: GOOGLEBOT-NEWS
DISALLOW: /FISH
DISALLOW: /SHRIMP

USER-AGENT: *
DISALLOW: /CARROTS

Copy

Вміст файлу robots.txt кешується браузерами та роботами на невизначений час, оскільки у файлі robots.txt не вказується час життя кешу. Натомість під час кожного запиту робот має перевіряти файл robots.txt на сервері, щоб переконатися, що правила не змінилися. Google може збільшити або зменшити термін дії кешу залежно від значення атрибута max-age у HTTP-заголовку Cache-Control.