Як скласти файл robots txt

Як скласти файл robots txt

Одним із засобів управління індексацією сайтів пошуковими системами є файл robots.txt. Переважно він використовується для того, щоб заборонити всім або тільки певним роботам завантажувати вміст деяких груп сторінок. Це дозволяє позбутися від «сміття» у видачі розвідувачів і, в деяких випадках, істотно поліпшити ранжування ресурсу. Для успішного застосування важливо правильно скласти файл robots.txt.

Вам знадобиться

- Текстовий редактор.

Інструкція

  1. Складіть список роботів, для яких будуть задані особливі правила винятків або використані директиви розширеного стандарту robots.txt, а також нестандартні і специфічні директиви (розширення конкретної пошукової системи). Внесіть в даний список значення полів User-Agent заголовків HTTP-запитів, що посилаються вибраними роботами серверу сайту. Імена роботів також можна дізнатися в довідкових розділах сайтів пошукових систем.
  2. Виділіть групи URL ресурсів сайту, до яких повинен бути заборонений доступ кожному з роботів списку, складеного на першому кроці. Проведіть таку ж операцію по відношенню до всіх інших роботам (невизначеному безлічі індексуючих ботів). Іншими словами, в результаті повинні вийти кілька списків, які містять посилання на розділи сайту, групи сторінок або джерела медіа-контенту, які заборонені до індексації. Кожен список повинен відповідати окремому роботу. Також повинен бути список заборонених URL для всіх інших пошукових роботів.

    Складайте списки на основі зіставлення логічної структури сайту з фізичним розміщенням даних на сервері, а також шляхом угруповання URL сторінок за їх функціональною ознакою. Наприклад, можна включити в забороняють списки вміст будь-яких службових каталогів (угруповання за місцем розміщення) або всі сторінки профілів (угруповання за призначенням).
  3. Виділіть ознаки URL кожного з ресурсів, що містяться в списках, складених на другому кроці. При обробці списків винятків, призначених для роботів, що використовують тільки стандартні директиви robots.txt і невизначених роботів, виділіть унікальні частини URL максимальної довжини. Для інших множин адрес можна створити шаблони відповідно до специфікацій конкретних пошукових машин.
  4. Cоставьте файл robots.txt. Внесіть в нього групи директив, кожна з яких відповідає набору забороняють правил для конкретного робота, список яких був складений на першому кроці. Останньою повинна слідувати група директив для всіх інших роботів. Розділяйте групи правил одним порожнім рядком.

    Кожен набір правил повинен починатися з директиви User-agent, що ідентифікує робота, після чого повинні дотримуватися директиви Disallow, що забороняють індексацію груп URL. Значеннями директив Disallow робіть рядки, отримані на третьому кроці. Директиви та їх значення розділяйте двокрапкою.

    Розгляньте наступний приклад:

    User-agent: Yandex

    Disallow: / temp / data / images /

    User-agent: *

    Disallow: / temp / data /

    Даний набір директив наказує основному роботу пошукової системи Яндекс не індексувати URL, в яких міститься підрядок / temp / data / images /. Він також забороняє індексацію URL, в яких міститься / temp / data / всім іншим роботам.
  5. Доповніть robots.txt директивами розширеного стандарту або специфічними директивами конкретних пошукових систем. Як приклади подібних директив можуть виступати: Host, Sitemap, Request-rate, Visit-time, Crawl-delay.

Зверніть увагу

Пошуковий робот компанії Rambler розуміє тільки базовий стандарт robots.txt.

Корисні поради

Використовуйте нестандартні розширення формату robots.txt для більш гнучкого управління роботами Yandex і Google.