Оформление Robots txt

Как заполнить Robots.txt?

№1. Простой вариант заполнения  Robots.tx

Сегодня я Вам расскажу как правильно заполнить текстовый файл Robots.txt.  Это обычный текстовый файл, который можно создать и отредактировать (изменить содержимое) в блокноте Windows. Он Располагается в корневой теке сайта - http://yoursite.ru/robots.txt. Главное его предназначение - это задавать определённые директивы поисковым системам - что и когда делать на сайте.

Самый простой robots.txt, который всем поисковым системам, разрешает всё индексировать, выглядит вот так:


  User-agent: *

  Disallow:

Если у директивы Disallow не стоит наклонный слеш в конце, то разрешены все страницы для индексации.

Такая директива полностью запрещает сайт к индексации:


  User-agent: *

  Disallow: /

User-agent - обозначает для кого предназначены директивы, звёздочка обозначает что для всех ПС, для Яндекса указывают User-agent: Yandex.

В справке Яндекса написано, что его поисковые роботы обрабатывают User-agent: *, но если присутствует User-agent: Yandex, User-agent: * игнорируется.

№2.  Директивы Disallow и Allow


Существуют две основные директивы:


Disallow – запретить


Allow – разрешить


Пример: На блоге мы запретили индексировать папку /wp-content/ где находятся файлы плагинов, шаблон и.т.п. Но так же там находятся изображения, которые должны быть проиндексированы ПС, для участия в поиске по картинкам. Для этого надо использовать такую схему:


  User-agent: *

  Allow: /wp-content/uploads/ # Разрешаем индексацию картинок в папке uploads

  Disallow: /wp-content/

Порядок использования директив имеет значение для Яндекса, если они распространяются на одни страницы или папки. Если вы укажите вот так:


  User-agent: *

  Disallow: /wp-content/

  Allow: /wp-content/uploads/

Изображения не будут скачиваться роботом Яндекса с каталога /uploads/, потому что исполняется первая директива, которая запрещает весь доступ к папке wp-content. 


Google относится проще и выполняет все директивы файла robots.txt, вне зависимости от их расположения.


Так же, не стоит забывать, что директивы со слешем и без, выполняют разную роль:


Disallow: /about Запретит доступ ко всему каталогу site.ru/about/, так же не будут индексироваться страницы которые содержат about - site.ru/about.html, site.ru/aboutlive.html и.т.п.

Disallow: /about/ Запретит индексацию роботам страниц в каталоге site.ru/about/, а страницы по типу site.ru/about.html и.т.п. будут доступны к индексации.

№3. Регулярные выражения в файле robots.txt


  Поддерживается два символа, это:

* - подразумевает любой порядок символов.

Пример:


Disallow: /about*  запретит доступ ко всем страницам, которые содержат about, в принципе и без звёздочки такая директива будет так же работать. Но в некоторых случаях это выражение не заменимо. Например, в одной категории имеются страницы с .html на конце и без, чтобы закрыть от индексации все страницы которые содержат html, прописываем вот такую директиву:  


  Disallow: /about/*.html

Теперь страницы site.ru/about/live.html закрыта от индексации, а страница site.ru/about/live открыта.Ещё пример по аналогии:


  User-agent: Yandex

  Allow: /about/*.html #разрешаем индексировать

  Disallow: /about/

Все страницы будут закрыты, кроме страниц которые заканчиваются на .html

$ - обрезает оставшуюся часть и обозначает конец строки.

Пример:

 Disallow: /about - Эта директива robots.txt запрещает индексировать все страницы, которые начинаются с about, так же идёт запрет на страницы в каталоге /about/. 


Добавив в конце символ доллара - Disallow: /about$ мы сообщим роботам, что нельзя индексировать только страницу /about, а каталог /about/, страницы /aboutlive и.т.п. можно индексировать.

№4. Директива Sitemap


В этой директиве указывается путь к Карте сайта, в таком виде:  


  Sitemap: http://site.ru/sitemap.xml

№5. Директива Host 

 Она предназначена только для Яндекса, потому что он с помощью неё определяет главные зеркала сайта и склеивает их по ней.