Готовый файл robots.txt для WordPress

Создание правильного файла robots.txt — важный шаг для улучшения индексации сайта. Я покажу вам готовый файл robots.txt, объясню, что означают его директивы и покажу как добавить его на ваш сайт.

Что такое robots.txt?

Файл robots.txt помогает управлять индексированием сайта, содержит важные указания для роботов поисковых систем, ограничивает им доступ к содержимому на сервере. Файл этот нужно разместить в корне сайта.

robots.txt

Что может файл robots.txt?

  • Определяет какие области сайта (папки, странички, записи) можно индексировать, а какие нельзя.
  • Указывает, где размещен файл sitemap.xml.
  • Указывает, какие области сайта нужно индексировать в первую очередь.
  • Указывает главный домен сайта (либо с www либо без).
  • Помогает избежать дублирования контента путем запрета индексации тегов или рубрик. Таким образом, одна и та же статья не будет доступна по нескольким адресам и не попадет дважды в поисковый индекс. А как вы помните, поисковики терпеть не могут дублирование контента.

Как создать правильный robots.txt для Вордпресс?

Нужно поместить в корневом каталоге сайта текстовый файл robots.txt. Название файла должно быть «robots». А «.txt» — это его расширение.

Создать файл с таким расширением можно с помощью стандартной компьютерной программы Блокнот. Кликните на рабочем столе правой кнопкой мыши. Выберите «Создать» -> «Текстовый документ».

Содержание файла можете скопировать у меня из приведенного примера. Только вам нужно указать собственный домен и свою ссылку на xml карту сайта.

В одном из прошлых уроков мы рассматривали плагин All In One SEO Pack. У него можно активировать модуль «Редактор файлов».

Если вы зайдете в редактор файлов, то увидите вкладку для редактирования robots.txt.

файл robots.txt для WordPress

Вы можете просто вставить туда необходимое содержимое и сохранить изменения.

Готовый файл robots.txt для WordPress

Файл robots.txt может быть, например, таким:

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /trackback
Disallow: */trackback
Disallow: /*?*
Disallow: /*?
Disallow: *.php$  
Disallow: /tag/   
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: */attachment/
Host: https://blog.ru
 
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /trackback
Disallow: */trackback
Disallow: /*?*
Disallow: /*?
Disallow: *.php$  
Disallow: /tag/   
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: */attachment/
 
Sitemap: https://blog.ru/sitemap.xml.gz
Sitemap: https://blog.ru/sitemap.xml

Что означают директивы файла robots.txt?

Операторы

  • User-agent — указывается имя поискового робота, для которого задаются настройки. Значение * указывает, что данные параметры заданы для всех поисковых роботов, у которых не определены персональные настройки.
  • Disallow — запрещает индексацию области сайта по указанному адресу.
  • Host – указывает главный домен сайта (либо с www либо без него).
  • Sitemap – показывает ссылку на карту сайта sitemap.xml.
  • Еще есть оператор Allow. Он ставится всегда перед оператором Disallow. Он необходим, чтобы разрешить индексацию подобласти сайта, которая попала в область, уже запрещенную к индексации оператором Disallow.

Давайте посмотрим на наш файл.

Что у нас закрыто от индексации?

  1. Служебные и системные файлы Вордпресс (за исключением директории для загрузки файлов uploads)
  2. Лента RSS
  3. Трэкбэки
  4. Дубли страниц из результатов поиска
  5. Дубли страниц из категорий

В первом абзаце у нас прописны настройки для роботов Яндекса. Они роботы капризные — любят персональный подход.

Во втором абзаце указаны настройки для всех остальных поисковиков.

В третьем абзаце прописан путь к файлам sitemap.

Персональные настройки можно прописать для любой поисковой системы. В начале файла при этом лучше перечислить все персональные настройки для конкретных поисковиков, а лишь затем указать общие настройки для остальных поисковых систем.

Если вы хотите закрыть от индексации комментарии, то файл будет выглядеть так:

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: vash-sait.ru
 
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
 
Sitemap: http://vash-sait.ru/sitemap.xml.gz
Sitemap: http://vash-sait.ru/sitemap.xml

Я не запрещаю индексацию комментариев, поскольку у меня есть время на их тщательную модерацию.

Вы можете подсмотреть содержимое файла robots.txt у любого сайта. Достаточно набрать адрес  http://sait.ru/robots.txt

Надеюсь данная статья оказалась для вас полезной. Если есть вопросы — задавайте в комментариях.

Готовый файл robots.txt для WordPress: 3 комментария

  1. Здравствуйте. Роботс действительно для многих головная боль. Добрую информацию вы выложили,уважаемый. А как вы думаете, может правильнее станет просто закрыть все Disallow: /wp-, но при этом открыть пути Allow: */uploads
    Allow: /*/*.js
    Allow: /*/*.css
    Allow: /wp-*.png
    Allow: /wp-*.jpg
    Allow: /wp-*.jpeg
    Allow: /wp-*.gif
    файл становится короче,закрытыми остаются необходимые параметры,но при этом медийные файлы имеют возможность индексации. А это дополнительный трафик. Спасибо. С уважением

    • В теории такая конструкция должна работать. Директивы Allow и Disallow в конкретном User-agent блоке сортируются поисковым роботом по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в отсортированном им списке. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.

      На практике я бы посоветовала загрузить готовый файл robots в раздел Яндекс Вебмастера, где можно проверить его корректность. В одном поле нужно указать текст файла, в другом — адрес страницы с медийным файлом. Так вы узнаете, будет ли индексироваться данная страничка.

      Сама правда я на вскидку не нашла в интернете подобных примеров, как у вас, поэтому не рискну что-то твердо утверждать.

Добавить комментарий