Создание правильного файла robots.txt — важный шаг для улучшения индексации сайта. Я покажу вам готовый файл robots.txt, объясню, что означают его директивы и покажу как добавить его на ваш сайт.
Что такое robots.txt?
Файл robots.txt помогает управлять индексированием сайта, содержит важные указания для роботов поисковых систем, ограничивает им доступ к содержимому на сервере. Файл этот нужно разместить в корне сайта.
Что может файл robots.txt?
- Определяет какие области сайта (папки, странички, записи) можно индексировать, а какие нельзя.
- Указывает, где размещен файл sitemap.xml.
- Указывает, какие области сайта нужно индексировать в первую очередь.
- Указывает главный домен сайта (либо с www либо без).
- Помогает избежать дублирования контента путем запрета индексации тегов или рубрик. Таким образом, одна и та же статья не будет доступна по нескольким адресам и не попадет дважды в поисковый индекс. А как вы помните, поисковики терпеть не могут дублирование контента.
Как создать правильный robots.txt для Вордпресс?
Нужно поместить в корневом каталоге сайта текстовый файл robots.txt. Название файла должно быть «robots». А «.txt» — это его расширение.
Создать файл с таким расширением можно с помощью стандартной компьютерной программы Блокнот. Кликните на рабочем столе правой кнопкой мыши. Выберите «Создать» -> «Текстовый документ».
Содержание файла можете скопировать у меня из приведенного примера. Только вам нужно указать собственный домен и свою ссылку на xml карту сайта.
В одном из прошлых уроков мы рассматривали плагин All In One SEO Pack. У него можно активировать модуль «Редактор файлов».
Если вы зайдете в редактор файлов, то увидите вкладку для редактирования robots.txt.
Вы можете просто вставить туда необходимое содержимое и сохранить изменения.
Готовый файл robots.txt для WordPress
Файл robots.txt может быть, например, таким:
User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /webstat/ Disallow: /trackback Disallow: */trackback Disallow: /*?* Disallow: /*? Disallow: *.php$ Disallow: /tag/ Disallow: /category/*/* Disallow: /wp-content/themes Disallow: /wp-content/plugins Disallow: /wp-content/languages Disallow: /wp-content/upgrade Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: */attachment/ Host: https://blog.ru User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /webstat/ Disallow: /trackback Disallow: */trackback Disallow: /*?* Disallow: /*? Disallow: *.php$ Disallow: /tag/ Disallow: /category/*/* Disallow: /wp-content/themes Disallow: /wp-content/plugins Disallow: /wp-content/languages Disallow: /wp-content/upgrade Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: */attachment/ Sitemap: https://blog.ru/sitemap.xml.gz Sitemap: https://blog.ru/sitemap.xml
Что означают директивы файла robots.txt?
Операторы
- User-agent — указывается имя поискового робота, для которого задаются настройки. Значение * указывает, что данные параметры заданы для всех поисковых роботов, у которых не определены персональные настройки.
- Disallow — запрещает индексацию области сайта по указанному адресу.
- Host – указывает главный домен сайта (либо с www либо без него).
- Sitemap – показывает ссылку на карту сайта sitemap.xml.
- Еще есть оператор Allow. Он ставится всегда перед оператором Disallow. Он необходим, чтобы разрешить индексацию подобласти сайта, которая попала в область, уже запрещенную к индексации оператором Disallow.
Давайте посмотрим на наш файл.
Что у нас закрыто от индексации?
- Служебные и системные файлы Вордпресс (за исключением директории для загрузки файлов uploads)
- Лента RSS
- Трэкбэки
- Дубли страниц из результатов поиска
- Дубли страниц из категорий
В первом абзаце у нас прописны настройки для роботов Яндекса. Они роботы капризные — любят персональный подход.
Во втором абзаце указаны настройки для всех остальных поисковиков.
В третьем абзаце прописан путь к файлам sitemap.
Персональные настройки можно прописать для любой поисковой системы. В начале файла при этом лучше перечислить все персональные настройки для конкретных поисковиков, а лишь затем указать общие настройки для остальных поисковых систем.
Если вы хотите закрыть от индексации комментарии, то файл будет выглядеть так:
User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /webstat/ Disallow: /feed/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/themes Disallow: /wp-content/plugins Disallow: /wp-content/languages Disallow: /wp-content/upgrade Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Host: vash-sait.ru User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /webstat/ Disallow: /feed/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/themes Disallow: /wp-content/plugins Disallow: /wp-content/languages Disallow: /wp-content/upgrade Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Sitemap: http://vash-sait.ru/sitemap.xml.gz Sitemap: http://vash-sait.ru/sitemap.xml
Я не запрещаю индексацию комментариев, поскольку у меня есть время на их тщательную модерацию.
Вы можете подсмотреть содержимое файла robots.txt у любого сайта. Достаточно набрать адрес http://sait.ru/robots.txt
Надеюсь данная статья оказалась для вас полезной. Если есть вопросы — задавайте в комментариях.
Здравствуйте. Роботс действительно для многих головная боль. Добрую информацию вы выложили,уважаемый. А как вы думаете, может правильнее станет просто закрыть все Disallow: /wp-, но при этом открыть пути Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
файл становится короче,закрытыми остаются необходимые параметры,но при этом медийные файлы имеют возможность индексации. А это дополнительный трафик. Спасибо. С уважением
В теории такая конструкция должна работать. Директивы Allow и Disallow в конкретном User-agent блоке сортируются поисковым роботом по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в отсортированном им списке. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.
На практике я бы посоветовала загрузить готовый файл robots в раздел Яндекс Вебмастера, где можно проверить его корректность. В одном поле нужно указать текст файла, в другом — адрес страницы с медийным файлом. Так вы узнаете, будет ли индексироваться данная страничка.
Сама правда я на вскидку не нашла в интернете подобных примеров, как у вас, поэтому не рискну что-то твердо утверждать.
Спс за готовый роботс для вордпресса