Правильный robots.txt для WordPress – 2023

08.04.2019

В этой статье:

1. Оптимальный robots.txt
2. Расширенный вариант (разделенные правила для Google и Яндекса)
3. Оптимальный Robots.txt для WooCommerce
4. Где находится файл robots.txt в WordPress
5. Часто задаваемые вопросы

Robots.txt – текстовой файл, который сообщает поисковым роботам, какие файлы и папки следует сканировать (индексировать), а какие сканировать не нужно.

Поисковые системы, такие как Яндекс и Google сначала проверяют файл robots.txt, после этого начинают обход с помощью веб-роботов, которые занимаются архивированием и категоризацией веб сайтов.

Файл robots.txt содержит набор инструкций, которые просят бота игнорировать определенные файлы или каталоги. Это может быть сделано в целях конфиденциальности или потому что владелец сайта считает, что содержимое этих файлов и каталогов не должны появляться в выдаче поисковых систем.

Правильный robots.txt для WordPress - 2023 - png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEUAAP+KeNJXAAAAAXRSTlMAQObYZgAAAAlwSFlzAAAOxAAADsQBlSsOGwAAAApJREFUCNdjYAAAAAIAAeIhvDMAAAAASUVORK5CYII=

Если веб-сайт имеет более одного субдомена, каждый субдомен должен иметь свой собственный файл robots.txt. Важно отметить, что не все боты будут использовать файл robots.txt. Некоторые злонамеренные боты даже читают файл robots.txt, чтобы найти, какие файлы и каталоги Вы хотели скрыть. Кроме того, даже если файл robots.txt указывает игнорировать определенные страницы на сайте, эти страницы могут по-прежнему появляться в результатах поиска, если на них ссылаются другие просканированные страницы. Стандартный роботс тхт для вордпресс открывает весь сайт для интдекса, поэтому нам нужно закрыть не нужные разделы WordPress от индексации.

Оптимальный robots.txt

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # системная папка на хостинге, закрывается всегда
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # запрос поиска
Disallow: *&s=              # запрос поиска
Disallow: /search/          # запрос поиска
Disallow: /author/          # архив автора, если у Вас новостной блог с авторскими колонками, то можно открыть
# архив автора, если у Вас новостной блог с авторскими колонками, то можно открыть
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=             # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Host прописывать больше не нужно.

Скачать оптимальную версию robots.txt

Расширенный вариант (разделенные правила для Google и Яндекса)

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=              # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=             # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

User-agent: GoogleBot       # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать 
                            # от индексирования, а удалять параметры меток, 
                            # Google такие правила не поддерживает
Clean-Param: openstat       # аналогично

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Host прописывать больше не нужно.

Скачать Расширенный вариант robots.txt

Оптимальный Robots.txt для WooCommerce

Владельцы интернет-магазинов на WordPress – WooCommerce также должны позаботиться о правильном robots.txt. Мы закроем от индексации корзину, страницу оформления заказа и ссылки на добавление товара в корзину.

User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*

Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

Sitemap: https://site.ru/sitemap_index.xml

Скачать robots.txt для WooCommerce

Где находится файл robots.txt в WordPress

Обычно robots.txt располагается в корне сайта. Если его нет, то потребуется создать текстовой файл и загрузить его на сайт по FTP или панель управления на хостинге. Если Вы не смогли найти robots.txt в корне сайта, но при переходе по ссылке вашсайт.ру/robots.txt он открывается, значит какой то из SEO плагинов сам генерирует его.

К примеру плагин Yoast SEO создает виртуальный файл, которого нет в корне сайта.

Как редактировать robots.txt с помощью Yoast SEO

Зайдите в админ панель сайта
Админа панель находится по следующему адресу вашсайт.ру/wp-admin/
Слева в консоли наведите на кнопку SEO и в выпадающем окне выберите “Инструменты”. Перейдите в раздел, как указано на картинке.
Зайдите в редактор файлов
Этот инструмент позволит быстро отредактировать такие важные для вашего SEO файлы, как robots.txt и .htaccess (при его наличии).
Если файла robots.txt нет, нажмите на кнопку создать, либо вставьте нужное содержимое.
Содержимое файла для WordPress и WooCommerce можно взять из примеров выше.
Сохраните изменения в robots.txt
После сохранения файла вы можете проверить правильность через сервисы проверки.

Чтобы установить плагин Yoast SEO воспользуйтесь данной статьей – ссылка.

Часто задаваемые вопросы

Как проверить правильность работы robots.txt?

У Google и Яндекс есть средства для проверки файла robots.txt:
Яндекс – https://webmaster.yandex.ru/tools/robotstxt/
Google – https://support.google.com/webmasters/answer/6062598?hl=ru

Закрывать ли feed в robots.txt?

По умолчанию мы рекомендуем закрывать feed от индексации в robots.txt. Открытие feed может потребоваться, если вы например настраиваете Турбо-страницы от Яндекса или выгружаете свою ленту в другой сервис.

Как разрешить индексировать feed Турбо-страниц

Добавьте директиву: Allow: /feed/turbo/, тогда Яндекс сможет проверять ваши турбо-страницы и обновлять их.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

22 комментария

Артур:

27.07.2019 в 22:52

Здравствуйте я плохо понимаю в робот тексте. Кто может помочь составить робот текст для сайта

Ответить
1. Николай Дмитриев:
  
  28.07.2019 в 09:44
  
  Что не понимаете в настройке роботс? Мы без проблем поможем!
  
  Ответить
Сварог:

30.06.2020 в 15:10

Sitemap там давно не нужен, он так и так добавляется в вебмастер отдельно

Ответить
1. Николай Дмитриев:
  
  30.06.2020 в 17:40
  
  Хоть sitemap.xml и можно указывать в Вебмастере, мы рекомендуем добавлять директиву sitemap в robots.txt.
  Информация о использовании robots.txt в Яндексе – https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html.
  Информация о создании robots.txt от Google – https://support.google.com/webmasters/answer/6062596?hl=ru.
  Как вы можете видеть, во всех примерах есть использование sitemap.xml.
  
  Ответить
Андрей:

28.02.2021 в 15:12

Здравствуйте! Мне для работы с WooCommerce хватит только этого robots.txt, который Вы предложили? То есть нужны ли правила определённые для Google и Yandex или мне же будет достаточно “Оптимальный Robots.txt для WooCommerce”? Спасибо

Ответить
1. Николай Дмитриев:
  
  28.02.2021 в 18:18
  
  Зачастую, не требуется разделять правила для Google и Яндекс, это требуется лишь в тех случаях, когда для определенной поисковой системы требуется закрыть какую-то часть сайта. Вы можете использовать только robots.txt для WooCommerce, никаких ошибок или проблем не возникнет, правила будут применяться для всех поисковых систем.
  
  Ответить
  1. Андрей:
    
    02.03.2021 в 14:41
    
    Спасибо!
    
    Ответить
  2. Максим:
    
    24.01.2022 в 11:35
    
    Здравствуйте!
    Не вижу директиву на закрытие страниц от пагинации Disallow: /page/.
    Так же нт запрета на индексацию внутренних файлов Вордпресс, к примеру установочного файла.
    
    Ответить
    1. Николай Дмитриев:
      
      10.11.2022 в 08:53
      
      Здравствуйте. Страницы пагинации обычно закрываем от индексации с помощью < meta name="robots" content="noindex,nofollow" >. Установочный файл WordPress рекомендуем удалять после установки.
      
      Ответить
Светлана:

05.05.2021 в 10:41

А что значит User-agent? В сторонне статье их куча и всяких разных и там вроде даже твиттер. Разве у твиитера есть поисковый робот?

Ответить
1. Николай Дмитриев:
  
  12.10.2021 в 08:53
  
  Конечно, у твиттера есть свой поисковой робот. User-agent как раз указывает на принадлежность описанных правил к тому или иному поисковому роботу. Мы может разрешать смотреть сайт Яндексу, но запретить, например, Google.
  
  Ответить
Игорь:

11.08.2021 в 21:36

Ребята, спасибо за ваш труд.
Столь вдумчиво и кропотливо все расписали.
Благодарочка!

Ответить
Сергей:

04.10.2021 в 00:32

Подскажите, как закрыть GET параметр – query_type_cms через Robots.txt ?

Ответить
1. Николай Дмитриев:
  
  12.10.2021 в 08:45
  
  Попробуйте использовать Disallow: *query_type_cms*. Посмотрите примеры более детально. Вам станет понятен принцип создания файла robots.txt
  
  Ответить
Павел:

07.10.2021 в 16:54

Добрый день!
Подскажите, можно ли как-то узнать, какой плагин wordpress сгенерировал robots.txt?

Ответить
1. Николай Дмитриев:
  
  12.10.2021 в 08:47
  
  К сожалению, такого способа не знаю, но можно отключить плагины и удалить файл robots.txt. Далее вы включаете плагины по очереди и проверяете, появился ли robots.txt. Ищите у себя в установленных плагинах, плагины, с упоминанием SEO. Также не забывайте делать бэкап:)
  
  Ответить
Светлана:

17.12.2021 в 12:48

Добрый день. Индексируются страницы /add_to_wishlist/, /withlist/ и /privacy-policy-2/. Их нужно отдельно прописывать в файле robots?

Ответить
1. Николай Дмитриев:
  
  17.12.2021 в 12:56
  
  Здравствуйте 🤝! Всё верно. Чтобы закрыть страницы списка желания и политики конфиденциальности от индексации, нужно дописать в robots.txt следующие строки:
  Disallow: /add_to_wishlist/ Disallow: /withlist/ Disallow:/privacy-policy-2/
  Обратите внимание на URL страницы /privacy-policy-2/. У вас возможно уже есть такая страница, иначе бы в адресе не дописался -2. Рекомендую удалить сирую страницу и изменить адрес у новой. Если адрес всё ещё не доступен, то очистите корзину.
  
  Ответить
Светлана:

17.12.2021 в 15:27

Спасибо огромное за помощь!

Ответить
Андрей:

27.01.2022 в 16:55

Можно воспользоваться генератором robots.txt

Ответить
1. Николай Дмитриев:
  
  10.11.2022 в 08:48
  
  Можно, но если понимать принцип построения robots.txt, никакие генераторы не нужны:)
  
  Ответить
Полина Киселева:

05.04.2023 в 13:21

Как и для любого сайта, правильный robots.txt для WordPress – это ключевой инструмент для оптимизации поисковой системы. Это дает возможность контролировать, какие страницы индексируются и какие страницы блокируются от поисковых роботов. Важно помнить, что правильно настроенный robots.txt может помочь улучшить SEO-оптимизацию вашего сайта. Однако, неправильная настройка может привести к блокировке всех поисковых ботов и снижению количества индексированных страниц. Чтобы избежать этого, рекомендуется использовать специальные инструменты для проверки вашего robots.txt на возможные ошибки и правильность конфигурации для вашего сайта.

Ответить