Правильный robots.txt для WordPress – 2023

robots.txt для WordPress

Robots.txt – текстовой файл, который сообщает поисковым роботам, какие файлы и папки следует сканировать (индексировать), а какие сканировать не нужно.

Поисковые системы, такие как Яндекс и Google сначала проверяют файл robots.txt, после этого начинают обход с помощью веб-роботов, которые занимаются архивированием и категоризацией веб сайтов.

Файл robots.txt содержит набор инструкций, которые просят бота игнорировать определенные файлы или каталоги. Это может быть сделано в целях конфиденциальности или потому что владелец сайта считает, что содержимое этих файлов и каталогов не должны появляться в выдаче поисковых систем.

Правильный robots.txt для WordPress - 2023 - png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEUAAP+KeNJXAAAAAXRSTlMAQObYZgAAAAlwSFlzAAAOxAAADsQBlSsOGwAAAApJREFUCNdjYAAAAAIAAeIhvDMAAAAASUVORK5CYII=

Если веб-сайт имеет более одного субдомена, каждый субдомен должен иметь свой собственный файл robots.txt. Важно отметить, что не все боты будут использовать файл robots.txt. Некоторые злонамеренные боты даже читают файл robots.txt, чтобы найти, какие файлы и каталоги Вы хотели скрыть. Кроме того, даже если файл robots.txt указывает игнорировать определенные страницы на сайте, эти страницы могут по-прежнему появляться в результатах поиска, если на них ссылаются другие просканированные страницы. Стандартный роботс тхт для вордпресс открывает весь сайт для интдекса, поэтому нам нужно закрыть не нужные разделы WordPress от индексации.

Оптимальный robots.txt

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # системная папка на хостинге, закрывается всегда
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # запрос поиска
Disallow: *&s=              # запрос поиска
Disallow: /search/          # запрос поиска
Disallow: /author/          # архив автора, если у Вас новостной блог с авторскими колонками, то можно открыть
# архив автора, если у Вас новостной блог с авторскими колонками, то можно открыть
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=             # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Host прописывать больше не нужно.

Расширенный вариант (разделенные правила для Google и Яндекса)

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=              # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=             # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

User-agent: GoogleBot       # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать 
                            # от индексирования, а удалять параметры меток, 
                            # Google такие правила не поддерживает
Clean-Param: openstat       # аналогично

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Host прописывать больше не нужно.

Оптимальный Robots.txt для WooCommerce

Владельцы интернет-магазинов на WordPress – WooCommerce также должны позаботиться о правильном robots.txt. Мы закроем от индексации корзину, страницу оформления заказа и ссылки на добавление товара в корзину.

User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*

Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

Sitemap: https://site.ru/sitemap_index.xml

Где находится файл robots.txt в WordPress

Обычно robots.txt располагается в корне сайта. Если его нет, то потребуется создать текстовой файл и загрузить его на сайт по FTP или панель управления на хостинге. Если Вы не смогли найти robots.txt в корне сайта, но при переходе по ссылке вашсайт.ру/robots.txt он открывается, значит какой то из SEO плагинов сам генерирует его.

К примеру плагин Yoast SEO создает виртуальный файл, которого нет в корне сайта.

Как редактировать robots.txt с помощью Yoast SEO

  1. Зайдите в админ панель сайта

    Админа панель находится по следующему адресу вашсайт.ру/wp-admin/

  2. Слева в консоли наведите на кнопку SEO и в выпадающем окне выберите “Инструменты”. Перейдите в раздел, как указано на картинке.

    Правильный robots.txt для WordPress - 2023 - png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEUAAP+KeNJXAAAAAXRSTlMAQObYZgAAAAlwSFlzAAAOxAAADsQBlSsOGwAAAApJREFUCNdjYAAAAAIAAeIhvDMAAAAASUVORK5CYII=

  3. Зайдите в редактор файлов

    Этот инструмент позволит быстро отредактировать такие важные для вашего SEO файлы, как robots.txt и .htaccess (при его наличии).Правильный robots.txt для WordPress - 2023 - png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEUAAP+KeNJXAAAAAXRSTlMAQObYZgAAAAlwSFlzAAAOxAAADsQBlSsOGwAAAApJREFUCNdjYAAAAAIAAeIhvDMAAAAASUVORK5CYII=

  4. Если файла robots.txt нет, нажмите на кнопку создать, либо вставьте нужное содержимое.

    Содержимое файла для WordPress и WooCommerce можно взять из примеров выше.
    Правильный robots.txt для WordPress - 2023 - png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEUAAP+KeNJXAAAAAXRSTlMAQObYZgAAAAlwSFlzAAAOxAAADsQBlSsOGwAAAApJREFUCNdjYAAAAAIAAeIhvDMAAAAASUVORK5CYII=

  5. Сохраните изменения в robots.txt

    После сохранения файла вы можете проверить правильность через сервисы проверки.

Чтобы установить плагин Yoast SEO воспользуйтесь данной статьей – ссылка.

Часто задаваемые вопросы

Как проверить правильность работы robots.txt?

У Google и Яндекс есть средства для проверки файла robots.txt:
Яндекс – https://webmaster.yandex.ru/tools/robotstxt/
Google – https://support.google.com/webmasters/answer/6062598?hl=ru

Закрывать ли feed в robots.txt?

По умолчанию мы рекомендуем закрывать feed от индексации в robots.txt. Открытие feed может потребоваться, если вы например настраиваете Турбо-страницы от Яндекса или выгружаете свою ленту в другой сервис.

Как разрешить индексировать feed Турбо-страниц

Добавьте директиву: Allow: /feed/turbo/, тогда Яндекс сможет проверять ваши турбо-страницы и обновлять их.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Total
10
Shares
22 комментария
  1. Здравствуйте я плохо понимаю в робот тексте. Кто может помочь составить робот текст для сайта

    1. Что не понимаете в настройке роботс? Мы без проблем поможем!

  2. Sitemap там давно не нужен, он так и так добавляется в вебмастер отдельно

    1. Хоть sitemap.xml и можно указывать в Вебмастере, мы рекомендуем добавлять директиву sitemap в robots.txt.
      Информация о использовании robots.txt в Яндексе – https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html.
      Информация о создании robots.txt от Google – https://support.google.com/webmasters/answer/6062596?hl=ru.
      Как вы можете видеть, во всех примерах есть использование sitemap.xml.

  3. Здравствуйте! Мне для работы с WooCommerce хватит только этого robots.txt, который Вы предложили? То есть нужны ли правила определённые для Google и Yandex или мне же будет достаточно “Оптимальный Robots.txt для WooCommerce”? Спасибо

    1. Зачастую, не требуется разделять правила для Google и Яндекс, это требуется лишь в тех случаях, когда для определенной поисковой системы требуется закрыть какую-то часть сайта. Вы можете использовать только robots.txt для WooCommerce, никаких ошибок или проблем не возникнет, правила будут применяться для всех поисковых систем.

      1. Здравствуйте!
        Не вижу директиву на закрытие страниц от пагинации Disallow: /page/.
        Так же нт запрета на индексацию внутренних файлов Вордпресс, к примеру установочного файла.

        1. Здравствуйте. Страницы пагинации обычно закрываем от индексации с помощью < meta name="robots" content="noindex,nofollow" >. Установочный файл WordPress рекомендуем удалять после установки.

  4. А что значит User-agent? В сторонне статье их куча и всяких разных и там вроде даже твиттер. Разве у твиитера есть поисковый робот?

    1. Конечно, у твиттера есть свой поисковой робот. User-agent как раз указывает на принадлежность описанных правил к тому или иному поисковому роботу. Мы может разрешать смотреть сайт Яндексу, но запретить, например, Google.

  5. Ребята, спасибо за ваш труд.
    Столь вдумчиво и кропотливо все расписали.
    Благодарочка!

    1. Попробуйте использовать Disallow: *query_type_cms*. Посмотрите примеры более детально. Вам станет понятен принцип создания файла robots.txt

  6. Добрый день!
    Подскажите, можно ли как-то узнать, какой плагин wordpress сгенерировал robots.txt?

    1. К сожалению, такого способа не знаю, но можно отключить плагины и удалить файл robots.txt. Далее вы включаете плагины по очереди и проверяете, появился ли robots.txt. Ищите у себя в установленных плагинах, плагины, с упоминанием SEO. Также не забывайте делать бэкап:)

  7. Добрый день. Индексируются страницы /add_to_wishlist/, /withlist/ и /privacy-policy-2/. Их нужно отдельно прописывать в файле robots?

    1. Здравствуйте 🤝! Всё верно. Чтобы закрыть страницы списка желания и политики конфиденциальности от индексации, нужно дописать в robots.txt следующие строки:
      Disallow: /add_to_wishlist/
      Disallow: /withlist/
      Disallow:/privacy-policy-2/

      Обратите внимание на URL страницы /privacy-policy-2/. У вас возможно уже есть такая страница, иначе бы в адресе не дописался -2. Рекомендую удалить сирую страницу и изменить адрес у новой. Если адрес всё ещё не доступен, то очистите корзину.

    1. Можно, но если понимать принцип построения robots.txt, никакие генераторы не нужны:)

  8. Как и для любого сайта, правильный robots.txt для WordPress – это ключевой инструмент для оптимизации поисковой системы. Это дает возможность контролировать, какие страницы индексируются и какие страницы блокируются от поисковых роботов. Важно помнить, что правильно настроенный robots.txt может помочь улучшить SEO-оптимизацию вашего сайта. Однако, неправильная настройка может привести к блокировке всех поисковых ботов и снижению количества индексированных страниц. Чтобы избежать этого, рекомендуется использовать специальные инструменты для проверки вашего robots.txt на возможные ошибки и правильность конфигурации для вашего сайта.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Предыдущая статья
Обучение WordPress Gutenberg: как пользоваться новым блочным редактором в WordPress 5.0 - png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABAQMAAAAl21bKAAAAA1BMVEUAAP+KeNJXAAAAAXRSTlMAQObYZgAAAAlwSFlzAAAOxAAADsQBlSsOGwAAAApJREFUCNdjYAAAAAIAAeIhvDMAAAAASUVORK5CYII=

Обучение WordPress Gutenberg: как пользоваться новым блочным редактором в WordPress 5.0

Next Post
дублированный контент

Дублированный контент на сайте

Похожие статьи

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: