Robots.txt – текстовой файл, который сообщает поисковым роботам, какие файлы и папки следует сканировать (индексировать), а какие сканировать не нужно.
Поисковые системы, такие как Яндекс и Google сначала проверяют файл robots.txt, после этого начинают обход с помощью веб-роботов, которые занимаются архивированием и категоризацией веб сайтов.
Файл robots.txt содержит набор инструкций, которые просят бота игнорировать определенные файлы или каталоги. Это может быть сделано в целях конфиденциальности или потому что владелец сайта считает, что содержимое этих файлов и каталогов не должны появляться в выдаче поисковых систем.
Если веб-сайт имеет более одного субдомена, каждый субдомен должен иметь свой собственный файл robots.txt. Важно отметить, что не все боты будут использовать файл robots.txt. Некоторые злонамеренные боты даже читают файл robots.txt, чтобы найти, какие файлы и каталоги Вы хотели скрыть. Кроме того, даже если файл robots.txt указывает игнорировать определенные страницы на сайте, эти страницы могут по-прежнему появляться в результатах поиска, если на них ссылаются другие просканированные страницы. Стандартный роботс тхт для вордпресс открывает весь сайт для интдекса, поэтому нам нужно закрыть не нужные разделы WordPress от индексации.
Оптимальный robots.txt
User-agent: * # общие правила для роботов, кроме Яндекса и Google,
# т.к. для них правила ниже
Disallow: /cgi-bin # системная папка на хостинге, закрывается всегда
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет,
# правило можно удалить)
Disallow: *?s= # запрос поиска
Disallow: *&s= # запрос поиска
Disallow: /search/ # запрос поиска
Disallow: /author/ # архив автора, если у Вас новостной блог с авторскими колонками, то можно открыть
# архив автора, если у Вас новостной блог с авторскими колонками, то можно открыть
Disallow: /users/ # архив авторов
Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой
# ссылки на статью
Disallow: */feed # все фиды
Disallow: */rss # rss фид
Disallow: */embed # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,
# правило можно удалить)
Disallow: /xmlrpc.php # файл WordPress API
Disallow: *utm*= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Allow: */uploads # открываем папку с файлами uploads
# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz
# Host прописывать больше не нужно.
Расширенный вариант (разделенные правила для Google и Яндекса)
User-agent: * # общие правила для роботов, кроме Яндекса и Google,
# т.к. для них правила ниже
Disallow: /cgi-bin # папка на хостинге
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет,
# правило можно удалить)
Disallow: *?s= # поиск
Disallow: *&s= # поиск
Disallow: /search/ # поиск
Disallow: /author/ # архив автора
Disallow: /users/ # архив авторов
Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой
# ссылки на статью
Disallow: */feed # все фиды
Disallow: */rss # rss фид
Disallow: */embed # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,
# правило можно удалить)
Disallow: /xmlrpc.php # файл WordPress API
Disallow: *utm*= # ссылки с utm-метками
Disallow: *openstat= # ссылки с метками openstat
Allow: */uploads # открываем папку с файлами uploads
User-agent: GoogleBot # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS
User-agent: Yandex # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать
# от индексирования, а удалять параметры меток,
# Google такие правила не поддерживает
Clean-Param: openstat # аналогично
# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz
# Host прописывать больше не нужно.
Оптимальный Robots.txt для WooCommerce
Владельцы интернет-магазинов на WordPress – WooCommerce также должны позаботиться о правильном robots.txt. Мы закроем от индексации корзину, страницу оформления заказа и ссылки на добавление товара в корзину.
User-agent: *
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Sitemap: https://site.ru/sitemap_index.xml
Где находится файл robots.txt в WordPress
Обычно robots.txt располагается в корне сайта. Если его нет, то потребуется создать текстовой файл и загрузить его на сайт по FTP или панель управления на хостинге. Если Вы не смогли найти robots.txt в корне сайта, но при переходе по ссылке вашсайт.ру/robots.txt
он открывается, значит какой то из SEO плагинов сам генерирует его.
К примеру плагин Yoast SEO создает виртуальный файл, которого нет в корне сайта.
Как редактировать robots.txt с помощью Yoast SEO
- Зайдите в админ панель сайта
Админа панель находится по следующему адресу вашсайт.ру/wp-admin/
- Слева в консоли наведите на кнопку SEO и в выпадающем окне выберите “Инструменты”. Перейдите в раздел, как указано на картинке.
- Зайдите в редактор файлов
Этот инструмент позволит быстро отредактировать такие важные для вашего SEO файлы, как robots.txt и .htaccess (при его наличии).
- Если файла robots.txt нет, нажмите на кнопку создать, либо вставьте нужное содержимое.
Содержимое файла для WordPress и WooCommerce можно взять из примеров выше.
- Сохраните изменения в robots.txt
После сохранения файла вы можете проверить правильность через сервисы проверки.
Чтобы установить плагин Yoast SEO воспользуйтесь данной статьей – ссылка.
Часто задаваемые вопросы
У Google и Яндекс есть средства для проверки файла robots.txt:
Яндекс – https://webmaster.yandex.ru/tools/robotstxt/
Google – https://support.google.com/webmasters/answer/6062598?hl=ru
По умолчанию мы рекомендуем закрывать feed от индексации в robots.txt. Открытие feed может потребоваться, если вы например настраиваете Турбо-страницы от Яндекса или выгружаете свою ленту в другой сервис.
Добавьте директиву: Allow: /feed/turbo/
, тогда Яндекс сможет проверять ваши турбо-страницы и обновлять их.
Здравствуйте я плохо понимаю в робот тексте. Кто может помочь составить робот текст для сайта
Что не понимаете в настройке роботс? Мы без проблем поможем!
Sitemap там давно не нужен, он так и так добавляется в вебмастер отдельно
Хоть sitemap.xml и можно указывать в Вебмастере, мы рекомендуем добавлять директиву sitemap в robots.txt.
Информация о использовании robots.txt в Яндексе – https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html.
Информация о создании robots.txt от Google – https://support.google.com/webmasters/answer/6062596?hl=ru.
Как вы можете видеть, во всех примерах есть использование sitemap.xml.
Здравствуйте! Мне для работы с WooCommerce хватит только этого robots.txt, который Вы предложили? То есть нужны ли правила определённые для Google и Yandex или мне же будет достаточно “Оптимальный Robots.txt для WooCommerce”? Спасибо
Зачастую, не требуется разделять правила для Google и Яндекс, это требуется лишь в тех случаях, когда для определенной поисковой системы требуется закрыть какую-то часть сайта. Вы можете использовать только robots.txt для WooCommerce, никаких ошибок или проблем не возникнет, правила будут применяться для всех поисковых систем.
Спасибо!
Здравствуйте!
Не вижу директиву на закрытие страниц от пагинации Disallow: /page/.
Так же нт запрета на индексацию внутренних файлов Вордпресс, к примеру установочного файла.
Здравствуйте. Страницы пагинации обычно закрываем от индексации с помощью
< meta name="robots" content="noindex,nofollow" >
. Установочный файл WordPress рекомендуем удалять после установки.А что значит User-agent? В сторонне статье их куча и всяких разных и там вроде даже твиттер. Разве у твиитера есть поисковый робот?
Конечно, у твиттера есть свой поисковой робот. User-agent как раз указывает на принадлежность описанных правил к тому или иному поисковому роботу. Мы может разрешать смотреть сайт Яндексу, но запретить, например, Google.
Ребята, спасибо за ваш труд.
Столь вдумчиво и кропотливо все расписали.
Благодарочка!
Подскажите, как закрыть GET параметр – query_type_cms через Robots.txt ?
Попробуйте использовать
Disallow: *query_type_cms*
. Посмотрите примеры более детально. Вам станет понятен принцип создания файла robots.txtДобрый день!
Подскажите, можно ли как-то узнать, какой плагин wordpress сгенерировал robots.txt?
К сожалению, такого способа не знаю, но можно отключить плагины и удалить файл robots.txt. Далее вы включаете плагины по очереди и проверяете, появился ли robots.txt. Ищите у себя в установленных плагинах, плагины, с упоминанием SEO. Также не забывайте делать бэкап:)
Добрый день. Индексируются страницы /add_to_wishlist/, /withlist/ и /privacy-policy-2/. Их нужно отдельно прописывать в файле robots?
Здравствуйте 🤝! Всё верно. Чтобы закрыть страницы списка желания и политики конфиденциальности от индексации, нужно дописать в robots.txt следующие строки:
Disallow: /add_to_wishlist/
Disallow: /withlist/
Disallow:/privacy-policy-2/
Обратите внимание на URL страницы /privacy-policy-2/. У вас возможно уже есть такая страница, иначе бы в адресе не дописался -2. Рекомендую удалить сирую страницу и изменить адрес у новой. Если адрес всё ещё не доступен, то очистите корзину.
Спасибо огромное за помощь!
Можно воспользоваться генератором robots.txt
Можно, но если понимать принцип построения robots.txt, никакие генераторы не нужны:)
Как и для любого сайта, правильный robots.txt для WordPress – это ключевой инструмент для оптимизации поисковой системы. Это дает возможность контролировать, какие страницы индексируются и какие страницы блокируются от поисковых роботов. Важно помнить, что правильно настроенный robots.txt может помочь улучшить SEO-оптимизацию вашего сайта. Однако, неправильная настройка может привести к блокировке всех поисковых ботов и снижению количества индексированных страниц. Чтобы избежать этого, рекомендуется использовать специальные инструменты для проверки вашего robots.txt на возможные ошибки и правильность конфигурации для вашего сайта.