Настройка wordpress robots txt: Правильный файл robots.txt для WordPress — важные правила при запрете индексации – Файл robots.txt для WordPress: для Яндекс и Google

robots.txt настройка | WordPress.org Русский

Модератор Yui

(@fierevere)

ゆい

много мусора
в том числе не только не нужного, но и вредного
к тому же дублирующегося, ПС хотят видеть ваши js и css

Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes

Host и Sitemap заданы неверно
раз уж вам повезло иметь кириллический домен, то используйте punycode

XN—-7SBBAGDDAKC1ED2BCHZ7B.XN—P1AI


Host: XN----7SBBAGDDAKC1ED2BCHZ7B.XN--P1AI
Sitemap: http://XN----7SBBAGDDAKC1ED2BCHZ7B.XN--P1AI/sitemap.xml

Yui Вопрос по вашему ответу. 🙂

Ту часть файла, что вы написали, это что? То, что достаточно иметь в robots.txt или то, что у топик-стартера лишнее?

(Отредактировал по п.2. Просто за 19 лет в инете и разных форумах привык, что там модераторы наоборот, наказывают (и сам наказывал) за то, что плодят темы. А тут наоборот… Извините.)

  • Ответ изменён 3 года назад пользователем ezdiumno_ru.
  • Ответ изменён 3 года назад пользователем ezdiumno_ru. Причина: Приведение к правилам форума
Модератор Yui

(@fierevere)

ゆい

ezdiumno0ru
подробности тут в п 2

Спасибо за домен поменял. Скопируйте пожалуйста роботс с правильными изменениями если возможно. Спасибо.

Модератор Yui

(@fierevere)

ゆい

при отсутствии robots.txt на диске, wordpress генерирует и отдает свой robots.txt
с дополнениями директив от SEO плагинов, я считаю что то, что он отдает — необходимо и достаточно

То есть мне убрать из корневого каталога роботс фаил и Как я увижу созданный WP.?
Не сочтите за грубость можно этот изменить.

Модератор Yui

(@fierevere)

ゆい

http://адрес.сайта/robots.txt

Модератор Yui

(@fierevere)

ゆい

похоже вы решили проигнорировать указание на то, что ПС хотят видеть все ваши js и css

Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes

вот это надо убрать из Disallow

Извините за мою темноту — я не знаю, что такое js и css. То есть если я уберу
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes

То все вопросы снимутся с моего робота включая и js и css. Спасибо.

Модератор Yui

(@fierevere)

ゆい

js / css — файлы с соответствующими расширениями,
ява скрипт и CSS соответственно, обрабатываются как браузером, так теперь и поисковыми роботами, блокировка доступа к стилям и скриптам отрицательно сказывается на индексации и ранжировке, ПС хотят видеть страницы так, как видит их посетитель.

Как открыть роботам путь к js / css файлам.?

Модератор Yui

(@fierevere)

ゆい

посмотреть чуть выше и убрать этот фрагмент, который закрывает ПС доступ к ним в папках wp-includes а также тем и плагинов

А сейчас Sitemap: http://xn—-7sbbagddakc1ed2bchz7b.xn--p1ai/sitemap.xml

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: xn—-7sbbagddakc1ed2bchz7b.xn--p1ai
Sitemap: http://xn—-7sbbagddakc1ed2bchz7b.xn--p1ai/sitemap.xml.gz
Sitemap: http://xn—-7sbbagddakc1ed2bchz7b.xn--p1ai/sitemap.xml

описание, пример, настройка, как создать

robots.txt для wordpressrobots.txt — файл с инструкциями для роботов поисковых систем по обходу содержимого вашего сайта или блога. Данный файл находится в корне сайта, и в нем нужно прописать некоторые директивы для различных поисковиков, то есть он нужен, в первую очередь для SEO. В данной статье речь пойдёт о файле robots.txt для wordpress, но описанные принципы применимы для любого движка.

Если указанного файла на вашем сайте не имеется, создайте его в любом текстовом редакторе (или скачайте по ссылке в этой статье) и поместите на сервере в корне вашего ресурса. Поисковый робот при заходе на ваш сайт в первую очередь ищет именно этот файл, поскольку в нем находятся инструкции для дальнейшей работы робота.

В общем сайт может существовать и без этого файла, но, например, яндекс вебмастер расценивает его отсутствие как ошибку, так же как и отсутствие директив host и карты сайта.

Пример файла robots.txt

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback/ Disallow: */feed Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: */wp-json/* Allow: /wp-content/uploads/ Host: site.ru User-agent: Googlebot Disallow: /wp-admin Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback/ Disallow: */feed Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: */wp-json/* Allow: /wp-content/uploads/ User-agent: Mail.Ru Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback/ Disallow: */feed Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: */wp-json/* Allow: /wp-content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback/ Disallow: */feed Disallow: */comments/ Disallow: */comment Disallow: */attachment/* Disallow: */print/ Disallow: *?print=* Disallow: */embed* Disallow: */wp-json/* Allow: /wp-content/uploads/ User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/ User-agent: Mediapartners-Google Disallow: User-Agent: YaDirectBot Disallow: Sitemap: http://site.ru/sitemap.xml

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

User-agent: Yandex

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /search

Disallow: */trackback/

Disallow: */feed

Disallow: */comments/

Disallow: */comment

Disallow: */attachment/*

Disallow: */print/

Disallow: *?print=*

Disallow: */embed*

Disallow: */wp-json/*

Allow: /wp-content/uploads/

Host: site.ru

 

User-agent: Googlebot

Disallow: /wp-admin

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /search

Disallow: */trackback/

Disallow: */feed

Disallow: */comments/

Disallow: */comment

Disallow: */attachment/*

Disallow: */print/

Disallow: *?print=*

Disallow: */embed*

Disallow: */wp-json/*

Allow: /wp-content/uploads/

 

User-agent: Mail.Ru

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /search

Disallow: */trackback/

Disallow: */feed

Disallow: */comments/

Disallow: */comment

Disallow: */attachment/*

Disallow: */print/

Disallow: *?print=*

Disallow: */embed*

Disallow: */wp-json/*

Allow: /wp-content/uploads/

 

User-agent: *

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /search

Disallow: */trackback/

Disallow: */feed

Disallow: */comments/

Disallow: */comment

Disallow: */attachment/*

Disallow: */print/

Disallow: *?print=*

Disallow: */embed*

Disallow: */wp-json/*

Allow: /wp-content/uploads/

 

User-agent: Googlebot-Image

Allow: /wp-content/uploads/

 

User-agent: YandexImages

Allow: /wp-content/uploads/

 

User-agent: Mediapartners-Google

Disallow:

 

User-Agent: YaDirectBot

Disallow:

 

Sitemap: http://site.ru/sitemap.xml

Вы можете скачать этот файл по ссылке в формате zip и взять его за шаблон.

Обратите внимание, что нужно заменить site.ru на адрес вашего ресурса.

Настройка robots.txt

Нельзя говорить о каком-то стандартном или самом правильном robots.txt. Для каждого сайта в нем могут быть свои директивы в зависимости от установленных плагинов и т.д.

Рассмотрим основные применяемые инструкции.

User-Agent означает, что следующие после него инструкции предназначены именно для этого юзерагента. В данном случае под юзерагентом подразумевается название поискового робота. Рекомендуется создать разные разделы для основных поисковых систем, то есть для Яндекс, Гугл, а в нашем случае еще и для mail. Инструкции для прочих агентов находятся в блоке со “*”.

Директива disallow означает, что адреса страниц, соответствующие указанной после нее маске, не подлежат обходу и индексации. Например, маска /wp-admin закрывает все файлы из служебного каталога wp-admin.

Сайт WP содержит большое количество служебных папок, индексировать которые поисковикам не нужно. Поэтому рекомендуется сделать так, чтобы поисковик не тратил на них ресурсы, а индексировал лишь необходимое.

Команда allow обладает, соответственно, противоположным смыслом и указывает, что эти адреса можно обходить.

Директива host (ее требует яндекс) указывает основное зеркало сайта (то есть с www или без).

Sitemap указывает на адрес карты сайта, обычно – sitemap.xml. В том случае, если карты сайта у вас нет, ее желательно создать. (Статья о создании карты сайта.)

Кроме того, для гугл нужно открыть некоторые используемые файлы js и css. Робот google хочет видеть все файлы, в том числе стили и скрипты, участвующие в формировании страницы. Эти инструкции могут отличаться в зависимости от конфигурации сайта. Рекомендую прочитать статью Что делать с сообщением — Googlebot не может получить доступ к файлам CSS и JS на сайте.

Как создать правильный robots.txt для WordPress

Правильно настроенный  robots.txt  обеспечивает грамотную индексацию нашему сайту, неправильный же может совсем убрать его из обзора поисковиков) Поэтому обязательно нужно уделить этому вопросу должное внимание.

Если вы заметили, что в индексе поисковиков откуда-то обнаруживаются дубликаты ваших постов, или какие-то непонятные страницы, то проблема наверняка именно в robots.txt.

Нередко замечал даже у довольно крупных и раскрученных сайтов и блогов ошибки в данном файлике.

Но прежде чем создавать robots.txt некоторые из вас(новички) могут задаться вопросом – а что собственно это за зверь такой?

Что такое robots.txt и зачем он нужен?

Это обычный txt-файлик, который расположен в корневом каталоге ваше сайта. Главным образом  robots.txt нужен для того, что бы ограничивать доступ поисковиков к некоторым страницам вашего сайта, т.е. что бы они не  индексировались.

Вы скажите, зачем же мне что-то прятать от поисковых роботов, я хочу, что бы мой сайт был в поиске! Однако уверяю вас, практически на любом сайте есть что укрыть от всевидящего ока, особенно сайты на CMS WordPress 🙂

В первую очередь это служебные разделы вашего сайта и дубликаты страниц (которых Worpress плодит очень много)


Ну согласитесь, зачем поисковику нужно копаться в админской зоне, или скажем в папке с установленными плагинами. Так же нужно обязательно прятать повторяющиеся страницы.

Откуда берутся дубликаты страниц в Worpress? Да отовсюду 🙂

Это архивы страниц по меткам, это архивы по дате, архивы по авторам, по категориям (рубрикам) В результате, если не закрыть их от индексации поисковиков, то в поисковой выдаче могут появиться много вариантов одних и тех же страниц.

Чем это может мне навредить, спросите вы? Ну, во-первых, проиндексировать 50 страниц, или 300 страниц , есть разница. Вы значительно ускорите индексацию своего сайта, убрав все лишнее и оставив только самое нужное.

Кроме того, робот может проиндексировать ненужные страницы, а до нужных так и не добраться, или же добраться но очень нескоро.

Так же у вас могут быть личные страницы, которые вы не хотите выставлять на всеобщее обозрение.

Стоит задуматься и о том, что бы скрывать и комментарии от индексации, если их очень много и они не особо модерируются.

Помимо прочего в robots.txt указывается главное зеркало вашего сайта.  URL сайта может выглядеть как www.sait.ru или просто sait.ru и для поисковиков это два разных сайта.

Что бы узнать какое у вашего сайта главное зеркало наберите его в браузере с www, и если URL измениться  и www исчезнет в адресной строке, то ваше главное зеркало sait.ru Если же останется www.sait.ru то это  и есть главное зеркало. Разумеется вместо sait.ru подставляем адрес своего сайта.

Еще  в нем указывается местоположение карты сайта для поисковиков sitemap.xml. Что это такое и как ее создавать я писал в предыдущем уроке , если вы не делали sitemap, то обязательно сделайте!

Как создать правильный robots.txt для WordPress.

Вот так выглядит мой robots.txt на данный момент:

[sourcecode language=»plain»]

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */comments
Disallow: /page
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /category
Disallow: /wp-login.php
Disallow: /tag

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */comments
Disallow: /page
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /category
Disallow: /wp-login.php
Disallow: /tag

Host: ruskweb.ru

Sitemap: https://ruskweb.ru/sitemap.xml
Sitemap: https://ruskweb.ru/sitemap.xml.gz

[/sourcecode]

Можете скопировать в свой файл robots.txt, практически все настройки стандартные, убирают дубликаты страниц и закрывают админскую зону, в которую не нужно совать нос) Единственное что вы можете открыть комментарии если хотите, удалив строчки 8 и 26   Disallow: */comments.

Если же у вас вообще нет   robots.txt то создайте его в блокноте и поместите в корень вашего сайта.

Тут читаем что такое корень сайта и как копировать файлы на ваш сайт.

Важно! Не забудьте изменить  адрес сайта в последних трех строчках  на ваш собственный.

Перед созданием такого robots.txt обязательно включите ЧПУ, иначе будут проблемы с индексацией сайта!

И немного о том что мы там прописали.

User-agent:  определяет к какому поисковику относятся правила.

В строке Disallow: мы закрываем доступ поисковикам к разделам сайта.

В строке  Host: указываем главное зеркало своего сайта.

В строке Sitemap:  мы указываем местоположение карты сайта sitemap.xml


Проверить работу файла можно в инструментах для Вебмастера Яндекс или Google.

В Яндексе нужный нам раздел находится в Настройка индексирования — Анализ robots.txt 

анализ robots.txt

Загружаем robots.txt с сайта, и можем проверять работу.

проверка robots.txt

Возле списка URL жмем кнопку добавить и вписываем все адреса с сайта, доступ к которым хотим проверить. К примеру проверим доступны ли записи(а они должны быть доступны) и проверим закрыты ли метки. Добавляем адреса, и жмем кнопку Проверить.

проверка robots.txt

Как видите в результатах проверки, все работает как нужно, посты индексируются как и положено, а доступ к архивам запрещен. Причем там же указывается каким правилом.

По аналогии, если вы пользуетесь Гугловскими инструментами, там все тоже самое делаем.

Ну вот собственно и все, мы сделали большое дело для нашего нового блога таким маленьким тестовым файликом 🙂

Если есть какие-то вопросы, не стесняйтесь, задавайте в комментариях, постраюсь вам помочь)

Плагин wordpress robots.txt установка и настройка

Здравствуйте !

Сегодня я покажу вам и расскажу как пользоваться файлом robots.txt. Что это такое ? файл robots.txt позволит вам скрывать от индексации некоторые разделы или отдельные страницы вашего сайта, чтобы они не попадали в поиск Google и Yandex. Для чего это нужно ? поисковые системы индексируют всё содержимое вашего сайта без разбора, поэтому если вы хотите скрыть какую-либо конфиденциальную информацию,

например личные данные ваших пользователей, переписка, счета и т.д., то вам нужно будет самостоятельно добавить адреса страниц с данными в файл robots.txt. Что ещё можно сделать с помощью файла robots.txt ? если у вашего сайта есть зеркала, то в их файлах robots.txt можно указать на главный сайт, чтобы индексировался только он.

Видео о файле robots.txt

 

Настраивать файл robots.txt мы будем с помощью плагина — DL Robots.txt. Установить данный плагин вы сможете прямо из своей админ-панели wordpress. Перейдите по вкладке: Плагины — Добавить новый, введите название плагина в форму поиска, нажмите Enter, установите и активируйте открывшийся плагин.

 

 

 

Чтобы попасть на страницу настроек плагина, перейдите по вкладке: DL Robots.txt. Данная вкладка появится у вас в меню админ-панели wordpress, после того как вы установите и активируете плагин.

 

 

На странице настройки файла robots.txt, вы можете прочитать и посмотреть видео о том, что такое файл robots.txt. Так же здесь можно проверить файл, нажав на вкладку — Robots.txt, если файл откроется в браузере значит всё нормально.

 

 

Если на вашем сайте нет файла robots.txt, значит сейчас мы добавим его в специальное окно, которое находится на странице настроек плагина. Итак, конечно же создавать файл robots.txt необходимо исходя из предпочтений каждого отдельного сайта, но я вам предложу готовый вид файла, который подойдёт любому сайту на wordpress. В случае чего вы сможете с лёгкостью добавить в файл свои дополнения.

 

Вот как выглядит файл robots.txt для моего сайта.

 

 

Сейчас я объясню вам, что всё это значит.

В общем, если не вдаваться в подробности, то я запретил поисковикам индексировать: темы и плагины wordpress, кэш сайта, то есть дубликаты страниц, feed — это rss лента с записями. Теперь объясню зачем это делать, этим самым мы облегчаем работу поискового робота, чтобы он не индексировал лишний груз сайта, темы, плагины, кэш, фид, всё это можно не индексировать, в поиске вся эта информация просто не нужна.

 

Так же в файле указано — разрешить поисковикам индексировать все загруженные медиафайлы на вашем сайте. Такой файл robots.txt подойдёт любому сайту на wordpress.

Смотрите, к примеру вы хотите не индексировать ещё какую-либо отдельную страницу или запись на вашем сайте, тогда файл будет выглядеть следующим образом:

 

 

 

Поняли да, то есть добавляете только название страницы из её ссылки и впереди ставите флэш /, а для записи, название записи.html и впереди флэш /.

 

Итак, скачать готовый файл robots.txt можно — Здесь ! Только Внимание ! ! ! укажите свой адрес сайта вместо моего.

После того как вы скачаете файл, у вас будет два варианта:

  1. Загрузить файл в свою корневую директорию на хостинге. (в этом случае плагин можно не устанавливать)
  2. Скопировать содержание файла и вставить в специальное окно на странице настройки плагина DL Robots.txt

 

 

На этом у меня всё, если у вас остались вопросы по данной статье, то обязательно напишите мне в Обратную связь, либо оставьте комментарий к данной записи. Я всем отвечу ! Кстати, а вы проверяли файл robots.txt в Яндекс вебмастер ?

Удачи вам и до новых встреч ! 

 


Author: admin

Отправить ответ

avatar
  Подписаться  
Уведомление о