Роботс тхт для wordpress: Правильный файл robots.txt для WordPress — важные правила при запрете индексации – Файл robots.txt для WordPress: для Яндекс и Google

Содержание

Правильный robots.txt для WordPress в 2019 году

Несмотря на громкий заголовок, мой robots.txt не «Священный Грааль», но при этом все его директивы отражают суть движка WordPress и принцип работы основных поисковиков. Пример моего roborts.txt, который я приведу в этой статье, взят не из головы, а выстрадан в прямом смысле. Мне пришлось пройти через многие проблемы, которые всегда приводило к падению трафика из-за недоступности полезных ресурсов или наоборот, доступности некачественных страниц, в результате чего я пришел к этой версии robots.txt.

Что такое robots.txt и какая от него польза

Все мы знаем что roborts.txt нужен для SEO, но в чем именно заключается его работа и благодаря чему он улучшает качество сайта, знают немногие. Именно непонимание природы roborts.txt и его логики ведет к серьезным ошибкам результат которых неправильное индексирование сайта поисковиками.

Какие задачи решает roborts.txt? Да по большому счету задач немного, их по сути две:

  1. Сокрытие от поисковиков малоинформативных страниц.
  2. Экономия краулингового бюджета.

Задачи две, но решаются они одним действием. Закрывая от поисковиков некачественные страницы, мы автоматически экономим краулинговый бюджет. Для чего необходима экономить краулинговый бюджет? Ответ довольно прост, для оперативного индексирования новых страниц на вашем сайте. Давайте рассмотрим это на простом примере:

Как-то мне в руки попался интернет-магазин, у которого было около 800 товаров и несколько десятков статей в блоге плюс кучка технических страниц. В общей сложности полезных страниц на сайте было чуть больше 1000. Предположим вы решили внести изменения на некоторые страницы, несколько товаров удалили, а несколько добавили. Допустим у вас получилось 1043 страницы. Давайте посчитаем сколько времени понадобится роботу того же Яндекса чтобы обойти весь сайт и найти измененные страницы, узнать об удаленных и добавить в индекс новые. При максимальной скорости обхода (30 запросов в секунду) Яндексу потребуется всего 34,8 сек для обхода сайта, а при минимальной (0,6 запроса в секунду) уже 29 минут. Но проблема этого интернет-магазина была в том, что у него был неправильно заполненный robots.txt и в индексе было свыше 7000 страниц при свыше 4 млн загруженных. То есть чтобы выискать нормальные страницы на сайте, ботам поисковиков нужно было обойти свыше 4 миллионов страниц. По времени это займет:

  • 37 часов на максимальной скорости обхода
  • 77,1 суток, то есть больше двух месяцев

Само собой максимальную скорость обхода сможет выдержать далеко не каждый сайт и само собой поисковики стараются использовать низкую скорость обхода. В итоге любое изменение на сайте замечалось поисковиками через продолжительное время, а обилие страниц низкого качества в поиске, ухудшало и качество сайта. Только одной директивой «Disallow: *?*» я закрыл доступ к нескольким миллионам страниц. Спросите откуда миллионы страниц? Из-за фильтров интернет-магазина, движок самописный и не очень грамотный в техническом плане.

Таким образом robots.txt – это инструмент управления индексацией сайта. Настроили грамотно – новые странички будут оперативно залетать в индекс, а отредактированные быстро переиндексироваться. Если напихали директив от балды – прощай позиции, трафик и оперативное обновление индекса.

Почему стандартный robots.txt бесполезен

У WordPress нет стандартного robots.txt, но его создает в частности плагин YoastSEO (за другие не знаю). В этом, автоматически созданном, robots.txt имеется всего две директивы для всех роботов:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Удивительно что создатели плагина для SEO-оптимизации не смогли подготовить универсальный robots.txt. Я не понимаю зачем закрывать от индексации эти две директории, если там нечего индексировать. И многие владельцы сайтов почему-то втыкают «Disallow: /wp-admin» без малейшей попытки пораскинуть мозгами и понять что админка редиректит на страницу авторизации если ты не авторизован и индексировать там нечего. Также и «wp-includes» бессмысленно закрывать, поисковики там ничего не найдут полезного для себя поскольку нечего там индексировать.

Наша с вами задача не описать в robots.txt куда можно, а куда нельзя поисковику используя директивы «disallow» и «allow» налево и направо, а исключить из индекса страницы, которых там быть не должно. Для этого вам самим кроме копипаста придется ещё и информацию из кабинетов для веб-мастеров поизучать на предмет ненужных страниц в индексе поисковиков.

Я вам дам совет исходя из своего опыта на базе моего сайта, по-этому скопировав мой пример, дополните его своими директивами, наверняка у вас есть на сайте не совсем стандартные для WrdPress страницы, которые поисковикам нет смысла индексировать.

Кто стучится в дверь ко мне

Прежде чем нафаршировать свой robots.txt директивами, давайте сначала разберемся с тем, кто вообще ползает по нашему сайту. На самом деле роботов, кои топчутся по нашим с вами сайтам, превеликое множество. Среди них есть несколько известных, а ещё больше неизвестных, которым плевать на robots.txt. Давайте разберемся что это за роботы и как с ними быть.

Роботы Яндекса

Обратите внимание на то, что многие вебмастеры добавляют в robots.txt для Яндекса user-agent: Yandex, но мало кто понимает разницу между Yandex  и YandexBot, а разница весьма существенна.

User-agent: YandexBot # будет использоваться только основным индексирующим роботом

User-agent: Yandex # будет использована всеми роботами Яндекса

Какие вообще бывают боты у Яндекса? Их множество, вот некоторые из них:

  • YandexBot — основной индексирующий робот.
  • YandexImages — индексатор Яндекс.Картинок.
  • YandexMedia — робот, индексирующий мультимедийные данные.
  • YandexPagechecker — валидатор микроразметки.
  • YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, особым образом интерпретирует robots.txt.

Полный список роботов Яндекса смотрите на этой странице.

Роботы Google

  • Googlebot – основной индексирующий робот
  • Googlebot-Image – робот индексирующий изображения.
  • Mediapartners-Google – робот отвечающий за размещение рекламы на сайте. Важен для тех, у кого крутится реклама от AdSense. Благодаря этому user-agent вы можете управлять размещение рекламы запрещая или разрешая её на тех или иных страницах.

Полный список роботов Google смотрите на этой странице.

Робот Twitter

Полезный робот, который ходит на наш сайт за расширенной информацией когда кто-либо в твиттере делится ссылкой на наш сайт. Чтобы вместо ссылки появлялся красивый пост, то надо явно в robots.txt разрешить доступ к сайту роботу твиттера.

Директивы robots.txt, параметры и логика работы

Несмотря на свою простоту и элементарность, даже у опытных сеошников порой возникают трудности с составлением параметров для директив. Что там говорить, я сам не исключение и иногда допускаю ошибки при закрытии URL от индексации и потом приходится разгребать последствия.

В нашем распоряжении по сути несколько директив

User-Agent

С этой директивы начинается блок правил, а её значение указывает на то, для какого поисковика предназначается данный набор правил. Например, значение «YandexBot» обозначает что этот блок предназначен исключительно для основного Яндекс бота, а значение директивы «*» говорит что этот блок для всех роботов.

Причем необходимо понимать логику интерпретации директивы «User-agent» ботами Яндекса, если в файле robots.txt присутствует две директивы «User-agent: *» и  «User-agent: Yandex», то блок директив после «User-agent: *» будет проигнорирован ботами Яндекса. По этой причине для основного бота Яндекса я выделяю отдельный блок, второй для всех остальных. Почему именно так, вы поймете ниже, когда я объясню назначение директив.

Disallow и Allow

Собственно основные директивы файла robots.txt. Данные директивы запрещают или разрешают поисковикам индексировать страницу или раздел указанный в значении данной директивы. В качестве параметра этим директивам мы передаем часть URL страниц, которые необходимо запретить индексировать или разрешить к индексации.

Иногда меня спрашивают зачем нужна Allow? Логика вопрошающего очевидна, если с помощью Disallow мы запретили некоторые вещи, то получается все остальное доступно, а значит не запрещено. Но давайте рассмотрим простой пример:

  • Disallow: *?* – запретит к индексации все страницы ссылки на которые содержат «?».

Каковы последствия работы такой директивы? Последствия такой директивы вот такие:

Проверка оптимизации страницы для мобильных устройств

Спросите в чем связь? Ответ не очевиден, но он прост. Вышеуказанной директивой мы запрещаем роботам загружать файлы стилей, ссылка на которые содержит «?ver=5.1.1». А стили темы оформления отвечают за адаптивность дизайна, которая как раз и определяет оптимизацию сайта под мобильные устройства. Тут нас как раз спасает директива Allow:

Таким образом мы вернем доступ роботам к файлам стилей и наш сайт станет снова оптимизированным под мобильные устройства.

Знак «*» заменяет нам один или несколько символов, но его использование не всегда очевидно. Давайте поиграемся с примерами.

Данная директива запретит к индексации все страницы, ссылки которых начинаются с /news. Например:

  • /news/hello-world
  • /news/finance
  • /news/auto

А вот ссылки такого плана:

Такая директива уже не закроет. А что будет, если мы добавим вот такую директиву:

Тогда мы запретим доступ роботам ко всем ссылкам, коиторые имеют в себе вхождение «news». Например:

  • /news/hwllo-world
  • /its-fake-news

Как видите с директивами нужно быть крайне осторожным в их формулировке.

Также стоит особо отметить один немаловажный нюанс – это порядок обработки директив. Да, да, вне зависимости от того, как вы их расположите в файле robots.txt, они будут отсортированы и применены в порядке возрастания. То есть первыми будут применены короткие,, а самые длинные последними.

Является ли это важным? Весьма. Чем длиньше параметр директивы, тем больше её приоритет. Допустим у нас с вами в robots.txt есть несколько директив, выстроим их в порядок возрастания и посмотрим на логику робота:

  • Disallow: /
  • Allow: /news
  • Allow: /catalog

Таким образом получается так, первым делом робот видит что первая директива запрещает ему индексировать весь сайт, но вторая и третья открывают ему раздели новостей и каталог. Таким образом мы можем сначала запретить весь сайт, а потом открывать только те части, которые необходимо индексировать. Обычно при составлении директив robots.txt мы руководствуемся другой логикой, поскольку обычно запрещаем те вещи, на которые ругается Яндекс или Google.

Одинм из важных моментов является наличие кириллицы в URL, который мы хотим запретить или открыть. Поскольку я категорически не приемлю кириллицу в URL, я не сталкивался с проблемами связанными с кириллицей, но некоторые сайты в принципе не парятся по этому поводу. Допустим на сайте надо скрыть страницу, доступную по ссылке «/каталог»:

  • Disallow: /каталог – не правильно.
  • Disallow: /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3 – правильно.

Host

Устаревшая директива, которая указывала ботам Яндекса, какое зеркало делать основным. Вот что Яндекс говорит по поводу этой директивы:

Как мы писали ранее, мы отказываемся от директивы Host. Теперь эту директиву можно удалять из robots.txt, но важно, чтобы на всех не главных зеркалах вашего сайта теперь стоял 301-й постраничный редирект. Вебмастерам, которые, по нашим данным, ещё не установили перенаправление, мы отправили соответствующее уведомление.

Источник

Sitemap

Соответственно эта директива указывает путь к файлу sitemap. Эта директива является межсекционной, то есть её достаточно указать всего лишь один раз. Обычено она указывается в самом конце файла robots.txt. Добавление директивы Sitemap в каждую секцию «User-agent» является ошибкой.

Где взять sitemap? За генерацию этой штуки отвечает SEO-плагин, в моем случае это Yoast SEO. Содержимое этого файла зависит от настроек отображения в поисковой выдаче, которые располагаются в одноименном разделе плагина.

Crawl-delay

Указывает поисковому роботу промежуток времени в секундах, который должен пройти с момента окончания загрузки одной страницы и началом загрузки другой. Значением директивы может быть любое число как целое, так и дробное.

На текущий момент по сути бесполезная директива, поскольку роботы Google и Яндекс не отказались от учета директивы Crawl-delay. Таймаут роботам можно указать в панели вебмастера.

Clean-param

Если на Вашем сайте используются параметры, которые не влияют на отображение страницы, то в значении этой директивы Вы можете указать эти параметры. Допустим у Вас на сайте есть каталог, в котором пользователю доступны некоторые возможности, такие как сортировка, допустим ссылка выглядит так:

  • http://site.ru/catalog.php?sort_by=price&sort=desc

Что бы указать роботу на параметры, которые необходимо исключить, то нам потребуется указать директиву с соответствующими параметрами:

  • Clean-param: sort_by /catalog.php # если необходимо исключить только sort_by
  • Clean-param: sort_by&sort /catalog.php # если необходимо исключить  sort_by и  sort

Лично я не пользуюсь подобной директивой, поскольку её логика работы не очевидна. На мой взгляд проще всего страницы с параметрами проще закрыть директивой «Disallow», тем самым явно сэкономив краулинговый бюджет.

Что нужно закрыть от индексации в WordPress

Предлагаю не просто скопировать готовый robots.txt, а попытаемся понять, почему мы закрыли от индексации именно эти страницы.

  • Disallow: /cgi-bin – по сути такая же бесполезная директива как и «Disallow: /wp-admin», но до тех пор, пока не начнете работать с Cloudflare, например ради халявного SSL, тогда на сайте появляется куча ссылок, которые начинаются с «/cgi-bin».
  • Disallow: /xmlrpc.php – закрываем из-за пустой страницы при обращении к этому файлу.
  • Disallow: /author – с точки зрения поиска, это бесполезная страница.
  • Disallow: /wp-json – закрываем ибо возвращает пустую страницу.
  • Disallow: /wp-login.php – закрываем ибо эта страница является малоинформативной и не несет в себе смысловой нагрузки выполняя чисто техническую роль.
  • Disallow: */feed* – RSS-лента, очевидно не несет в себе пользы для поисковиков.
  • Disallow: /wp-content/uploads – закрываем именно эту папку, поскольку она может содержать разного рода документы, например, PDF, DOC и т.д., которые не стоит пускать в индекс. Закрывать «wp-content» полностью чревато проблемами.
  • Disallow: /category – страница категорий, естественно при определенных настройках постоянных ссылок. Категории также являются малоинформативными страницами, если конечно вы не уделили этому внимания и не наполнили каждую категорию полезной информацией, в ином случае лучше прикрыть, поисковикам там делать нечего.
  • Disallow: /attachment – закрываем страницы вложений. Не всегда они бывают доступны по ссылке, но лучше перебдеть. Один раз мне эти странички, высыпавшись в индекс, не хило так посещалку обвалили.
  • Disallow: */page/ – закрываем пагинацию. В сети существует много споров закрывать или не закрывать страницы пагинации, но я закрываю. Некоторые SEOшники говорят что таким образом мы лишаемся некоторых внутренних факторов в виде анкоров во внутренних ссылках. Но я считаю эти страницы малоинформативными, а внутренние факторы не такими важными. В моем случае пользы от прикрытия пагинации больше чем от открытия, при 100+ страницах в индексе мой сайт посещает почти 2 000 человек в сутки и этот показатель растет.

Ну вот по сути это основные моменты, которые стоит прикрыть от поисковых роботов на сайте с CMS WordPress.

Мой вариант robots.txt

#Разрешаем роботу Яндекса, который индексирует изображения, доступ к папке с вложениями.
User-Agent: YandexImages
Allow: /wp-content/uploads

#Делаем тоже самое для гугловского бота, которые индексирует изображения
User-Agent: Googlebot-Image
Allow: /wp-content/uploads

#Говорим рекламе что сайт весь в её распоряжении
User-agent: Mediapartners-Google
Allow: /

#Открываем доступ твиттеру
User-agent: Twitterbot
Allow: /

#Поскольку Яндекс проигнорирует секцию с User-agent: *, то придется перечислить все для него
User-Agent: YandexBot
Disallow: /cgi-bin
Disallow: /xmlrpc.php
Disallow: /author
Disallow: /blog
Disallow: /wp-json
Disallow: /wp-login.php
Disallow: */feed*
Allow: /feed/turbo/ #открываем доступ к RSS для турбостраниц ибо чуть выше мы запретили к ним доступ.
Disallow: /wp-content/uploads
Disallow: /category
Disallow: /attachment
Disallow: */page/
Disallow: *?*
Disallow: */amp #закрываем доступ к AMP-страницам
Allow: *.css?ver=*

User-Agent: *
Disallow: /cgi-bin
Disallow: /xmlrpc.php
Disallow: /author
Disallow: *readme.txt
Disallow: /blog
Disallow: /wp-json
Disallow: /wp-login.php
Disallow: */feed*
Disallow: /wp-content/uploads
Disallow: /category
Disallow: /attachment
Disallow: */page/
Disallow: *?*
Allow: *?ver=*

Sitemap: https://dampi.ru/sitemap_index.xml

Некоторые директивы я прокомментировал, которые не описал в главе выше.

Добавление robots.txt в WordPress

По сути в случае с сайтом на WordPress существует три способа редактирования и соответственно загрузки robots.txt на наш сайт, но рассмотрю я только два, характерных именно для WordPress, поскольку третий – это загрузка файла по FTP и этот способ универсален. Давайте рассмотрим эти два способа.

Способ первый: с помощью специального плагина

Не надо качать FTP-киент, лезть на сервер, создавать текстовый файл, а потом каждый раз из-за каждой мелочи снова и снова соваться туда. Есть вполне себе изящное решение в виде простого плагина, который создает «виртуальный» robots.txt.

С установкой разберетесь сами, там ничего сложного. После установки и активации плагина необходимо пройти на страницу с настройками этого плагина

Настройки плагина Virtual robots.txt

Страница настроек предельно проста, там всего лишь текстовое поле, куда надо поместить наши директивы и один чекбокс, отметив который мы указываем плагину что необходимо подтереть свои настроки при деактивации.

Стандартные настройки Virtual robots.txt

Как видите ничего сверх естественного. Подтираем дефолтный текст и вбиваем наши директивы.

Способ второй: с помощью SEO-плагинов

Поскольку я пользуюсь плагином Yoast SEO, то расскажу на его примере. Для создания и редактирования файла robots.txt необходимо пройти в раздел «Инструменты» плагина:

Инструменты редактирования robots.txt

Нас интересует «Редактор файлов», переходим туда и уже там видим следующее:

Редактирование robots.txt

У меня файл robots.txt физически отсутствует ибо он создается плагином «на лету», иначе тут было бы видно его содержимое. Вам остается выбрать подходящий способ редактирования, скопировать директивы нашего robots.txt и сохранить. Дальше вам потребуется отслеживать поведение вашего сайта в поиске.

Проверка robots.txt в панели вебмастера

Для проверки правильности robots.txt у Яндекс и Google предусмотрены специальные инструменты. Использование данных инструментов довольно элементарный процесс. Давайте рассмотрим оба варианта.

Search Console от Google

В соответствующем разделе мы видим содержимое нашего robots.txt

Проверка robots.txt в Google Search Console

Кроме содержимого robots.txt мы видим сообщения с ошибками и предупреждениями. В моем случае их счетчики по нолям. В поле ниже мы можем указать URL, который хотим проверить. Если введенный нами URL запрещен в файле robots.txt, то вы увидите сообщение справа и выделенную директиву, которая запрещает индексирование данного URL. Вполне удобно.

Яндекс Вебмастер

Проходим в «Инструменты»->«Анализ robots.txt» и видим вот такую картину.

Проверка robots.txt в Яндекс.Вебмастере

Эта страница устроена чуть сложнее. Страница разделена на три части, в первой все содержимое robots.txt, вторая часть показывает какие директивы использует основной робот, а третья часть отвечает за проверку URL. Обратите внимание на то, что тут поле позволяет проверять URL пачками, что гораздо удобнее чем в инструменте проверки от Google.

Как добавить robots.txt в Яндекс и Google

В отличии от sitemap, адрес которого необходимо указывать в robots.txt или в панели вебмастера, robots.txt не нужно никуда загружать. Его наличие поисковые роботы проверяют каждый раз обращаясь к сайту. По этой причине для «загрузки robots.txt» в Яндекс и Google достаточно просто создать его на своем сайте.

Имя этого файла и его расположение является жестким требованием и соответственно все знают что robots.txt лежит в корне сайта. По этому кроме его создания и заполнения никаких действий больше не требуется, разве что проверить его на ошибки, с помощью описанных выше инструментов.

Самый правильный файл robots.txt для wordpress!

Автор: Александр Борисов

 / Дата: 2010-11-22 в 18:13

Правильный robots.txt для вордпресс

Здравствуйте друзья! WordPress robots.txt — файл ограничения доступа к содержимому на вашем блоге, сайте и т.д. Более подробно об этом вы можете прочитать здесь — ссылка

Этот файл необходимо создать в корне вашего сайта  и прописать в нем некоторые строки. Так как я работаю на движке wordpress я буду писать именно о файле robots.txt для wordpress.

Итак. Если у вас еще нет этого файла на вашем блоге, то создайте его и поместите его в корень вашего блога на сервере.

Когда поисковый робот заходит на ваш блог, он сразу же ищет этот файл, потому что именно он указывает что индексировать на блоге можно, а что нельзя.

Так же он указывает на наличие sitemap.xml на сервере, если у вас нет и sitemap.xml, то это говорит о том, что вы еще новичок в блоговедении и вам следует почитать вот этот пост.

На блоге wordpress имеется куча папок которые не нужно индексировать поисковикам, поэтому можно сделать так, чтобы поисковик не тратил на них время а индексировал, только самое необходимое. Вы можете подумать, — «Ну и что, не мое же время».

А это очень важный момент, так как робот может устать индексировать всякую хрень и пропустить некоторые важные страницы вашего блога, так что советую придать файлу robots.txt особое внимание.

Как сделать файл robots.txt? Очень просто. Создайте у себя на рабочем столе текстовый файл robots.txt откройте его и пропишите следующее:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/

Вместо site.ru — укажите адрес вашего блога. Готово!

Не бойтесь, здесь все составлено четко, ваши посты в безопасности =))) Сами разработчики wordpress рекомендуют такой файл wordpress robots.txt. Ну вот и вы теперь знаете как составить правильный wordpress robots.txt! Успехов!!!

P.S. Как вам статья? Советую получать свежие статьи на e-mail, чтобы не пропустить информацию о новых бесплатных видеокурсах и конкурсах блога!

C уважением, Александр Борисов

Robots.txt для wordpress: правильный файл

Здравствуйте, дорогие друзья!

Сейчас напишу статью о нашумевшем файле, которого так все боятся молодые владельцы сайтов. И не зря, ведь при неправильном его составлении могут возникнуть плохие последствия.

Тема статьи  — файл robots.txt. Мы сегодня разберем от основ его составления до примера моего личного файла, который на данный момент хорошо работает. Материал получился довольно сложный и после первого прочтения у вас может не сложиться впечатление целостной картины, но основную мысль вы должны уловить. Будет много советов и инсайдерской информации, которая поможет сделать индексацию сайта более лучшей.

Перед составлением сайта я настоятельно рекомендую ознакомиться с важнейшими моментами работы файла роботс. Вы должны понимать хотя бы базовые принципы работы роботов поисковых систем, чтобы понимать, что и как стоит закрывать от индексации.

Важная теория

Сначала определение самого файла.

Файл Robots.txt дает понимание поисковых систем о том, что не нужно индексировать на сайте для предотвращение появления дублированного контента. Можно закрыть от индексации целые разделы, отдельные страницы, папки на хостинге и так далее. Все, что только в голову взбредет.

Именно на этот файл в первую очередь обращают внимание поисковые роботы при заходе на сайт, чтобы понять, куда стоит смотреть, а что необходимо игнорировать и не заносить в поисковую базу.

Также данный файл служит для облегчения работы поисковым роботам, чтобы они не индексировали много мусорных страниц. Это создает нагрузку на наш сайт, так как роботы будут долго лазить в процессе индексирования.

Файл Robots.txt размещается в корневом каталоге любого сайта и имеет расширение обычного текстового документа. То есть мы его можем редактировать у себя на компьютере с помощью обычного текстового редактора — блокнота.

Чтобы просмотреть содержимое этого файла на лбом сайта, стоит к доменному имени дописать название файла через правую наклонную черту вот так: имя домена.ру/robots.txt

Очень важно понимать, что для некоторых сайтов файл может различаться, так как может быть сложная структура. Но основная мысль в том, чтобы закрыть страницы, которые генерируются самим движком и создают дублированный контент. Также задача стоит в том, чтобы предотвратить попадание таких страниц в индекс, а не только их содержимого. Если у вас простой сайт на WordPress, то файл вам подойдет.

Также рекомендую во все вникать и постараться разобраться в тонкостях, так как это те моменты, которые постепенно могут губить ресурс.

Далее стоит понять, как поисковые системы относятся к этому файлу, так как в Яндексе и в Google имеются различия в восприятии запретов, которые прописываются в файле robots.

к содержанию ↑

Различия в работе для Яндекса и Google

Единственное и пожалуй весомое различие проявляется в том, что Яндекс воспринимает запреты в файле, как некое обязательное правило и довольно хорошо следует всем запретам. Мы ему сказали, что эти страницы в индекс брать не нужно, он и не берет их.

В Google же ситуация совершенно иная. Дело в том, что Google действует по принципу «на зло». Что я имею ввиду? Мы ставим запрет на некоторые служебные страницы. Самой частой такой страницей на которую ставят запрет, является страница, создаваемая ссылкой «Ответить» при включенной функции древовидных комментариев.

Страница по такой ссылке имеет приставку «replytocom». Когда мы ставим запрет на такую страницу, google не может получить доступ к ее содержимому и забирает такой адрес в индекс. В итоге, чем больше комментариев на ресурсе, тем больше и мусорных адресов в индексе, что не есть хорошо.

Конечно же, так как мы закрыли такие адреса от индексации, то содержимое страниц не индексируется и не происходит появление дублированного контента в индекс. Об этом свидетельствует надпись «A description for this result is not available because of this site’s robots.txt».

Переводится это так: «Описание веб-страницы не доступно из-за ограничения в robots.txt».

Как бы ничего страшного. Но страница то попала в индекс, хоть и дублирования не произошло. В общем, это может быть, но можно ведь полностью избавиться от такого мусора.

И тут имеется несколько решений:

  • Самый простой вариант — открыть такие адреса для робота google в файле robots, чтобы он смог их просканировать. Тогда он наткнется на мета-тег noindex в исходном коде страницы, который не позволит забрать документ в индекс.

    Даем доступ — google сам во всем разбирается. Также на такие страницы добавляется атрибут канонических адресов rel=»canonical», который укажет на главный адрес данной страницы, что скажет поисковой системе:

    Данный адрес индексировать не нужно, так как имеется главная версия страницы, которую и стоит взять в базу.

    В итоге, имеется 2 настройки, которые не позволят забрать мусор в индекс. Но это при условии, что подобные страницы открыты в файле роботс и гугл полностью имеет к ним доступ;

  • Более сложный вариант заключается в полном закрытии таких ссылок от поисковых систем, чтобы их даже обнаружить нельзя было. Тут можно использовать различные скрипты и плагины. Хорошая функция имеется в плагине WordPress seo by yoast, которая убирает приставку «replytocom» из ссылок «Ответить».

Также имеются специальные плагины под настройку комментариев, где имеется функция закрытия таких ссылок. Можно и их использовать. Но зачем изобретать колесо? Ведь можно ничего не делать и все будет хорошо и без нашего участия. Главное здесь — открыть доступ, чтобы google смог разобраться во всей ситуации.

Google обязательно найдет такие страницы по внутренним ссылкам (в нашем случае для примера — ссылка «Ответить»). Об этом нам говорит сама справка гугла:

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Однако даже если вы запретите поисковым роботам сканировать содержание сайта с помощью файла robots.txt, это не исключает, что Google обнаружит его другими способами и добавит в индекс.

А что дальше? Если доступ открыть, то он наткнется на мета-тег Noindex, запрещающий индексирования страницы, и на атрибут rel=»canonical», который укажет на главный адрес страницы. Из последнего роботу гугла будет понятно, что данный документ не является главным и его не стоит брать в индекс. Вот и все дела. Ничего в индекс не попадет и никаких конфликтов с поисковым роботом Google не произойдет. И не придется потом избавляться от мусора в индексе.

Если же доступ будет закрыт, то велика вероятность, а скорее всего 100%, что адреса, найденные по таким ссылкам, googlebot проиндексирует. В этом случае придется от них избавляться, что уже занимает время ни одного дня, недели или даже месяца. Все зависит от количества мусора.

В общем, чтобы не произошло такого, стоит использовать правильный файл без лишних запретов + открытые всех подобных страниц для поисковой системы Google.

Можно конечно же просто закрыть все подобные ссылки скриптами или плагинами и сделать 301 редирект с дублированных страниц на главную, чтобы поискового робота сразу перекидывало на главный адрес, который он и будет индексировать, не обращая внимание на дубли.

Второй вариант является более жестким, так сказать более твердым, так как мы делаем некоторые манипуляции, закрывая весь мусор от поисковиков. Мы нее даем им самим разобраться в сложившейся ситуации. Ни малейшего шанса, что страницы по внутренним ссылкам попадут в индекс.

Лично я так и поступил. У меня все закрыто скриптом и редиректами.

Прежде, чем мы рассмотрим основу правильно файла robots, разберем основные директивы, чтобы на базовом уровне вы понимали, как составляется этот файл и как его можно будет доработать под свои нужды.

к содержанию ↑

Основные директивы

Основными директивами файла robots являются:

  • User-agent — директива, которая указывает, к какому роботу поисковых систем принадлежат правила, прописанные для запретов и разрешений. Если правила необходимо присвоить ко всем поисковым системам, то после директивы ставится звездочка *, если же стоит прописать правила к определенному роботу, например к Яндексу, то стоит прописать имя робота. В данном случае директива будет прописана так:

    User-agent: Yandex

    Название других роботов:

    • Google — Googlebot;
    • Яндекс — Yandex;
    • Рамблер — StackRambler;
    • Мэйл.ру — Mail.Ru.
  • Disallow — директива призвана для запрета от индексации каталогов, страниц и документов. Чтобы запретить какой-то раздел, что после директивы прописать название каталога через правую наклонную черту. Например необходимо закрыть категорию «inter» на сайте, тогда необходимо будет прописать следующим образом:

    Disallow: /inter

    В этом случае будет запрещен от индексации каталог «inter», а также все, что находится внутри него;

  • Allow — директива для разрешения частей сайта к индексации. Если нужно разрешить какую-то часть, то по аналогии с директивой Disallow прописывает название каталога или отдельной страницы. Например, если мне нужно открыть подраздел «pr» внутри каталога «inter», то правило будет прописано следующим образом:

    Allow: /inter/pr

    Хоть каталог «inter» мы и закрыли в предыдущем случае, подраздел «pr» будет индексироваться и все, что внутри него также будет доступно для поисковых роботов.

  • Host — директива призвана, чтобы указать поисковым роботам основное зеркало сайта (с www или без).

    Прописывать стоит только к Яндексу. Также необходимо указать главное зеркало сайта в панели веб-мастера Яндекс.

  • Sitemap — директива призвана указать путь к карте сайта в формате XML. Стоит прописывать ко всем поисковым роботам. Достаточно указать только к директиве User-agent: *, которая ко всем роботам и действует.

Важно! После каждой директивы обязательно должен быть отступ в виде одного пробела.

Зная основные моменты в работе robots.txt и базовые принципы его составление, можно приступить к его сборке.

к содержанию ↑

Составляем правильный файл

Вообще, идеальным вариантом было бы полностью открыть свой сайт к индексации и дать возможность поисковым роботам самим разобраться во всей ситуации. Но их алгоритмы не совершенны и они берут в индекс все, что можно только забрать в поисковую базу. А нам это ни к чему, так как будет куча дублированного контента в рамках сайта и куча мусорных страниц.

Чтобы такого не было, нужно составить такой файл, который будет разрешать к индексации только страницы самих статей, то есть контента и по надобности страницы, если они несут полезную информацию посетителю и поисковым системам.

Из пункта 2 сего материала вам стало понятно, что в файле не должно быть лишних запретов для Google, чтобы в индекс не полетели лишние адреса страниц. Это ни к чему. Яндекс же относится к данному файлу нормально и запреты воспринимает хорошо. Что укажем к запрету, то Яндекс и не будет индексировать.

На основе этого я сделал файл, который открывает весь сайт для поисковой системи Google (кроме служебных директорий самого движка WordPress) и закрывает все страницы дублей от Яндекса, Mail и других поисковиков.

Мой файл имеет довольно большой вид.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /xmlrpc.php Disallow: */author/* Disallow: */feed/ Disallow: */feed Disallow: /?feed= Disallow: */page/* Disallow: */trackback/ Disallow: /search Disallow: */tag/* Disallow: /?wp-subscription-manager* Allow: /wp-content/uploads/ Host: kostyakhmelev.ru User-agent: Googlebot Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Allow: /wp-content/uploads/ User-agent: Mail.Ru Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /xmlrpc.php Disallow: */author/* Disallow: */feed/ Disallow: */feed Disallow: /?feed= Disallow: */page/* Disallow: */trackback/ Disallow: /search Disallow: */tag/* Disallow: /?wp-subscription-manager* Allow: /wp-content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /xmlrpc.php Disallow: /?wp-subscription-manager* Allow: /wp-content/uploads/ Sitemap: http://kostyakhmelev.ru/sitemap.xml Sitemap: http://kostyakhmelev.ru/sitemap.xml.gz User-agent: Mediapartners-Google Disallow: User-agent: YaDirectBot Disallow: User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

User-agent: Yandex

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /xmlrpc.php

Disallow: */author/*

Disallow: */feed/

Disallow: */feed

Disallow: /?feed=

Disallow: */page/*

Disallow: */trackback/

Disallow: /search

Disallow: */tag/*

Disallow: /?wp-subscription-manager*

Allow: /wp-content/uploads/

Host: kostyakhmelev.ru

 

User-agent: Googlebot

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Allow: /wp-content/uploads/

 

User-agent: Mail.Ru

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /xmlrpc.php

Disallow: */author/*

Disallow: */feed/

Disallow: */feed

Disallow: /?feed=

Disallow: */page/*

Disallow: */trackback/

Disallow: /search

Disallow: */tag/*

Disallow: /?wp-subscription-manager*

Allow: /wp-content/uploads/

 

User-agent: *

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /xmlrpc.php

Disallow: /?wp-subscription-manager*

Allow: /wp-content/uploads/

Sitemap: http://kostyakhmelev.ru/sitemap.xml

Sitemap: http://kostyakhmelev.ru/sitemap.xml.gz

 

User-agent: Mediapartners-Google

Disallow:

 

User-agent: YaDirectBot

Disallow:

 

User-agent: Googlebot-Image

Allow: /wp-content/uploads/

 

User-agent: YandexImages

Allow: /wp-content/uploads/

Не забудьте изменить адрес моего домена на свой в директивах Host и Sitemap.

Как видим, файл Robots.txt для wordpress вышел довольно большой. Это связано с тем, что правила я прописал к 3м основным роботам: Яндекс, Google и mail. К первым 2м обязательно нужно сделать. Также и к поисковому роботу mail не помешает, так как в последнее время поисковик довольно неплохо развивается и начинает приводить все больше и больше трафика.

Что касается самого содержимого файла, то для роботов Яндекса, Mail и для дериктивы, работающей со всеми роботами (User-agent: *), правила прописаны одни и те же. Запрет идет для всех основных моментов, связанных с появлением дублей в индексе.

Только к поисковому роботу Google я прописал отдельный вариант, который предполагает открытие всего содержимого сайта, кроме служебных папок самого движка. Почему именно так, я рассказывал выше. Нужно, чтобы Googlebot мог просканировать все страницы по внутренним ссылка и увидеть на них запреты в виде мета-тега robots со значением noindex, а также атрибут rel=»canonical», что заставит его оставить дубли в покое.

Если же мы в файле роботс сделаем запрет, то робот не сможет увидеть этих данных (тегов) и, как я говорил ранее «на зло», возьмет адрес в индекс.

Также к каждому роботу я разрешил индексирование изображений (Allow: /wp-content/uploads/).

В конце файла я отдельно прописал разрешение индексации изображений для картиночных роботов Google и Яндекса. Вместе с этим разрешил весь сайт для роботов контекстной рекламы этих же поисковиков.

Интересным моментом является закрытие ссылки, которая создается плагином Subscribe to comments.

Если вы его используете, то в данном файле используйте запрет на ее индексирование, так как поисковый робот ее также обнаружит.

Для этого используется следующая строка:

Disallow: /?wp-subscription-manager*

Используя данный файл вы не будете бояться, что в индексе будет появляться дублированный контент, который образуется самим движком, а точнее его внутренними ссылками на страницах сайта. Яндекс все запреты сочтет за некую догму, а Google наткнется на запреты, когда зайдет на дубли, создаваемые движком.

Как я уже описывал ранее, то более продвинутыми настройками является скрытие таких ссылок, чтобы поисковые роботы даже не смогли их найти. К тому же это не только в 100% мере обезопасит нас сейчас, но и даст нам некую подстраховку на будущее, так как алгоритмы поисковых систем постоянно меняются и возможно, что запреты, которые работают сейчас, не будут работать через некоторое время.

Но тут также. Разработчики движка всегда идут в ногу со временем и учтут все новые изменения в работе ПС в совершенствовании wordpress. Исходя из этого, бояться в ближайшее время ничего не стоит.

В следующих статьях я буду описать процесс избавления от дублей страниц, которые могут появиться на ресурсе, а также способы скрытия опасных ссылок, создаваемых средствами WordPress, если вы все же решите обезопасить себя на все 100%. Мы ведь не знаем, как поведет себя поисковой робот? Может он начнет игнорировать запреты даже при наличии мета-тега Noindex и атрибута rel=»canonical». В этом случае спасет скрытие опасных ссылок.

Итак, возможно, статья вышла довольно сложная для первого понимания, так как затронут не только вопрос составления самого файла, но и принципов работы поисковых роботов и того, что стоит сделать в идеале, что страшно, а что нет.

Если у вас имеются какие-то вопросы или неясности, то буду благодарен, если напишите об этом в комментариях, чтобы я как-то изменил данный материал для более отзывчивого восприятия другими пользователями.

На этом закончу этот пост. До скорых встреч!

С уважением, Константин Хмелев!

Robots.txt для сайта WordPress! Скачай бесплатно!

Добрый день коллеги! В одной из предыдущих статей я вещал о самостоятельной seo оптимизации сайта и говорил, что это очень большая тема и супер подробно каждый пункт в рамках 1-2 двух статей раскрыть в полной мере невозможно.

Помните такое? Так вот, сегодня я хочу раскрыть по подробнее один из самых важных пунктов внутренней оптимизации веб-ресурса. Сегодня будем говорить о файле robots.txt для сайта WordPress. Прочитав статью от начала и до конца, вы узнаете:

Содержание:

1. Что такое файл robots.txt и для чего он нужен?
2. Где находится файл robots.txt и как его создать?
3. 8 популярных ошибок, которые допускают начинающие веб-мастера
4. Правильный и проверенный robots.txt для сайта WordPress
5. Описание значения строк файла robots.txt

Кстати, для тех товарищей кто не хочет разбираться в этом файле со странным названием, а желает просто взять готовый и проверенный вариант для своего интернет-проекта, я дам ссылку на скачивание своего рабочего файла robots.txt для сайта WordPress.

Я использую его с 2013 года на всех своих веб-ресурсах созданных на WP и за все время он отлично себя зарекомендовал. Естественно я стараюсь быть в тренде и при необходимости вношу в него правки с учетом нововведений поисковых систем и seo.

Свой файл я собирал очень долго, брал шаблоны с успешных сайтов, которые находятся в ТОПе, скачивал у блогеров, просил у ребят на seo форумах, а потом все это анализировал, взял самое лучшее из каждого и вот он простой, эффективный, рабочий роботс. Итак, давайте начнём с определения.

Что такое файл robots.txt и для чего он нужен?

Robots.txt – это системный, внутренний файл сайта, созданный в обычном текстовом блокноте, который представляет из себя пошаговую инструкцию для поисковых машин, которые ежедневно посещают и индексирует веб-ресурс.

Каждый web-мастер должен знать значение этого важного элемента внутренней оптимизации и уметь его грамотно настраивать. Наличие данного файла обязательное условия для правильного и качественного seo.

Ещё такой нюанс, если у вашего сайта имеется несколько поддоменов, то у каждого из них, в корневом каталоге на сервере должен быть свой роботс. Кстати, данный файл является дополнением к Sitemaps (карта сайта для ПС), дальше в статье вы узнаете об этом более подробно.

У каждого сайта есть разделы, которые можно индексировать и которые нельзя. В роботсе, как раз таки можно диктовать условия для поисковых роботов, например, сказать им, чтобы они индексировали все страницы сайта с полезным и продающим контентом, но не притрагивались к папкам движка, к системным файлам, к страницам с данными аккаунтов пользователей и т.д.

Ещё в нем можно дать команду поисковой машине, соблюдать определенный промежуток времени между загрузкой файлов и документов с сервера во время индексирования, а также он прекрасно решает проблему наличия дублей (копий контента вашего сайта).

А сейчас, я хочу с вами поделиться небольшим секретом, о котором, кстати, знают не все веб-мастера. Если вы создали и настроили robots.txt, то не думайте, что вы властелин поисковых роботов, знайте и помните, что он позволяет лишь частично управлять индексированием сайта.

Наш отечественный поисковый гигант Яндекс строго и ответственно соблюдает прописанные инструкции и правила, а вот американский товарищ Гугл, не добросовестно к этому относится и в легкую может проиндексировать страницы и разделы на которых стоит запрет, а потом ещё и добавить в поисковую выдачу.

Где находится файл robots.txt и как его создать?

Этот товарищ располагается в корневом каталоге сайта, для наглядности смотрите ниже картинку со скриншотом моего каталога на сервере. Если вы устанавливаете WordPress на хостинге через функцию «Установка приложений», об этом я рассказывал в статье «Как установить WordPress на хостинг? Полное руководство по установке!», то файл роботс создается автоматически по умолчанию в стандартном, не доработанном виде.

Создается он на рабочем столе, с помощью обычного, текстового блокнота, который имеет расширение файла .txt. Кстати, рекомендую использовать прогу Notepad++ для редактирования и создания текстовых файлов, очень удобно.

Закачать на сервер его можно, например, с помощью ftp используя программы Filezilla или Total Commander. Если вы хотите посмотреть, как выглядит данный файл на каком-то сайте или на своем, то наберите в браузере адрес http://имя_сайта/robots.txt.

8 популярных ошибок, которые допускают начинающие веб-мастера

1.Путаница в написании правил. Пожалуй это самая популярная ошибка в рунете.

Неправильный вариант:
User-agent: /
Disallow: Googlebot

Правильный вариант:
User-agent: Googlebot
Disallow: /

2. Написание целого списка папок в одном правиле. Некоторые ребята умудряются сделать запрет индексации папок в одной строчке.

Неправильный вариант:
Disallow: /wp-admin /wp-login.php /xmlrpc.php /wp-includes

Правильный вариант:
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /xmlrpc.php

3. Имя файла роботс большими буквами. Здесь я думаю понятно, всегда пишем название только маленькими буквами.

Неправильный вариант:
Robots.txt
ROBOTS.TXT

Правильный вариант:
robots.txt

4. Написание пустой строки в директиве User-agent

Неправильный вариант:
User-agent:
Disallow:

Правильный вариант:
User-agent: *
Disallow:

5. Неправильно написанная ссылка в правиле «Host». Нужно писать линк без указания протокола http:// и без слеша на конце /

Неправильный вариант:
User-agent: Yandex
Disallow: /wp-content/plugins
Host: http://www.ivan-maslov.ru/

Правильный вариант:
User-agent: Yandex
Disallow: /wp-content/plugins
Host: www.ivan-maslov.ru

6. Написание длинной колбасы с перечислением каждого файла. Чтобы этого не случилось, просто закрываем папку от индексации целиком.

Неправильный вариант:
User-agent: Yandex
Disallow: /Brend/Armani.html
Disallow: /Brend/Chanel.html
Disallow: /Tur/Thailand.html
Disallow: /Tur/Vietnam.html
Disallow: /Tur/Egypt.html

Правильный вариант:
User-agent: Yandex
Disallow: /Brend/
Disallow: /Tur/

7. Отсутствие в роботсе правила Disallow. По общепринятому стандарту поисковых систем, данная инструкция является обязательной, если вы не собираетесь ничего запрещать, тогда просто оставьте её пустой. Ок?

Неправильный вариант:
User-agent: Googlebot
Host: www.ivan-maslov.ru

Правильный вариант:
User-agent: Googlebot
Disallow:
Host: www.ivan-maslov.ru

8. Не указывают слеши в каталогах

Неправильный вариант:
User-agent: Googlebot
Disallow: ivan

Правильный вариант:
User-agent: Googlebot
Disallow: /ivan/

Правильный и проверенный robots.txt для сайта WordPress

А сейчас, я предлагаю вам ознакомится содержанием кода файла роботс, разобраться в каждой его директиве. а затем скачать готовый вариант.

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /*?*
Disallow: /search*
Disallow: */trackback/
Disallow: */*/trackback
Disallow: */feed
Disallow: */*/feed/*/
Disallow: */comments/
Disallow: */comment
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Disallow: */embed*
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag
Disallow: /category/*/*
Allow: /wp-content/uploads
Crawl-delay: 5
Host: ivan-maslov.ru
Sitemap: http:///sitemap.xml
Sitemap: http:///sitemap.xml.gz

User-agent: Googlebot
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /*?*
Disallow: /search*
Disallow: */trackback/
Disallow: */*/trackback
Disallow: */feed
Disallow: */*/feed/*/
Disallow: */comments/
Disallow: */comment
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Disallow: */embed*
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag
Disallow: /category/*/*
Allow: /wp-content/uploads

User-agent: Mail.Ru
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /*?*
Disallow: /search*
Disallow: */trackback/
Disallow: */*/trackback
Disallow: */feed
Disallow: */*/feed/*/
Disallow: */comments/
Disallow: */comment
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Disallow: */embed*
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag
Disallow: /category/*/*
Allow: /wp-content/uploads

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /?s=*
Disallow: /*?*
Disallow: /search*
Disallow: */trackback/
Disallow: */*/trackback
Disallow: */feed
Disallow: */*/feed/*/
Disallow: */comments/
Disallow: */comment
Disallow: */attachment/*
Disallow: */print/
Disallow: *?print=*
Disallow: */embed*
Disallow: /cgi-bin
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /tag
Disallow: /category/*/*
Allow: /wp-content/uploads

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

User-agent: Mediapartners-Google
Disallow:

User-Agent: YaDirectBot
Disallow:

>> Скачать файл robots.txt для сайта WordPress

Описание значения строк файла robots.txt:

  1. «User-agent: *» — правила, прописанные ниже будут относится ко всем поисковым системам и их роботам, кроме Яндекса и Google
  2. «User-agent: Yandex» — правила, прописанные ниже будут относится к поисковому гиганту Яндекс и всем его поисковым роботам (ПР)
  3. «User-agent: Googlebot» — правила, прописанные ниже будут относится к поисковому гиганту Гугл и всем его ПР
  4. «User-agent: Mail.Ru» — правила, прописанные ниже будут относится к поисковому гиганту Майл ру и всем его ПР
  5. «Disallow:» — условие запрещающее индексирование
  6. «Allow:» — условие разрешающее индексирование
  7. «*» —  звездочка означает допущение абсолютно любой и даже пустой последовательности символов
  8. «$» — дает возможность делать исключение для определенных файлов и каталогов в правиле
  9. «Host: vas-domen.ru» — данное правило используется только стариком Яндексом и указывает ему главное зеркало вашего сайта (www.sait.ru или sait.ru)
  10. «User-agent: Googlebot-Image» —  правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием изображений
  11. «User-agent: YandexImages» —  правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием изображений
  12. «User-agent: Mediapartners-Google» — правила, прописанные ниже будут относится конкретно к поисковому боту Гугла, который занимается индексированием страниц и объявлений с рекламой AdSense. Напомню, что мы прописали там «Disallow:» это позволит подбирать более релевантные объявления и избежать ошибок индексирования. Если вы в будущем собираетесь размещать рекламу от Гугла или уже размещаете, то прописывайте такие правила сразу, чтобы на верочку было все ок, а то потом забудете.
  13. «User-Agent: YaDirectBot» — правила, прописанные ниже будут относится конкретно к поисковому боту Яндекса, который занимается индексированием страниц и объявлений с рекламой Яндекс Директ. В остальном все тоже самое, что писал в предыдущем пункте.
  14. «Sitemap:» — правило, в котором указывается ссылка на местоположение файла с картой сайта sitemap.xml.
  15. «Crawl-delay:» — полезное правило, которое снижает нагрузку на сервер, когда ПР очень часто заходят в гости к вашему сайту, здесь мы задаем время в секундах и говорим этим неугомонным товарищам, чтобы сканировали наш веб-ресурс не чаще, чем 1 раз в 5 секунд.

Ну вот мы и рассмотрели значение всех строк, если этой информации вам мало, то дополнительно рекомендую почитать справку Яндекса. Кстати, скачать полностью готовый файл robots.txt для сайта WordPress, можно — здесь. Не забудьте поменять в нём строчки:

ссылку на Sitemap
главное зеркало web-ресурса в директиве «Host:»

После того, как вы сделали все настройки и загрузили свой роботс в корневую папку сайта, обязательно проверьте его на ошибки, если вы скачали мой вариант, то можете не проверять, я уже это сделал, там всё чётко

Вот на всякий случай парочка классных сервисов для анализа и проверки на ошибки файла robots.txt:

Проверяем robots.txt в инструментах Яндекс Вебмастер: http://webmaster.yandex.ru/robots.xml
Проверяем robots.txt в интсрументах Гугла: https://www.google.com/webmasters/tools/robots-testing-tool?hl=ru

Ну и напоследок, хочу обратить ваше внимание на то, что файл robots.txt для сайта WordPress важное звено в seo оптимизации, между вашим web-ресурсом и поисковыми роботами. С его помощью, вы можете влиять на индексацию сайта. Друзья, помните об этом и используйте свой роботс грамотно, ведь в seo не бывает мелочей.

Остались вопросы — пишите их в комментах, постараюсь ответить в ближайшее время. А какие инструкции используете вы в своем файле robots.txt из выше перечисленных?

Если вам понравилась статья, рекомендуйте её своим друзьям и подписывайтесь на рассылку блога. Увидимся в следующих постах, до связи 😉

С уважением, Иван Маслов

Файл robots.txt для сайта WordPress

Приветствую вас, дорогие читатели!

Сегодня расскажу вам о правильной настройке robots txt для сайта wordpress. Это очень важная вещь, которая должна быть на каждом сайте и которая способна значительно повлиять на индексацию вашего сайта, причём как в лучшую так и в худшую сторону. Здесь всё зависит от того насколько правильно вы всё сделаете.

Вы ведь не хотите, чтобы из-за каких то двух-трёх неправильно написанных строк в robots.txt ваш сайт опустился в выдаче?
Тогда читайте статью до конца.

Навигация по статье:

Как сделать интернет-магазин?

Зачем вообще нужен robots.txt?

До появления CMS для поисковых роботов процесс индексации выглядел достаточно просто. Он просто приходил на ваш сайт и сканировал все HTML страницы которые там есть, а затем заносил их к себе в базу для последующей обработки.

После появления CMS данный процесс значительно усложнился в первую очередь потому, что в папке вашего сайта на хостинге появилось огромное количество файлов движка, которые не содержат никакого ценного контента для поискового робота. И среди этой кучи файлов с кодом бедному роботу нужно найти те две – три статьи, которые вы опубликовали, и которые, по вашему мнению, должны попасть в выдачу.

Можете представить, сколько лишней работы приходится проделывать роботу и сколько мусора может попасть в выдачу?

С целью хоть как то упростить индексацию был придуман robots.txt, который содержит в себе набор команд, с описанием тех папок, которые не нужно индексировать, а также указывающей поисковому роботу путь к карте сайта, о важности которой мы поговорим в одной из следующих статей.

Что представляет собой файл robots.txt?

Это простой текстовый файл с расширением .txt, который можно создать при помощи программы Блокнот или любой другой. Данный файл размещается в корне вашего сайта wordpress, то есть в той папке, куда вы загружаете все файлы сайта, где у вас находятся папки wp-content, wp-admin и так далее.

Названия должно быть обязательно написано строчными символами вот так: «robots.txt».

Какие команды должен содержать данный файл для WordPress?

  1. 1.User-agent: — здесь вы указываете для какого поискового робота предназначен данный набор команд.

    Возможные значения:

    • Yandex
    • GoogleBot
    • Mail.ru
    • Aport и некоторые другие.

    Если вы не хотите прописывать команды для каждого поискового робота, то можете поставить значение «*»
    Это будет означать, что данные команды должны выполняться для всех роботов.

    Должно получиться так:
    User-agent: *

  2. 2.Disallow: команда запрещающая индексировать определённый файлы или папки.

    Например:
    Disallow: /wp-login.php
    Disallow: /wp-register.php

  3. 3.Sitemap: указывает ссылку на карту сайта.

    Например: //impuls-web.ru/sitemap.xml

  4. 4.Host: здесь указывается домен вашего сайта без http://

    Например: Host: impuls-web.ru

Как должен выглядеть robots txt для сайта wordpress?

Каждая CMS имеет свою структуру файлов и папок, поэтому для каждой из них нужно создавать свой robots.txt.

Для сайта WordPress robots.txt обычно выглядит так:

robots.txt

Файл с данным кодом можно скачать по ссылке ниже и загрузить к себе на сайт

Только не забудьте вместо impuls-web.ru подставить домен вашего сайта.

Обратите внимание, что в данном файле прописаны команды только для роботов яндекса и всех остальных. Google в последнее время не обращает особого внимания на этот файл и индексирует всё подряд, поэтому писать команды для него не имеет смысла.

Важно также не запретить ничего лишнего, так как это может привести к проблемам с индексацией и как следствие понижению позиций сайта в выдаче.

Как проверить robots.txt

Это можно сделать через яндекс-вебмастер. Для этого нужно:

  1. 1.Перейти по ссылке https://webmaster.yandex.ru/robots.xml (Анализ robots.txt)
  2. 2.В поле «Имя хоста» введите домен вашего сайта и нажмите на кнопку «Загрузить robots.txt с сайта»
  3. проверка robots.txt
  4. 3.Нажимаем на кнопку «Проверить» и смотрим на результат. Если не возникло никаких ошибок, то результат будет выглядеть приблизительно так как на скриншоте ниже
  5. проверка robots.txt
  6. 4.В идеале ещё бы проверить главную страницу, страницу категорий, страницу записей и другие типы страниц wordpress и убедиться что они могут нормально индексироваться. Для этого нужно взять ссылки на эти страницы и добавить их в пункт «Список URL»
  7. список URL
  8. 5.Нажимаем кнопку «Проверить»
  9. результаты проверки robots.txt
  10. 6.Смотрим результат. Все добавленные вами страницы должны быть разрешены.
  11. проверка результатов

Заключение

Использование robots.txt на сайте wordpress позволяет упростить поисковому роботу процесс индексации за счёт того что вы сами указываете ему какие файлы нужно индексировать, а какие нет. Но не стоит этим злоупотреблять и пытаться перехитрить робота запрещая ему индексировать дубли страниц, к примеру, или какие то страницы с контентом, которые вы бы не хотели чтобы он индексировал.

Поисковые роботы стали более обученные и обмануть их не так то просто. Они все равно будут сканировать запрещённые в robots.txt файлы и папки, но будут уделять им меньшее значение и обрабатывать по другим алгоритмам. Поэтому если среди этих файлов он найдёт страницы, которые похожи на страницы с контентом, то он всё равно поместит их выдачу, несмотря на ваши запреты.

Вывод: использовать robots.txt у себя н сайте стоит, но запрещайте в нём только папки и файлы движка. Страницы с контентом в данном файле запрещаться не должны. Это может привести к неправильной обработке роботом полученных данных и возникновению проблем с индексацией.

Как научиться продвигать сайты?

Надеюсь, что у вас не возникнет никаких проблем ни с созданием и проверкой данного файла, ни с индексированием в целом! Желаю вам успехов в этом деле и если вам есть что сказать или спросить по данной теме – не стесняйтесь и пишите мне через комментарии! Я обязательно отвечу на все ваши вопросы.

Также подписывайтесь на рассылку, чтобы не пропустить ничего интересного.

С уважением Юлия Гусарь

100% правильный Robots.txt для WordPress

Robots.txt определяет правильную индексацию сайтов, в том числе на WordPress CMS. Это делается один раз и помогает акцентировать внимание поисковых систем только на самых значимых страницах сайта, несущих пользу и осмысленное содержание.

robots txt для wordpressrobots txt для wordpress

Не секрет, что многие страницы сайтов вне зависимости от желания и намерения его владельца представляют собой технический «мусор». Например, страницы с результатами поиска внутри сайта https://moytop.com/?s=ctr

Поисковики могут неправильно принять эти страницы за важную информацию и начать выдавать их в поиске в ущерб более правильно оптимизированным разделам сайта, отбрасывая их ниже в рейтинге.

Чтобы избежать таких ситуаций, сразу же после создания блога на WordPress рекомендуется составить специальный текстовый файл robots.txt и поместить его в корневую директорию сайта. Каждая поисковая система ориентирована на работу с этим файлом. В нем содержатся конкретные инструкции, с помощью которых можно:

  • запретить поисковику проиндексировать весь сайт, отдельные папки или файлы.
  • указать на дубликат (зекрало) сайта.
  • указать карту сайта.
  • дать поисковику рекомендации по установке определенных промежутков времени для того, чтобы оптимально проиндексировать сайт и снизить нагрузку на сервер (актуально для больших многостраничных проектов) и так далее.

Как правильно составить robots.txt для WordPress?

Это обычный текстовый файл, поэтому его можно открыть любым текстовым редактором (я вместо стандартного Notepad, который поставляется с каждой Windows, пользуюсь EditPlus). Повторюсь, находится он в корне сайта. А попасть в корень можно по FTP-доступу, который предоставляет любой хостер (читать «Как зайти на сайт через FTP»).

После того, как вы успешно зашли по FTP и открыли файл, смотрим на его содержимое. Для запрета индексации robots.txt должен содержать определенные команды для поисковиков, каждая из которых начинается с новой строки:

User-Agent
Эта команда задает поисковую систему, для которой предназначены последующие инструкции. Например, если вы укажете User-Agent: Yandex, то все последующие ниже команды будут относиться именно к этой поисковой системе.

Как правило, для блога выгодно, чтобы все страницы одинаково хорошо индексировались как под Яндекс, так и под Google и другие поисковики, поэтому имеет смысл не разделять инструкции для поисковых систем, а использовать общие правила. Для этого достаточно написать эту команду в таком виде: User-Agent: *

Она означает, что все поисковые системы могут проиндексировать сайт.

Disallow
Указывает конкретные страницы и каталоги сайта, которые нужно закрыть от индексации при помощи.

Если все файлы и страницы сайта можно индексировать, то после название оставляете пробел, вот так Disallow:   , а если нужно тотально запретить индексацию всех без исключения страниц, то ставите в конце слеш (наклонную черту), вот так:  Disallow: /

Но это крайние ситуации. Обычно под «запрет» попадают определенные папки или файлы. Поэтому после слеша указываете полное их наименование.

Примеры использования команд файла Robots.txt

Ниже вы найдете примеры robots.txt в котором использованы наиболее частые команды User-Agent и Disallow в разных вариациях. Если нужно оставить комментарий в файле, то начните предложение с этого знака #

Примеры использования Disallow

Эта команда запрещает индексирование и чаще всего используется в таких вариантах.

1. Разрешаете проиндексировать всем поисковикам все страницы без исключения:
User-Agent: *
Disallow:

2. Запрещаете проиндексировать только Яндексу все на сайте:
User-Agent: Yandex
Disallow: /

3. Разрешаете проиндексировать все страницы на сайте только поисковой системе Google:
User-Agent: Google
Disallow:

# продолжение: после первой инструкции оставляем пустую строчку, это важно для безошибочного прочтения
User-Agent: *
Disallow: /

4. Разрешаете проиндексировать всем поисковикам каждую папку, кроме /png/:
User-Agent:  *
Disallow: /png

5. Разрешаете проиндексировать поисковым системам весь сайт, кроме динамических ссылок (например, поисковых запросов внутри сайта на WordPress)
User-Agent: *
Disallow: /*?s=*

6. Запретить индекацию конкретного файла master.php, который находится в папке includes
User-Agent: *
Disallow: /includes/master.php

7. Запретить индекацию любых каталогов и файлов, которые начинаются с download, например, файл download.gif
User-Agent: *
Disallow: download

Команда Allow

Имеет обратно Disallow значение — разрешает индексацию для указанных файлов и папок.

# Вот так можно разрешить индексацию лишь для файла myfoto.jpg, которая находится в запрещенной для индексации папке Album.
User-Agent: *
Disallow:  album
Allow: /album/myfoto.jpg

Host

Эта директива позволяет указать зеркало сайта, то есть как предпочтительнее отображать имя сайта в поиске — с www или без?. Я предпочитаю без www, для этого нужно написать следующую инструкцию:

Host: moytop.com

где вместо moytop.com нужно вписать свое имя сайта.

Sitemap

Позволяет добавить ссылку на карту сайта, если она, конечно, у вас уже создана.
Вот, например, моя карта сайта, которая прописана в robots.txt

Sitemap: https://moytop.com/sitemap.xml

Crawl-delay

Позволяет выставить задержку в секундах перед индексацией отдельных страниц. Если на вашем сайте очень много страниц, которые периодически обновляются, а хостинг — дешевый, то имеет смысл указать значение в 10-15 секунд.

Это позволит снизить нагрузку на хостинг со стороны поисковых систем. Делается это следующей командой:

Crawl-delay: 10

Скачать 100% рабочий файл Robots.txt для WordPress CMS

Эти основные команды вы можете применять для своего сайта на Вордпресс в том или ином виде. У многих сайтов и блогов они будут применяться по-разному, так как могут использоваться разные плагины, разные пути к файлам и разные динамические адреса.

Но я могу порекомендовать вам готовый и проверенный файл Robots.txt, который можно безболезненно использовать на большинстве сайтов под WordPress CMS и который уже отлично себя зарекомендовал. Вы можете посмотреть его в бонусе.

Почему это действительно хороший Robots.txt?
Прежде всего потому, что многие найденные в интернете решения блокируют больше чем нужно, например, запрещают индексацию служебных папок вроде /WP-CONTENT/

Раньше это еще было допустимо, но сейчас поисковики (особенно Google) обязательно должны прочитать все нужные служебные папки, чтобы правильно воспроизвести то, как сайт выглядит в глазах рядовых пользователей.  А для этого нужен доступ к служебным папкам, содержащим файлы  CSS, JS и другие.

Важно! С помощью версии сайта для мобильных устройств можно получать более высокие места в поиске Google (подробнее о том, как создать мобильную версию для WordPress за 10 минут).

Поэтому нужно не запрещать в файле Robots.txt все подряд, а выкинуть только реальные дубли страниц, остальное же разрешить для сканирования — в этом случае сайт будет показываться правильно и вы не увидите ошибок в Google.Webmasters вроде таких: «Googlebot не может получить доступ к файлам CSS и JS на сайте».

Так что можете смело качать мой файл Robots.txt — он проверен на дубли и отлично работает с Googlebot.

Бонус!

Посмотреть и скачать уже готовый пример robots.txt для WordPress можно прямо сейчас. Контент доступен для подписчиков блога. Достаточно ввести свой правильный емейл, и после подтверждения вам откроется полное содержимое этой страницы.

Бонус

Всё получилось успешно!

Добавьте вот эти строки в ваш файл robots.txt (находится в корне вашего сайта и может быть отредактирован по FTP).
User-Agent: *
Disallow: */wp-json*
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /*?s=*
Disallow: /*?ad=*
Disallow: /cgi-bin
Disallow: */trackback
Disallow: */comments
Disallow: /tag
Disallow: /?attachment
Allow: *.css
Allow: *.js
Allow: *.png
Allow: *.gif
Allow: *.jpg
Allow: *.jpeg
Allow: */feed/*
Sitemap: ссылка на вашу карту
User-agent: YandexBot
Crawl-delay: 10
Disallow: */wp-json*
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /*?s=*
Disallow: /*?ad=*
Disallow: /cgi-bin
Disallow: */trackback
Disallow: */comments
Disallow: /tag
Disallow: /?attachment
Allow: *.css
Allow: *.js
Allow: *.png
Allow: *.gif
Allow: *.jpg
Allow: *.jpeg
Allow: */feed/*
Sitemap: ссылка на вашу карту

Если на ваш емейл после подписки не приходит письмо для подтверждения уведомления (такое бывает иногда в зависимости от типа вашего ящика), то есть такие варианты:

  • Подождите минут 5-10.
  • Попробуйте другую почтовую сеть, лучше всего работают mail.yandex.ru или gmail.com.
  • Проверьте папку СПАМ — может нужное письмо именно там. После чего обязательно отметьте его и кликните — НЕ спам.
  • Если ничего не получилось, напишите мне в Контакты и укажите ссылку на страницу, версию браузера и примерный порядок действий.

С помощью этих инструкци или готового примера вы можете составить robots.txt для WordPress CMS правильно, с учетом структуры именно вашего сайта. Но обратите внимание, достаточно будет набрать http://адрес-сайта/robots.txt — и любой желающий увидит перечень ваших служебных и системных папок, которые есть на вашем компьютере.

Получение списка каталогов на сервере — это потенциальная угроза для безопасности сайта. Поэтому рекомендую обязательно сделать невозможным получение доступа к таким каталогам. Это очень просто, а позволяет получить дополнительную защиту от взлома.

Как это сделать? Читайте в статье: «Повышаем безопасность WordPress в 2 клика»

Robots.txt для WordPress

Файл robots.txt — это инструкция для поисковых роботов (Яндекса, Гугла), которая помогает им правильно индексировать ваш сайта, разрешать или запрещать индексацию разделов, страниц. Правильный robots.txt для WordPress позволяет индексировать только страницы и записи, не засоряя поисковую выдачу дублями страниц и различным мусором.

Итак, сразу к делу. Вот оптимальный файл robots.txt для сайта на WordPress (пояснения смотрите ниже):

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /feed/
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /?s=
Host: maxtop.org
Sitemap: http://maxtop.org/sitemap.xml.gz
Sitemap: http://maxtop.org/sitemap.xml

Важно: измените адрес сайта с maxtop.org на ваш собственный!

А теперь расскажу по порядку, какие строки за что отвечают.

1. Как выбрать робота, к которому вы обращаетесь?

User-agent — это обращение к определенному поисковому роботу. Помимо того, что у каждой поисковой системы свой робот (Яндекс, Google), так еще и в рамках одного поисковика есть десяток специфических роботов. Например, YandexBot — основной робот Яндекса, YandexMedia — робот, индексирующий мультимедиа — картинки, аудио, видео, YandexImages — специализированный индексатор картинок (в Яндекс-картинки). Есть даже специальные роботы, которые сканируют микроразметку сайта.

Но нам особо вдаваться в детали не надо, только запомните, что звездочкой (*) отмечается обращение ко всем поисковым роботам.

2. Директивы в robots.txt.

Итак, к роботу мы обратились, теперь надо дать ему команду. Эти команды или директивы могут быть следующие:

Disallow: — запрет на индексацию раздела, страницы, регулярного выражения. Вы говорите роботу: «Вот это не смотри и в поисковую выдачу не добавляй». Нужно для запрета индексации служебных разделов, административной панели и для удаления дублей страниц. Дубли — это одинаковые страницы, доступные по разным адресам. Например, данная статья, которую вы читаете доступна по адресам:

http://maxtop.org/?p=1575
http://maxtop.org/robots-txt-dlya-wordpress/

Однако нам обе ссылки не нужны, т.к. это будет дубль страницы. И в роботс.тхт мы можем закрыть такие и подобные дубли.

Allow: — призыв к индексации страниц, разделов, ссылок. Вы говорите роботу: «Это обязательно нужно проиндексировать и добавить в поисковую выдачу!»

Host: — это указание основного хоста или адреса вашего сайта (совпадает с доменным именем сайта).

Sitemap: — это указание адреса карты сайта (в формате xml или в заархивированном виде). Вы помогаете роботу найти карту сайта, которая отражает структуру материалов у вас на сайте.

Внимание: убедитесь, что у вас установлен плагин карты сайта и что по указанному адресу действительно открывается карта сайта! Если нет — установите плагин Google (XML) Sitemaps Generator for WordPress.

3. Регулярные выражения в файле robots.txt.

Чтобы вручную не прописывать сотни ссылок для запрета или разрешения индексации можно применить регулярные выражения, которые значительно упростят вашу работу. Рассмотрим пример:

Disallow: /category/*/*

Звездочка обозначает подстановку любой части url. Таким образом, приведенная директива запрещает индексацию всех ссылок, содержащих часть «category». Это необходимо для устранения дублей, когда одна запись на вашем сайте доступна по прямой ссылке и по ссылке с префиксом «category».

Другой пример:

Disallow: /?s=

Это запрет индексации всех результатов поиска на сайте (все, что выдается в окне поиска по сайту).

А теперь не забудьте настроить файл .htaccess для своего сайта.

Поделитесь этой записью с друзьями, буду благодарен!

Author: admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *