Sitemap в robots txt пример – что это такое, функции, как создать, настроить и проверить, ошибки при заполнении, пример правильно составленного файла robots

Содержание

Делаем правильный robots.txt и sitemap.xml / Мастерская интернет-разработчика

29 мая 2009 г. Google SEO WordPress Яндекс Поисковые системы

Задача состоит в том, чтобы запретить некоторые каталоги для индексации поисковым системам, для того, чтобы избавится от дублированного контента. Например, на одну и ту же статью можно попасть как с /tag/ так и с /category/.

Почему дублирующийся контент это плохо?

Вот, что говорит по этому поводу Google (перевод), можно так же найти информацию по поводу поисковой системы Яндекс, где говорится что их алгоритмы банят сайты с дублирующимся контентом. Не знаю так это или нет, я не специалист в области SEO (если есть спецы — отпишите в камменты), но на всякий случай прикрою дубляжи!

Воспользуйтесь поиском от Google или Яндекс и вы найдете море информации по этой теме.

UPD: Про дублирующийся контент в WordPress.

Robots.txt

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

http://ru.wikipedia.org/wiki/Robots.txt

Также есть немного информации на форуме MasterTalk: Что такое robots.txt и для чего он нужен, а также есть сайт посвященный этому файлу — Все о файле robots.txt по-русски.

Вот еще эксперименты Дениса Болтикова по идеальному роботсу для WordPress: Идеальный robots.txt для WordPress и Идеальный robots.txt для WordPress — 2.

Мой Robots.txt

Так вот выглядит мой роботс:

User-agent: *
Disallow: /wp-
Disallow: /xmlrpc.php
Disallow: /category/
Disallow: /page/
Disallow: /trackback/
Disallow: /feed
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Sitemap: http://adw0rd.ru/sitemap.xml

Я разрешил поисковым ботам индексировать меня только по

«Тегам» и «Архиву». Обратите внимание, я использую маску /wp-, для того чтобы URL’ы wp-login.php, wp-register.php, wp-admin и т.д. попали под запрет индексации (Disallow).

Также я разрешил индексировать мой «/wp-content/uploads/» для сервисов «Яндекс.Картинки» и «Google Картинки», так как там хранятся в основном картинки. И расшарил файл «sitemap.xml» для лучшей индексации.

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:

Sitemaps

Так же следует не забыть о файле sitemap.xml

Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации. Sitemaps может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

http://ru.wikipedia.org/wiki/Sitemaps

Сайтмап не обязателен и поисковые системы не гарантируют его использование, он лишь помогает поисковым ботам проводить индексацию, однако я считаю что это очень полезным!

Для WordPress существует плагин — Google XML Sitemaps (другие полезные плагины для WordPress используемые мной). Этот плагин генерирует за вас файл sitemap.xml, в котором и содержится информация для поисковых ботов по индексации сайта. Вы сами можете его настроить и указать проценты приоритета для статей, страниц и т.д.

Центры веб-мастеров Google и Яндекс

Для ускорения индексации рекомендуется оповестить

Google и Яндекс о ваших файлах robots.txt и sitemap.xml, для этого существуют специальные сервисы:

Использование http-пингов для уведомления поисковых систем о обновлениях в sitemaps

Можно указать поисковым системам местонахождение файла Sitemap при помощи HTTP-запроса:

Google
http://google.com/webmasters/sitemaps/ping?sitemap=<sitemap_location>

Яндекс
http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=<sitemap_location>

Yahoo!
http://search.yahooapis.com/SiteExplorerService/V1/updateNotification?appid=SitemapWriter&url=<sitemap_location>
http://search.yahooapis.com/SiteExplorerService/V1/ping?sitemap=<sitemap_location>

Ask.com
http://submissions.ask.com/ping?sitemap=<sitemap_location>

Live Search
http://webmaster.live.com/ping.aspx?siteMap=<sitemap_location>

Где <sitemap_location> необходимо заменить на полный URL файла Sitemap. Например, чтобы добавить файл http://www.example.com/sitemap.xml в поисковик Google, нужно отправить HTTP-запрос http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.example.com/sitemap.xml.

Информация по пингам взята с http://ru.wikipedia.org/wiki/Sitemaps

Google не рекомендует чаще чем раз в час его пинговать, вот пруфлинк.

Как составить минимальный robots.txt – Андрей Шарапов

Файл robots.txt — специальный текстовый файл, расположенный в корневом каталоге сайта и содержащий инструкции для поисковых систем. Он является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован.

Как создать robots.txt?

Файл robots.txt легко создать при помощи любого текстового редактора, например Блокнот. Для этого достаточно создать новый файл с именем «robots.txt», и заполнить его всеми необходимыми директивами. После того, как файл создан, его необходимо поместить в корневой каталог вашего сайта.

Как влияет robots.txt на индексацию сайта

Поисковые роботы будут индексировать ваш сайт независимо от наличия файла robots.txt. Если же такой файл существует, то роботы могут руководствоваться правилами, которые в этом файле прописываются. При этом некоторые роботы могут игнорировать те или иные правила, либо некоторые правила могут быть специфичными только для некоторых ботов.

Максимальную нагрузку на сайт создают роботы, которые скачивают контент с вашего сайта. Следовательно, указывая, что именно индексировать, а что игнорировать, а также с какими временны́ми промежутками производить скачивание, вы можете, с одной стороны, значительно снизить нагрузку на сайт со стороны роботов, а с другой стороны, ускорить процесс скачивания, запретив обход ненужных страниц.

Давайте начнем по порядку и будем рассматривать директивы в том порядке, в котором предпочтительнее их разложить.

Директивы robots.txt

Директивы — это набор правил для роботов.

User-agent

Это самая главная директива, определяющая для каких роботов далее следуют правила. Для того чтобы написанные инструкции использовали все роботы, поддерживающие robots.txt , достаточно указать в директиве User-agent: *. Если написанные директивы предназначаются определенным поисковым роботам, то в User-agent пишут их названия, например

User-agent: Googlebot или User-agent: YandexBot.

Внимание! В robots.txt не важен регистр символов. Вы можете записывать правила как Googlebot, так и googlebot.

Allow

Директива Allow позволяет разрешить доступ поискового робота к странице или разделам сайта. Часто данная директива используется, когда надо открыть для роботов небольшое количество страниц раздела, который планируется закрыть при помощи директивы Disallow.

Disallow

Директива Disallow позволяет запретить доступ роботов поисковых систем к конкретным страницам и разделам сайта. Также её используют для того, чтобы скрыть страницы или разделы, которые не имеют информационной значимости для пользователей, например админку в cms, технический разделы сайта, дублирующийся контент в SERP и пр..

Прежде чем приступать к установке директив, нужно знать дополнительные операторы *, $ и # и понимать, как они используются.

  1. * — это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
  2. $ — показывает, что символ перед ним должен быть последним.
  3. # — используется для того, чтобы отменить использование спецсимвола * в конце правила.

Пример 1:

Allow: *.css
Disallow: /template/

говорят нам о том, что /style.css — открыт от индексирования, а /template/style.css — закрыт.
Если нужно, чтобы все .css файлы сайта были открыты для индексирования придется это дополнительно прописать для каждой из закрытых папок.

Allow: *.css
Allow: /template/*.css
Disallow: /template/

Пример 2

User-agent: *
Disallow: /template$

Здесь мы запретили адреса /template, но не запретили /template/page/ или /template.html.

Помните, что порядок записи директив Allow и Disallow не важен.

Следующие директивы указывается в файле robots.txt после директив Allow и Disallow.

Sitemap

Директива Sitemap необходима при использовании файл sitemap.xml. При помощи этой директивы можно указать путь к месту расположения одной или нескольких карт сайта.
Например, если у нас помимо основного сайта есть еще и форум, то в файле robots.txt мы укажем две карты:


Sitemap: /sitemap.xml
Sitemap: /sitemap-forum.xml

Host

Директива Host

необходима для указания главного зеркала сайта. В большинстве случаев для перехода с www.site.ru на site.ru. Если у сайта есть несколько зеркал, то они будут объединены в специальную группу. В таком случае в поиске будет выдаваться только адрес главного зеркала. Для того чтобы у робота-зеркальщика не было проблем с определением главного сайта, необходимо указать директиву Host для каждого сайта-зеркала.


Host: website.ru или www.website.ru или https://website.ru

Crawl-delay

Директива Crawl-delay позволяет указать поисковым роботам минимальное время (в секундах) между скачиванием страниц. Данную директиву следует использовать в случае сильной нагрузки на сервер. Значение может устанавливаться в целых или дробных единицах (разделитель — точка), время в секундах.

Crawl-delay: 5 или 4.5

Чем больше значение, тем меньше страниц робот загрузит за одну сессию. Оптимальное значение определяется индивидуально для каждого сайта. Лучше начинать с не очень больших значений — 0.1, 0.2, 0.5 — и постепенно их увеличивать.

Если сайт имеет небольшую нагрузку, то необходимости устанавливать такое правило нет. Однако если индексация страниц роботом приводит к тому, что сайт превышает лимиты или испытывает значительные нагрузки вплоть до перебоев работы сервера, то эта директива поможет снизить нагрузку.

Clean-param

Директива, позволяющая избежать многократной закачки дублирующихся страниц, возникших из-за не изменяющих содержание динамических параметров. Использование директивы Clean-param снижает нагрузку на сервер, а также позволяет избавиться от внутренних дублей страниц.

Как запретить индексирование сайта?

Если вы хотите, чтобы ваш сайт НЕ индексировался поисковыми роботами, то вам нужно прописать в robots.txt следующие директивы:

User-agent: *
Disallow: /

Как составить минимальный robots.txt?

Исходя из вышесказанного, вы наверное уже поняли как должен выглядеть минимальный файл robots.txt. Для тех кто еще не совсем разобрался, вот минимальный код:

Для того, чтобы избежать исчезновения из поисковых систем важных для разделов вашего сайта, рекомендуется использовать специальный сервис, позволяющий убедится в правильности заполнения вашего robots.txt.

Автор: Андрей Шарапов

Возможно Вас также заинтересует…

что это такое, функции, как создать, настроить и проверить, ошибки при заполнении, пример правильно составленного файла robots

robots.txt

Файл robots.txt (индексный файл) – это документ в формате .txt, где указываются инструкции к индексированию веб-сайта/его страниц/разделов и прочих материалов для поисковых роботов. Проще говоря, он включает команды, дающие рекомендации роботам касательно того, какие материалы веб-ресурса можно скачивать и вносить в индекс, а какие – нет.

Индексный файл имеет кодировку UTF-8, и он работает с протоколами http, https и FTP. Robots размещают в корне сайта. Он представляет собой стандартный текстовый документ. А чтобы получить к нему доступ, достаточно перейти по адресу:

http://название_вашего_сайта.ru/robots.txt.

Какие функции выполняет robots.txt?

Он играет важнейшую роль в оптимизации проекта. Если вы не позаботитесь о создании данного файла, то без него нагрузка на сайт со стороны роботов может быть колоссальной. Еще это приведет к очень медленной индексации, а если неправильно настроить документ, то вы и вовсе рискуете потерять ресурс из поисковой выдачи, из-за чего пользователи просто не смогут найти его ни в одной системе.

А также применяя robots.txt, вы можете попросить ботов не сканировать:

  • служебные страницы, где находится конфиденциальная информация о посетителях сайта;
  • страницы, где указываются поисковые результаты;
  • зеркала;
  • страницы с разными формами отправки контента.

Очевидно, что без индексного файла вы позволите отправить в поисковую выдачу документы, которые нужно обязательно скрыть от индексирования, потому что в них нет контента, который нес бы хоть какую-то пользу для потенциальных посетителей. А это непременно плохо скажется на вашем ресурсе.

На заметку. Файл robots.txt носит рекомендательный характер для поисковых систем, и если в этом файле вы прописали команду, запрещающую сканировать определенную страницу, имеющую внешнюю ссылку с постороннего ресурса или на самом сайте, она с большой вероятностью все равно может проиндексироваться.

Правильное создание и редактирование robots.txt

Как вы уже поняли, файл robots является обычным документом в формате .txt. Чтобы его создать, не понадобится никаких посторонних программ. Достаточно иметь стандартный Блокнот, который есть на любом компьютере. Создайте новый документ и пропишите в нем соответствующие правила для поисковых роботов (о них мы поговорим немного позже). Затем сохраните его, назвав robots.

Когда создадите файл, скиньте его в корень веб-ресурса при помощи FTP-клиента. Чтобы проверить, получилось ли у вас закачать файл, перейдите по адресу:

название_вашего_сайта.ru/robots.txt.

Сделав все верно, браузер отобразит полное содержание robots.txt.

При необходимости документ можно редактировать, соблюдая определенные правила. Главное, что стоит делать после любого обновления – загружать на сервер измененную версию robots.txt.

Как настроить

Важно не допустить попадания в поисковую выдачу личных данных посетителей сайта. Поэтому следует внимательно настраивать robots. Но учтите – боты не всегда выполняют команды, прописанные в документе, хотя Google и Яндекс зачастую следуют указанным инструкциям.

Для более ясного понимания того, как работает индексный файл, чтобы затем грамотно его использовать, нужно ознакомиться с директивами – инструкциями для роботов.

Директива User-agent

Это основное правило, где вы указываете конкретное имя робота поисковика, для которого и пишутся дальнейшие инструкции. User-agent для всех поисковых ботов выглядит так:

User-agent: *

Желая прописать указания для всех ботов определенной поисковой системы, к примеру, Яндекса, нужна директива:

User-agent: Yandex

А для Google:

User-agent: Googlebot

Сегодня насчитывается больше 300 имен роботов, и найти в интернете весь список не составит труда.

Disallow и Allow

В Disallow прописываются правила, позволяющие роботам понять, какие именно файлы, разделы, страницы и прочие данные нельзя вносить в поиск.

Прописав это правило, вы запретите поисковым машинам обрабатывать все материалы на ресурсе:

User-agent: *
Disallow: /

Обычно это требуется тогда, когда вы только создали сайт и дорабатываете его, не желая, чтобы он висел в результатах запросов в незаконченном виде. Не забудьте убрать данную рекомендацию, когда приведете сайт к итоговому виду, потому что многие сайтостроители, как ни странно, забывают это сделать, а затем подолгу ожид

Правильный robots.txt для популярных CMS

Поисковые роботы индексируют сайт независимо от наличия robots.txt и sitemap.xml, с помощью файла robots.txt можно указать поисковым машинам, что исключить из индекса, и настроить другие важные параметры. 

Стоит учесть, что краулеры поисковых машин игнорируют определенные правила, например:

Директивы

Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. 

Основные — часто используемые директивы

User-agent: директива, с которой начинается Robots.txt. 

Пример:

User-agent: * # указания для всех поисковых роботов.
User-agent: Yandex # указания для робота Яндекса.
User-agent: GoogleBot # указания для робота Google.
Disallow: # запрещающая директива, запрет индексции того, что указанно после /.
Allow: # разрешающая директива, для указания на индексацию URL. 
Disallow: # не работает без спецсимвола /.  
Allow: / # игнорируются, если после / не указан URL.

Спецсимволы, которые используются в robots.txt  /, $.

Обратите внимание на символ /, можно допустить крупную ошибку прописав например:

User-agent:*
Disallow: / # таким образом можно закрыть весь сайт от индексации.

Спецсимвол означает любую, в том числе и пустую, последовательность символов, например:

Disallow: /cart/* # закрывает от индексации все страницы после URL: site.ru/cart/

Спецсимвол $ ограничивает действие символа *, дает строгое ограничение:

User-agent:*
Disallow: /catalog$ # при таком символе не будет индексироваться catalog, но в индексе будет catalog.html

Директива sitemap — указывает путь к карте сайта и выглядит так:

User-agent:* 
Allow: /  
Sitemap: http://www.site.ru/sitemap.xml # ее необходимо указывать с http:// или https://, https:// - указывается если подключён SSL сертификат

Директива Host — указывает главное зеркало сайта с www или без www.

User-agent:*
Allow: /  
Sitemap: http://www.site.ru/sitemap.xml 
Host: www.site.ru # следует писать путь к домену без http и без слэшей, убедитесь, что домен склеен. Без правильной склейки домена, одна и та же страница может попасть в индекс поисковых систем более одного раза, что может повлечь пессимизацию. 

Директива Crow-Delay — ограничивает нагрузку на сервер, задает таймаут для поисковых машин:

User-agent: * Crawl-delay: 2 # задает таймаут в 2 секунды.

User-agent: * 
Disallow: /search 
Crawl-delay: 4.5 # задает таймаут в 4.5 секунды.

Директива Clean-Param необходима, если адреса страниц сайта содержат динамические параметры, которые не влияют на содержимое, например: идентификаторы сессий, пользователей, рефереров и т. п.

Робот Яндекса, используя значения директивы Clean-Param, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, страницы с таким адресом: 

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 
www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

Параметр ref используется только для того, чтобы отследить, с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если указать директиву следующим образом:

User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_book.pl

робот Яндекса сведет все адреса страницы к одному:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Также стоит отметить, что для этой директивы есть несколько вариантов настройки

Кириллические символы в robots.txt

Использование символов русского алфавита запрещено в robots.txt, для этого необходимо использовать Punycode (стандартизированный метод преобразования последовательностей Unicode-символов в так называемые ACE-последовательности)

#Неверно:
User-agent: *
Disallow: /корзина
Host: интернет-магазин.рф

#Верно:
User-agent: *
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Host: xn----8sbalhasbh9ahbi6a2ae.xn--p1ai

Рекомендации по тому, что нужно закрывать в файле robots.txt

  • Административную панель — но при этом учтите, что путь к вашей административной панели будет известен, убедитесь в надежности пароля в панели управлением сайтом.
  • Корзину, форму заказа, и данные по доставке и заказам.
  • Страницы с параметрами фильтров, сортировки, сравнения.

Ошибки, которые могут быть в robots.txt

  • Пустая строка — недопустимо делать пустую строку в директиве user-agent, которая по правилам robots.txt считается «разделительной» (относительно блоков описаний). Это значит, что спрогнозировать применимость следующих за пустой строкой директив — нельзя. 
  • При конфликте между двумя директивами с префиксами одинаковой длины, приоритет отдается директиве Allow.
  • Для каждого файла robots.txt обрабатывается только одна директива Host. Если в файле указано несколько директив, робот использует первую.
  • Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.
  • Шесть роботов Яндекса не следуют правилам Robots.txt (YaDirectFetcher, YandexCalendar, YandexDirect, YandexDirectDyn, YandexMobileBot, YandexAccessibilityBot). Чтобы запретить им индексацию на сайте, следует сделать отдельные параметры user-agent для каждого из них.
  • Директива User-agent всегда должна писаться выше запрещающей директивы.
  • Одна строка, для одной директории. Нельзя писать множество директорий на одной строке.
  • Имя файла должно быть только таким: robots.txt. Никаких Robots.txt, ROBOTS.txt, и так далее. Только маленькие буквы в названии.
  • В директиве host следует писать путь к домену без http и без слешей. Неправильно: Host: http://www.site.ru/, Правильно: Host: www.site.ru (или site.ru)
  • При использовании сайтом защищенного протокола https в директиве host (для робота Яндекса) нужно обязательно указывать именно с протоколом, так Host: https://www.site.ru

Проверка ошибок в robots.txt c помощью Лабрики

labrika→в левом меню Технический аудит→в выпадающем меню→Ошибки robots.txt→перепроверить robots.txt

Необходимо учесть, что файл размером больше 32кб считывается как полностью разрешающий, вне зависимости от того, что написано.

Избыточное наполнение robots.txt. Начинающие веб-мастера впечатляются статьями, где сказано, что все ненужное необходимо закрыть в robots.txt и начинают закрывать вообще все, кроме текста на строго определенных страницах. Это, мягко говоря, неверно. Во-первых, существует рекомендация Google не закрывать скрипты, CSS и прочее, что может помешать боту увидеть сайт так же, как видит его пользователь. Во-вторых, очень большое количество ошибок связано с тем, что закрывая одно, пользователь закрывает другое тоже. Безусловно, можно и нужно проверять доступность страницы и ее элементов. Как вариант ошибки — путаница с последовательностью Allow и Disallow. Лучше всего закрывать в robots.txt только очевидно ненужные боту вещи, вроде формы регистрации, страницы перенаправления ссылок и т. п., а от дубликатов избавляться с помощью canonical. Обратите внимание: то, что вы поправили robots.txt, совсем не обозначает, что Yandex- bot и Google-bot его сразу перечитают. Для ускорения этого процесса достаточно посмотреть на robots.txt в соответствующем разделе вебмастера.

Примеры правильно настроенного robots.txt для разных CMS:

WordPress

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

Host: site.ru
Sitemap: http://site.ru/sitemap.xml

ModX

User-agent: *
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?
Host: example.ru
Sitemap: http://example.ru/sitemap.xml

OpenCart

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category

Joomla

User-agent:*
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/  
Disallow: /cache/
Disallow: /components/
Disallow: /go.php
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*com_mailto*
Disallow: /*pop=*
Disallow: /*lang=ru*    
Disallow: /*format=*    
Disallow: /*print=*
Disallow: /*task=vote*
Disallow: /*=watermark*     
Disallow: /*=download*
Disallow: /*user/*    
Disallow: /.html        
Disallow: /index.php?
Disallow: /index.html
Disallow: /*? 
Disallow: /*%
Disallow: /*&
Disallow: /index2.php
Disallow: /index.php  
Disallow: /*tag           
Disallow: /*print=1        
Disallow: /trackback        
Host: Ваш сайт                

Bitrix

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?print=
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*?action=
Disallow: /*action=ADD_TO_COMPARE_LIST
Disallow: /*action=DELETE_FROM_COMPARE_LIST
Disallow: /*action=ADD2BASKET
Disallow: /*action=BUY
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*?COURSE_ID=
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*PAGEN_2=
Disallow: /*PAGEN_3=
Disallow: /*PAGEN_4=
Disallow: /*PAGEN_5=
Disallow: /*PAGEN_6=
Disallow: /*PAGEN_7=
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*PAGE_NAME=search
Disallow: /*PAGE_NAME=user_post
Disallow: /*PAGE_NAME=detail_slide_show
Disallow: /*SHOWALL
Disallow: /*show_all= Host: sitename.ru
Sitemap: http://www.sitename.ru/sitemap.xml

В данных примерах, в указании User-Agent указан параметр * , разрешающий доступ всем поисковым роботам, для настройки robots.txt под отдельные поисковые системы вместо спецсимвола указывается название робота  Yandex, GoogleBot, StackRambler, Slurp, MSNBot, ia_archiver.

 

Author: admin

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *