Создать файл robots txt: Создание Robots.txt – Создать файл robots.txt ♨ онлайн

Содержание

Как правильно создать файл Robots.txt?

Привет, начинающим вебмастерам!

После двух подготовительных уроков (Что такое SEO-продвижение? и Основные понятия SEO) можем переходить к практической части, а вернее к подготовке сайта к продвижению. Сегодня мы разберем вопрос: как создать robots.txt?

robots.txt – это файл в котором содержатся параметры индексирования для поисковых систем.

Создание этого файла является одним из первых шагов к SEO-продвижению. И вот почему.

Для чего нужен robots.txt?

После того, как вы добавите свой сайт в Яндекс и Google (мы пока это не проходили), ПС начнут индексировать все, абсолютно все, что находится в вашей папке с сайтом на сервере. Это не очень хорошо с точки зрения продвижения, ведь в папке содержится очень много не нужного для ПС “мусора”, что негативно скажется на позициях в поисковой выдаче.

Именно файл robots.txt запрещает индексирование документов, папок и ненужных страниц. Кроме всего прочего, здесь указывается путь к карте сайта (тема следующего урока) и главный адрес, об чуть подробнее.

О карте сайта я говорить много не буду, скажу лишь одно: карта сайта улучшает индексацию сайта. А вот про главный адрес стоит поговорить подробнее. Дело в том, что каждый сайт изначально имеет несколько зеркал (копий сайта) и доступны по различным адресам:

  • www.context-up.ru
  • context-up.ru
  • context-up.ru/
  • www.context-up.ru/

При наличии всех этих зеркал сайт становится не уникальным. Естественно, ПС не любят не уникальный контент, не давая таким сайтам подниматься в поисковой выдаче.

Как заполнить файл robots.txt?

Любой файл, предназначенный для работы с различными внешними сервисами, в нашем случае поисковыми системами, должен иметь правила заполнения (синтаксис). Вот правила для robots:

  • Название файла robots.txt должно начинаться именно с маленькой буквы. Не нужно называть его ни Robots.txt, ни ROBOTS.TXT. Правильно:
    robots.txt
    ;
  • Текстовый формат “Unix”. Формат свойственен обычному блокноту в Windows, поэтому создать robots.txt достаточно просто;

Операторы robots

А сейчас поговорим, собственно, о самих операторах robots. Всего их около 6 по-моему, но необходимыми являются только 4:

  1. User-agent. Данный оператор используется для указания поисковой системы, к которой адресуются правила индексации. С его помощью можно указывать разные правила разным ПС. Пример заполнения: User-agent: Yandex;
  2. Disallow. Оператор, запрещающий индексацию той или папки, страницы, файла. Пример заполнения: Disallow: /page.html;
  3. Host. Этим оператором указывается главный адрес (домен) сайта. Пример заполнения: Host: context-up.ru
    ;
  4. Sitemap. Указывает на адрес карты сайта. Пример заполнения: Sitemap: context-up.ru/sitemap.xml;

Таким образом я запретил Яндексу индексировать страницу “page.html”, указал главный домен сайта (context-up.ru) и адрес карты сайта. Теперь поисковый робот Яндекса учтет эти правила и страницы “page.html” никогда не будет в индексе.

User-agent

Как уже было сказано выше, в User-agent указывается поисковая система, к которой будут использованы правила индексации. Вот небольшая табличка:

Поисковая система Параметр User-agent
Яндекс Yandex
Google Google
Mail.ru Mail.ru
Rambler StackRambler

Если вы хотите, чтобы правила индексации применялись для всех ПС, то нужно сделать такую запись:

User-agent: *

То есть, использовать, как параметр, обычную звездочку.

Disallow

С этим оператором чуть посложнее, поэтому нужно быть осторожным с его заполнением. Прописывается после оператора “User-agent”. Любая ошибка может привести к очень плачевным последствиям.

Что запрещаем? Параметр Пример
Индексацию сайта / Disallow: /
Файл в корневом каталоге /имя файла Disallow: /page.html
Файл по определенному адресу /путь/имя файла Disallow: /dir/page.html
Индексация папки /имя папки/ Disallow: /papka/
Индексация папки по определенному адресу /путь/имя папки/ Disallow: /dir/papka/
Документы, начинающиеся с определенного набора символов /символы /symbols
Документы, начинающиеся с определенного набора символов по адресу /путь/символы /dir/symbols

Еще раз говорю: будьте крайне внимательны при работе с данным оператором. Случается и такое, что чисто случайно человек запрещает индексацию своего сайта, а потом удивляется тому, что его нет в поиске.

Про остальные операторы говорить смысла нет. Того, что написано выше вполне достаточно.

Вам, наверное, хотелось бы получить пример robots.txt? Ловите:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Host: site.ru
Sitemap:site.ru/sitemap.xml

Кстати, этот пример могут использовать, как настоящий файл robots.txt, люди, чьи сайты работают на WordPress. Ну а те, у кого обычные сайты, пишите сами, ха-ха-ха. К сожалению, одного единственного для всех не существует, у каждого он свой. Но с той информацией, которую я вам дал, создать robots.txt не составит большого труда.

До свидания, друзья!

Как правильно создать robots.txt для сайта – полное руководство

От автора: поисковые роботы могут стать вашими друзьями, либо врагами. Все зависит от того, какие вы им дадите команды. Сегодня разберемся, как правильно создать robots.txt для сайта.

Создание самого файла

Robots.txt – это файл с инструкциями для поисковых роботов. Он создается в корне сайта. Вы можете прямо сейчас создать его на своем рабочем столе при помощи блокнота, как создается любой текстовый файл.

Для этого жмем правой кнопкой мыши по пустому пространству, выбираем Создать – Текстовый документ (не Word). Он откроется с помощью обычного блокнота. Назовите его robots, расширение у него и так уже правильное – txt. Это все, что касается создания самого файла.

Как составить robots.txt

Теперь остается заполнить файл нужными инструкциями. Собственно, у команд для роботов простейший синтаксис, намного проще, чем в любом языке программирования. Вообще заполнить файл можно двумя способами:

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

Посмотреть у другого сайта, скопировать и изменить под структуру своего проекта.

Написать самому

О первом способе я уже писал в предыдущей статье. Он подходит, если у сайтов одинаковые движки и нет существенной разницы в функционале. Например, все сайты на wordpress имеют одинаковую структуру, однако могут быть различные расширения, вроде форума, интернет-магазина и множества дополнительных каталогов. Если вы хотите знать, как изменить robots.txt читайте эту статью, можно также ознакомиться с предыдущей, но и в этой будет сказано достаточно много.

Например, у вас на сайте есть каталог /source, где хранятся исходники к тем статьям, что вы пишите на блог, а у другого веб-мастера нет такой директории. И вы, к примеру, хотите закрыть папку source от индексации. Если вы скопируете robots.txt у другого ресурса, то там такой команды не будет. Вам придется дописывать свои инструкции, удалять ненужное и т.д.

Так что в любом случае полезно знать основы синтаксиса инструкций для роботов, который вы сейчас и разберем.

Как писать свои инструкции роботам?

Первое, с чего начинается файл, это с указания того, к каким именно поисковым машинам обращены инструкции. Это делается так:

User-agent: Yandex Или User-agent: Googlebot

User-agent: Yandex

Или

User-agent: Googlebot

Никаких точек с запятой в конце строчки ставить не нужно, это вам не программирование). В общем, тут понятно, что в первом случае инструкции будет читать только бот Яндекса, во втором – только Гугла. Если команды должны быть выполнены всеми роботами, пишут так: User-agent:

Команды

Отлично. С обращением к роботам мы разобрались. Это несложно. Вы можете представить это на простом примере. У вас есть трое младших братьев, Вася, Дима и Петя, а вы главный. Родители ушли и сказали вам, чтобы вы следили за ними.

Все трое чего-то просят у вас. Представь, что нужно дать им ответ так, как будто пишешь инструкции поисковым роботам. Это будет выглядеть примерно так:

User-agent: Vasya Allow: пойти на футбол User-agent: Dima Disallow: пойти на футбол (Дима в прошлый раз разбил стекло соседям, он наказан) User-agent: Petya Allow: сходить в кино (Пете уже 16 и он вообще в шоке, что должен у тебя еще и разрешения спрашивать, ну да ладно, пусть идет).

User-agent: Vasya

Allow: пойти на футбол

User-agent: Dima

Disallow: пойти на футбол (Дима в прошлый раз разбил стекло соседям, он наказан)

User-agent: Petya

Allow: сходить в кино (Пете уже 16 и он вообще в шоке, что должен у тебя еще и разрешения спрашивать, ну да ладно, пусть идет).

Таким образом, Вася радостно зашнуровывает кроссовки, Дима с опущенной головой смотрит в окно на брата, который уже думает, сколько голов забьет сегодня (Дима получил команду disallow, то есть запрет). Ну а Петя отправляется в свое кино.

Из этого примера несложно понять, что Allow – это разрешение, а Disallow – запрет. Но в robots.txt мы не людям раздаем команды, а роботам, поэтому вместо конкретных дел там прописываются адреса страниц и каталогов, которые нужно разрешить или запретить индексировать.

Например, у меня есть сайт site.ru. Он на движке wordpress. Начинаю писать инструкции:

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ Ну и т.д.

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Allow: /wp-content/uploads/

Disallow: /source/

Ну и т.д.

Во-первых, я обратился ко всем роботам. Во-вторых, поставил запрет на индексацию папок самого движка, но при этом открыл роботу доступ к папке с загрузками. Там обычно хранятся все картинки, а их обычно не закрывают от индексации, если планируется получать трафик с поиска по картинкам.

Ну и помните, я ранее в статье говорил о том, что у вас могут быть дополнительные каталоги? Вы можете их создать самостоятельно для различных целей. Например, на одном из моих сайтов есть папка flash, куда я кидаю флэш-игры, чтобы потом их запустить на сайте. Либо source – в этой папке могут хранится файлы, доступные пользователям для загрузки.

В общем, абсолютно неважно, как называется папка. Если ее нужно закрыть, указываем путь к ней и команду Disallow.

Команда Allow нужна как раз для того, чтобы уже в закрытых разделах открыть какие-то части. Ведь по умолчанию, если у вас не будет файла robots.txt, весь сайт будет доступен к индексированию. Это и хорошо (уж точно что-то важное не закроете по ошибке), и в то же время плохо (будут открыты файлы и папки, которых не должно быть в выдаче).

Чтобы лучше понять этот момент, предлагаю еще раз просмотреть этот кусок:

Disallow: /wp-content/ Allow: /wp-content/uploads/

Disallow: /wp-content/

Allow: /wp-content/uploads/

Как видите, сначала мы ставим запрет на индексацию всего каталога wp-content. В нем хранятся все ваши шаблоны, плагины, но там же есть и картинки. Очевидно, что их то можно и открыть. Для этого нам и нужна команда Allow.

Дополнительные параметры

Перечисленные команды – не единственное, что можно указать в файле. Также есть такие: Host – указывает главное зеркало сайта. Кто не знал, у любого сайта по умолчанию есть два варианта написания его доменного имени: domain.com и www.domain.com.

Чтобы не возникло проблем, необходимо указать в качестве главного зеркала какой-то один вариант. Это можно сделать как в инструментах для веб-мастеров, как и в файле Robots.txt. Для этого пишем: Host: domain.com

Что это дает? Если кто-то попытается попасть на ваш сайт так: www.domain.com – его автоматически перекинет на вариант без www, потому что он будет признан главным зеркалом.

Вторая директива – sitemap. Я думаю вы уже поняли, что в ней задается путь к карте сайта в xml-формате. Пример: http://domain.com/sitemap.xml

Опять же, загрузить карту вы можете и в Яндекс.Вебмастере, также ее можно указать в robots.txt, чтобы робот прочитал эту строчку и четко понял, где ему искать карту сайта. Для робота карта сайта так же важна, как для Васи – мяч, с которым он пойдет на футбол. Это все равно, что он спрашивает у тебя (как у старшего брата) где мяч. А ты ему:

User-agent: Vasya Sitemap: посмотри в зале за диваном

User-agent: Vasya

Sitemap: посмотри в зале за диваном

Теперь вы знаете, как правильно настроить и изменить robots.txt для яндекса и вообще любого другого поисковика под свои нужды.

Что дает настройка файла?

Об этом я также уже говорил ранее, но скажу еще раз. Благодаря четко настроенному файлу с командами для роботов вы сможете спать спокойнее зная, что робот не залезет в ненужный раздел и не возьмет в индекс ненужные страницы.

Я также говорил, что настройка robots.txt не спасает от всего. В частности, она не спасает от дублей, которые возникает из-за того, что движки несовершенны. Прям как люди. Вы то разрешили Васе идти на футбол, но не факт, что он там не натворит того же, что и Дима. Вот так и с дублями: команду дать можно, но точно нельзя быть уверенным, что что-то лишнее не пролезет в индекс, испортив позиции.

Дублей тоже не нужно бояться, как огня. Например, тот же Яндекс более менее нормально относится к сайтам, у которых серьезные технические косяки. Другое дело, что если запустить дело, то и вправду можно лишиться серьезного процента трафика к себе. Впрочем, скоро в нашем разделе, посвященном SEO, будет статья о дублях, тогда и будем с ними воевать.

Как мне получить нормальный robots.txt, если я сам ничего не понимаю?

В конце концов, создание robots.txt — это не создание сайта. Как-то попроще, поэтому вы вполне можете банально скопировать содержимое файла у любого более менее успешного блоггера. Конечно, если у вас сайт на WordPress. Если он на другом движке, то вам и сайты нужно искать на этих же cms. Как посмотреть содержимое файла на чужом сайте я уже говорил: Domain.com/robots.txt

Итог

Я думаю, тут больше не о чем говорить, потому что не надо делать составление инструкций для роботов вашей целью на год. Это та задача, которую под силу выполнить даже новичку за 30-60 минут, а профессионалу вообще всего-то за пару минут. Все у вас получиться и можете в этом не сомневаться.

А чтобы узнать другие полезные и важные фишки для продвижения и раскрутки блога, можете посмотреть наш уникальный курс по раскрутке и монетизации сайта. Если вы примените оттуда 50-100% рекомендаций, то сможете в будущем успешно продвигать любые сайты.

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

Хотите узнать, что необходимо для создания сайта?

Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

Смотреть

Как создать файл robots.txt для сайта

Здравствуйте, уважаемые читатели. Не так давно я написал статью о создании карты сайта. Карта сайта, значительно упрощает индексацию вашего блога. Карта сайта должна быть в обязательном порядке у каждого сайта и блога. Но также на каждом сайте и блоге должен быть файл robots.txt. Файл robots.txt содержит свод инструкций для поисковых роботов. Можно сказать, — правила поведения поисковых роботов на вашем блоге. А также в данном файле содержится путь к карте сайта вашего блога. И, по сути, при правильно составленном файле robots.txt поисковый робот не тратит драгоценное время на поиск карты сайта и индексацию не нужных файлов.

Что же из себя представляет файл robots.txt?

robots.txt – это текстовый файл, может быть создан в обычном «блокноте», расположенный в корне вашего блога, содержащий инструкции для поисковых роботов.

Эти инструкции ограничивают поисковых роботов от беспорядочной индексации всех файлов вашего бога, и нацеливают на индексацию именно тех страниц, которым следует попасть в поисковую выдачу.

С помощью данного файла, вы можете запретить индексацию файлов движка WordPress. Или, скажем, секретного раздела вашего блога. Вы можете указать путь к карте Вашего блога и главное зеркало вашего блога. Здесь я имею ввиду, ваше доменное имя с www и без www.

Индексация сайта с robots.txt и без

Работа robots.txt

Данный скриншот, наглядно показывает, как файл robots.txt запрещает индексацию определённых папок на сайте. Без файла, роботу доступно всё на вашем сайте.

Основные директивы файла robots.txt

Для того чтобы разобраться с инструкциями, которые содержит файл robots.txt нужно разобраться с основными командами (директивы).

User-agent – данная команда обозначает доступ роботам к вашему сайту. Используя эту директиву можно создать инструкции индивидуально под каждого робота.

Пример:

User-agent: Yandex – правила для робота Яндекс

User-agent: * — правила для всех роботов

Disallow и Allow – директивы запрета и разрешения. С помощью директивы Disallow запрещается индексация а с помощью Allow разрешается.

Пример запрета:

User-agent: *

Disallow: / — запрет ко всему сайта.

User-agent: Yandex

Disallow: /admin – запрет роботу Яндекса к страницам лежащим в папке admin.

Пример разрешения:

User-agent: *

Allow: /photo

Disallow: / — запрет ко всему сайту, кроме страниц находящихся в папке photo.

Примечание! директива Disallow: без параметра разрешает всё, а директива Allow: без параметра запрещает всё. И директивы Allow без Disallow не должно быть.

Sitemap – указывает путь к карте сайта в формате xml.

Пример:

Sitemap: https://1zaicev.ru/sitemap.xml.gz

Sitemap: https://1zaicev.ru/sitemap.xml

Host – директива определяет главное зеркало Вашего блога. Считается, что данная директива прописывается только для роботов Яндекса. Данную директиву следует указывать в самом конце файла robots.txt.

Пример:

User-agent: Yandex

Disallow: /wp-includes

Host: 1zaicev.ru

Примечание! адрес главного зеркала указывается без указания протокола передачи гипертекста (http://).

Как создать robots.txt

Теперь, когда мы познакомились с основными командами файла robots.txt можно приступать к созданию нашего файла. Для того чтобы создать свой файл robots.txt с вашими индивидуальными настройками, вам необходимо знать структуру вашего блога.

Мы рассмотрим создание стандартного (универсального) файла robots.txt для блога на WordPress. Вы всегда сможете дополнить его своими настройками.

Итак, приступаем. Нам понадобится обычный «блокнот», который есть в каждой операционной системе Windows. Или TextEdit в MacOS.

Открываем новый документ и вставляем в него вот эти команды:

User-agent: *
Disallow:
Sitemap: https://1zaicev.ru/sitemap.xml.gz
Sitemap: https://1zaicev.ru/sitemap.xml

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /xmlrpc.php
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-content/languages
Disallow: /category/*/*
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Host: 1zaicev.ru

Не забудьте заменить параметры директив Sitemap и Host на свои.

Важно! при написании команд, допускается лишь один пробел. Между директивой и параметром. Ни в коем случае не делайте пробелов после параметра или просто где попало.

Пример: Disallow:/feed/

Данный пример файла robots.txt универсален и подходит под любой блог на WordPress с ЧПУ адресами url. О том что такое ЧПУ читайте здесь. Если же Вы не настраивали ЧПУ, рекомендую из предложенного файла удалить Disallow: /*?* Disallow: /?s=

Теперь нужно сохранить файл с именем robots.txt.

Сохранение robots.txt

Загрузка файла robots.txt на сервер

Лучшим способом для такого рода манипуляций является FTP соединение. О том как настроить FTP соединение для TotolCommander читайте здесь. Или же Вы можете использовать файловый менеджер на Вашем хостинге.

Я воспользуюсь FTP соединением на TotolCommander.

Сеть > Соединится с FTP сервером.

FTP-соединение

Выбрать нужное соединение и нажимаем кнопку «Соединиться».

Выбор FTP-соединения

Открываем корень блога и копируем наш файл robots.txt, нажав клавишу F5.

Копирование robots.txt на сервер

Вот теперь Ваш файл robots.txt будет исполнять надлежащие ему функции. Но я всё же рекомендую провести анализ robots.txt, чтобы удостоверится в отсутствии ошибок.

Анализ robots.txt

Для этого Вам потребуется войти в кабинет вебмастера Яндекс или Google. Рассмотрим примере Яндекс. Здесь можно провести анализ даже не подтверждая прав на сайт. Вам достаточно иметь почтовый ящик на Яндекс.

Открываем кабинет Яндекс.вебмастер.

Яндекс.вебмастер

На главной странице кабинета вебмастер, открываем ссылку «Проверить robots.txt».

Проверка robots.txt

Для анализа потребуется ввести url адрес вашего блога и нажать кнопку «Загрузить robots.txt с сайта». Как только файл будет загружен нажимаем кнопку «Проверить».

Анализ robots.txt

Отсутствие предупреждающих записей, свидетельствует о правильности создания файла robots.txt.

Теперь следует проверить ссылки Ваших материалов, дабы убедится, что Вы не запретили индексацию чего то нужного.

Для этого нажимаем на ссылку «Список URL добавить». Вводим ссылки Ваших материалов. И нажимаем кнопку «Проверить»

Добавление url

Ниже будет представлен результат. Где ясно и понятно какие материалы разрешены для показа поисковым роботам, а какие запрещены.

Результат анализа файла robots.txt

Здесь же вы можете вносить изменения в robots.txt и экспериментировать до получения нужного вам результата. Но помните, файл расположенный на вашем блоге при этом не меняется. Для этого вам потребуется полученный здесь результат скопировать в блокнот, сохранить как robots.txt и скопировать на Вас блог.

Кстати, если вам интересно как выглядит файл robots.txt на чьём-то блоге, вы может с лёгкостью его посмотреть. Для этого к адресу сайта нужно просто добавить /robots.txt

Пример:

https://1zaicev.ru/robots.txt

Вот теперь ваш robots.txt готов. И помните не откладывайте в долгий ящик создание файла robots.txt, от этого будет зависеть индексация вашего блога.

Если же вы хотите создать правильный robots.txt и при этом быть уверенным, что в индекс поисковых систем попадут только нужные страницы, то это можно сделать и автоматически с помощью плагина Clearfy.

На этом у меня всё. Всем желаю успехов. Если будут вопросы или дополнения пишите в комментариях.

До скорой встречи.

С уважением, Максим Зайцев.

Файл robots.txt

Что такое robots.txt

robots.txt — это простой текстовый файл, содержащий инструкции по индексированию сайта для роботов поисковых систем. Располагаться такой файл должен в корневой директории сайта.

Благодаря служебному файлу robots.txt вебмастер может как запретить, так и разрешить полное или частичное сканирование определенных разделов или отдельных страниц на сайте. Запрет на сканирование некоторых страниц может понадобиться, например, когда требуется недопустить появления в поисковой выдаче страниц с личной или служебной информацией, а также похожих или ненужных страниц. К таким страницам можно отнести страницы пользователей в кабинете, страницы регистрации, страницы с учебными примерами и с результатами поиска и т.д. В любом случае, если поисковый робот в результате анализа содержимого файла robots.txt получит инструкцию о запрете сканирования определенной страницы, он пропустит ее и не будет индексировать.

Инструкции данного служебного файла являются всего лишь рекомендациями и подсказками для поисковых роботов, но не командами, обязательными для исполнения. Кроме того, если на страницу будут вести внутренние или внешние ссылки, то есть вероятность, что она все таки будет проиндексирована роботами и возможно появится в поисковой выдаче. Поэтому для более надежной защиты содержимого страницы следует дополнительно использовать метатеги с директивами по индексированию или даже устанавливать парольную защиту для страниц с наиболее важными конфиденциальными данными.

Как создать файл robots.txt

Для того, чтобы создать файл robots.txt, необходимо создать в любом текстовом редакторе пустой файл и сохранить его с именем robots.txt. Во избежание проблем желательно сохранять файл в кодировке UTF-8. После того, как файл будет создан, нужно заполнить его требуемыми директивами и поместить в корневой каталог сайта.

Синтаксис и основные директивы файла robots.txt

В самом простейшем случае файл robots.txt может оставаться пустым, что будет восприниматься роботами как отсутствие каких-либо ограничений на индексацию страниц сайта. Однако в большинстве случаев для создания директив в файле используются специальные ключевые слова: User-agent, Disallow и Allow. Они поддерживаются всеми основными поисковыми роботами и позволяют разрешить или запретить доступ к любым разделам и страницам сайта.

User-agent — это ключевое слово используется для указания тех поисковых роботов, которым предназначаются дальнейшие инструкции в данном файле robots.txt (см. пример №1).

Все имеющиеся на данный момент поисковые роботы перечислены в специальной базе данных роботов Интернета, которая находится на сайте http://www.robotstxt.org/db.html. Если же нужно разрешить доступ к страницам сайта всем роботам, то вместо имени робота нужно использовать символ звездочки (‘*’).

Disallow — это ключевое слово используется тогда, когда нужно запретить доступ поисковым роботам к сайту целиком или же к отдельным его каталогам и страницам (см. пример №1).

Allow — это ключевое слово используется тогда, когда нужно наоборот разрешить доступ поисковым роботам к отдельным его каталогам и страницам (см. пример №1).

Ключевое слово Allow обычно используется в ситуации, когда, например, при помощи Disallow была закрыта какая-нибудь директория на сайте, но при этом необходимо оставить для сканирования какие-то поддиректории или вложенные страницы.

Теперь внимательно ознакомьтесь с примером №1, в нем представлен ряд наиболее часто встречающихся практических ситуаций с использованием описанных выше ключевых слов. Обратите внимание на используемый синтаксис: наличие пробелов, двоеточий, переводов строк, комментариев.

#---- Пример №1 ------

#Разрешаем всем роботам индексировать сайт
User-agent: *
Disallow:

#---- Пример №2 ------

#Запрещаем всем роботам индексировать сайт
User-agent: *
Disallow: /

#---- Пример №3 ------

#Разрешаем индексировать сайт только 
#роботам Yandex и Googlebot
#Блоки директив отделяем пустой строкой
User-agent: Yandex
User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

#---- Пример №4 ------

#Запрещаем всем роботам индексировать 
#указанные страницы и каталоги
User-agent: *
Disallow: /catalog_1/registration.html
Disallow: /cabinet/user_data.html
Disallow: /catalog_2/catalog_3/

#---- Пример №5 ------

#Запрещаем всем роботам сканировать страницы 
#в каталоге cabinet, но разрешаем сканирование
#в нем страницы site_news.html
User-agent: *
Disallow: /cabinet/
Allow: /cabinet/site_news.html

Пример №1. Примеры директив в файле robots.txt

Следует отметить, что синтаксис robots.txt подразумевает ряд важных моментов:

  • все, что находится после символа решетки (‘#’) и до первого перевода строки, роботы будут считать комментарием;
  • роботы игнорируют неизвестные им пробелы и команды;
  • после ключевых слов нужно ставить обязательное двоеточие и необязательный пробел, и только тогда записывать соответствующий параметр, после которого также разрешается ставить необязательные пробелы, т.к. они все равно будут проигнорированы роботами;
  • роботы не чувствительны к регистру ключевых слов, но могут быть чувствительны к регистру их параметров, например, тех же префиксов URL;
  • с каждым отдельным ключевым словом можно использовать только один параметр (например, одно указание имена робота или префикса URL), если же необходимо указать несколько параметров, следует использовать соответствующее ключевое слово несколько раз на разных строках, но не использовать при этом пустых строк для их разделения;
  • а вот перед каждым новым блоком инструкций, который начинается с директивы User-agent, наоборот рекомендуется вставлять пустой перевод строки, т.к. роботы воспринимают пустые строки в качестве разделителя блока директив.

Если директивы Disallow и Allow используются в одном блоке User-agent, то они сортируются роботами по длине префикса URL (от меньшего к большему) и выполняются последовательно. При этом, если для каких-то страниц подходят сразу несколько директив, робот отсортирует их по длине префикса URL в независимости от порядка следования в файле robots.txt, а затем использует последнюю из них (см. пример №2).

#---- Пример №1 ------

#Код до сортировки роботом
#Здесь длина /cabinet/site_news.html больше,
#чем длина /cabinet/, поэтому страница
#site_news.html будет доступна для сканирования
User-agent: *
Allow: /cabinet/site_news.html
Disallow: /cabinet/

#После сортировки роботом  
#User-agent: *
#Disallow: /cabinet/
#Allow: /cabinet/site_news.html


#---- Пример №2 ------

#Код до сортировки роботом
#Разрешаем сканировать страницы, которые
начинаются с /cabinet, но закрываем доступ
#к страницам в подкаталоге /cabinet/site_news/
User-agent: *
Allow: /cabinet
Disallow: /cabinet/site_news/
Disallow: /

#После сортировки роботом 
#User-agent: *
#Disallow: /
#Allow: /cabinet
#Disallow: /cabinet/site_news/

Пример №2. Нюансы совместного использования директив Allow и Disallow

В случае конфликта директив Disallow и Allow, которые используются в одном блоке User-agent и при этом имеют одинаковую длину префикса URL, роботы отдадут предпочтение директиве Allow.

Использование спецсимволов * и $ в файле robots.txt

В большинстве случаев директив Disallow и Allow вполне достаточно для того, чтобы установить запрет на индексацию роботами нужных страниц сайта. Тем не менее, синтаксис файла robots.txt допускает использование спецсимволов ‘*’ и ‘$’, которые используются в качестве подстановочных знаков и позволяют задавать для префиксов URL простейшие регулярные выражения. Так символ звездочки ‘*’ заменяет любую последовательность символов, в том числе и пустую, а знак доллара ‘$’ обозначает конец текущего префикса URL (далее никаких символов быть не должно). Наиболее важные особенности использования данных подстановочных символов представлены в таблице №3.

Префикс URL Попадают под фильтр Не попадают Комментарии
/ Любой существую­щий URL сайта Любой недействи­тель­ный URL Одиночный слэш ‘/’ обозначает корневой каталог сайта, поэтому для сканирования будут открыты все URL сайта
/* Любой существую­щий URL сайта Любой недействи­тель­ный URL Тоже самое что и одиночный слэш ‘/’, т.к. символ звездочки заменяет любую последовательность символов идущую после слэша
/news /news/minsk/
/news/minsk/1.html
/news.html
/news_2.HTML
/news3.html?day=3
/News/minsk/
/2_news.html
Не забываем про чувствительность роботов к регистру символов в URL (даже в именах каталогов!)
/news* /news/minsk/
/news/minsk/1.html
/news.html
/news_2.HTML
/news3.html?day=3
/News/minsk/
/2_news.html
Тоже самое, что и ‘/news’, завершающий подстановочный знак ‘*’ игнорируется
/news/ /news/2.html
/news/minsk/1.html
/news.html
/News/minsk/
/news
Доступ разрешается ко всем подкаталогам и страницам в указанной папке
news/ /news/2.html
/news/minsk/1.html
/news.html
/News/minsk/
/news
Тоже самое, что и запись ‘/news/’
/*.html /news/2.html
/news/minsk/1.html
/index.html?id=4
/
/news.HTML
Обратите внимание, что просто слэш ‘/’ под фильтр не попадает
/*.html$ /news/2.html
/news/minsk/1.html
/news/2.html/
/news.HTML
/index.html?id=4
Здесь знак доллара указывает на то, что далее адрес не должен содержать никаких символов
/news*.html /news.html
/news/2.html
/news/1.html?id=1
/News/2.html
/news.HTML
Вместо символа звездочки может ничего не использоваться, т.к. он подменяет и пустую последовательность

Таблица №3. Спецсимволы * и $ в файле robots.txt

Как видно из таблицы, возможность использования в синтаксисе всего лишь двух дополнительных подстановочных символов значительно расширяет арсенал вебмастера по составлению шаблонов URL в соответствующих директивах файла robots.txt.

Директива Sitemap файла robots.txt

Как уже говорилось ранее, в настоящее время для описания структуры сайтов обычно используется специальная карта сайта, которая в большинстве случаев представлена в виде файла sitemap.xml. Чтобы роботам было легко отыскать такую карту, в файле robots.txt предусмотрена директива Sitemap, которая в качестве параметра принимает абсолютный путь к файлу sitemap.xml (см. пример №4).

#---- Пример №1 ------

User-agent: *
Disallow: /cabinet/

#Директива является межсекционной, поэтому
#может располагаться в любом месте файла
Sitemap: http://belarusweb.net/sitemap.xml


#---- Пример №2 ------

User-agent: *
Disallow: /cabinet/

#Если карт несколько, указываем все
Sitemap: http://belarusweb.net/sitemap_1.xml
Sitemap: http://belarusweb.net/sitemap_2.xml

Пример №4. Использование директивы Sitemap

Директива Sitemap является межсекционной (межблочной), поэтому ее можно располагать в любом месте файла robots.txt, даже если она будет расположена внутри блока, который предназначен для другого робота. Однако желательно располагать ее отдельно от любых блоков, разделяя пустой строкой.

Директива Host файла robots.txt

Директива Host используется для указания основного домена сайта, т.е. главного зеркала сайта. Все что нужно, это указать имя основного домена в качестве параметра ключевого слова Host (см. пример №5). И хотя некоторые роботы игнорируют эту директиву, таковых с каждым днем становится все меньше.

#---- Пример №1 ------

User-agent: *
Disallow: /cabinet/

#Если используется протокол HTTP, то его
#указывать необязательно, но допустимо
Host: belarusweb.net


#---- Пример №2 ------

User-agent: *
Disallow: /cabinet/

#А вот здесь с большой долей вероятности 
#в поиске имя будет начинаться с www 
Host: www.belarusweb.net


#---- Пример №3 ------

User-agent: *
Disallow: /cabinet/

#Если используется протокол HTTPS, то 
#его указывать нужно обязательно
Host: https://belarusweb.net


#---- Пример №4 ------

User-agent: *
Disallow: /cabinet/

#Разрешается указывать и порт  
Host: belarusweb.net:8080


#---- Пример №5 ------

#Будет использована роботом
Host: belarusweb.net

User-agent: *
Disallow: /cabinet/

#2-й раз директива роботом игнорируется  
Host: https://www.belarusweb.net

Пример №5. Использование директивы Host

Перечислим некоторые нюансы использования директивы Host:

  • если главное зеркало (доменное имя) доступно по протоколу HTTPS, то его нужно указывать обязательно;
  • если используется протокол HTTP, то его разрешается опускать;
  • при необходимости разрешается указывать и номер порта;
  • в качестве параметра директивы разрешается указывать только одно корректное доменное имя, нельзя перечислять несколько имен;
  • если в файле robots.txt используется несколько директив Host, роботы будут использовать только первую из них;
  • директива является межсекционной, поэтому может быть указана в любом месте файла (обычно в конце файла после основных директив).

Опять же, директива Host, как и остальные директивы файла robots.txt, служит ждя поисковых роботов не командой для исполнения, а всего лишь рекомендацией. Тем не менее пренебрегать директивой не стоит, т.к. она учитывается роботами при выборе главного зеркала сайта с высоким приоритетом.

Быстрый переход к другим страницам

Author: admin

Отправить ответ

avatar
  Подписаться  
Уведомление о