Как сделать файл robot


Добавлено: 10.09.2018, 06:51 / Просмотров: 61545
Закрыть ... [X]

robot Наш сайт проиндексирован и казалось бы что еще нужно? Однажды обнаруживаешь, что проиндексировались абсолютно не нужные страницы, такие как вход и регистрация пользователя, лист стилей, формат pdf и мало ли что еще увидит поисковик... Вот тут и понимаешь важность файла робот.

Урок 12. Создание файла robots.txt

В этом уроке попробуем ответить на следующие вопросы:

  • Как правильно создать robots txt.
  • Для чего нужен файл робот - какие страницы закрывать от индексации поисковиками.
  • Пример файла robots txt для разных случаев.

Пойдем искать информацию во всемирной паутине.

Как создать файл робот.

  • Формат файла robots.txt - простой текстовый файл, создается в обычном блокноте.
  • Местонахождение файла робот - корневая директория сайта.
  • Пустой файл robots.txt или его отсутствие означает разрешение на индексирование всего сайта.
  • Большие robots.txt (более 256 Кб) считаются полностью разрешающими
  • Регистр написания имени файла - только нижний.
  • При копировании файла с помощью ftp-клиента, его нужно настроить на текстовый режим обмена файлами.

Что должно обязательно быть в файле robots.txt? Две директивы: «User-agent» и «Disallow».

Существуют еще и дополнительные записи для различных поисковых систем. Например, Яндекс для определения главного зеркала веб-сайта использует директиву «Host».

От 20 марта 2018 Блог Яндекса для вебмастеров оповестил о замене директивы хост на 301 редирект. Теперь паук не будет обращать внимание на прежнюю запись. Для того, чтобы главное зеркало не изменилось, нужно настроить постраничный редирект 301 со всех не главных  зеркал сайта.

Можно в роботсе не удалять запись, но она никакой роли играть не будет.

Источник новости и инструкции для вебмастеров: https://yandex.ru/blog/webmaster/301-y-redirekt-polnostyu-zamenil-direktivu-host

Напишем себе шпаргалку о записях в директивах.

Обязательная директива «User-agent»

Запись «User-agent» содержит в себе название поискового робота.

  • Если обращение происходит абсолютно ко всем поисковикам, то пишем символ звездочку «», выглядит это так:

User-agent:

  • Если нужно обратиться к роботу Яндекса, то запись будет выглядеть так:

User-agent: Yandex

 

Обязательная директива «Disallow»

Директива «Disallow» укажет поисковому роботу, какие файлы, каталоги запрещается индексировать.

  • Если сайт открыт для индексирования весь, то нужно писать так:

Disallow:

или

Allow: /

 

  • Наложим запрет на индексацию файла links.html из корневой папки. Тогда запись будет такой:

Disallow: /links.html

Теперь запретим индесирование файла my.html, находящегося в папке «noybot». Это будет выглядеть так:

Disallow: /noybot/my.html

  • Запретим индексацию определенных директорий, например, содержащих файлы форума - папка «forum» и папку со сценариями «cgi-bin». Это значит, что все, что находится в этих папках не будет доступно для поисковиков. Выглядеть запись будет так:

Disallow: /cgi-bin/

Disallow: /forum/

Зная этот минимум, мы уже можем написать свой файл робот и запретить в нем индексировать какие-либо файлы или любые папки вместе с их содержимым.

Впрочем, эта шпаргалка минимальна. И требует продолжения. Что мы и сделаем.

  • Можно запретить индексировать страницы и директории, название которых начинается с одних и тех же символов. Запрет накладывается всего одной записью «Disallow».

Например, запретим к индексированию директории и файлы, начинающиеся с символов my. Это папки my, my1, my2 и страницы my.html, mylove.html и тому подобное. Для этого пропишем так:

Disallow: /my

  • В директиве «Disallow» разрешено пользоваться регулярными выражениями, но не во всех поисковых системах. Google поддерживает символы «» (звездочка - любая последовательность символов) и «$» (доллар - окончание строки).

Что это дает нам? Можно запретить индексацию файлов с определеным расширением, например, «htm», достаточно написать:

Disallow:.htm$

Еще пример запрета индексации файлов PDF для гугл

User-agent: Googlebot

Disallow:.pdf$

Другой вариант решить эту задачу - это создать отдельный каталог pdf и размещать документы PDF в нем. Тогда пишем так:

User-agent:

Disallow: /pdf/

Директива «Host»

Директива «Host» используется для определения главного зеркала сайта. С ее помощью можно выбрать url, под которым будет проиндексирован веб-сайт. Эта директива поддерживается русскими поисковиками, такими как Яндекс, Рамблер, Апорт.

Без этой директивы робот яндекса выберет основное зеркало самостоятельно, а все другие имена получат запрет к индексации. Т.к. директиву «Host» понимают не все поисковики, поэтому саму запись нужно вставлять обязательно после «Disallow», в конце блока.

Записывается следующим образом:

Host: www.site.ru

На что еще обратить внимание? На поведение гугл при встрече с директивой хост. Google игнорирует всю секцию, где прописана директива «Host». Это решаемо, для гугл нужно создать свой блок с записями.

Например:

User-Agent: # Все поисковый системы

Disallow: /admin/ # Запрет директории админ и всех, файлов этой папки

Host: www.mainsite.ru # Главное зеркало

User-Agent: Googlebot # Личный блок для гугла

Disallow: /admin/ # Запрет директории гуглом

Пожалуй, минимум о создании robots txt составила. Это только фундамент знаний, еще много возможностей управлять индексацией своего сайта предоставляет файл робот.

Добавлю еще один пример файла роботс, где правила для бота яндекса прописываются в отдельной секции, а другая секция для всех роботов.

User-agent:
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: www.master-live.ru

Все о роботе можно почитать по этой ссылке.

о файле робот на русском.

яндекса: все об использовании robots.txt.

Файл robots.txt для Wordpress - пример файла для вордпресс.

Правильный robots txt для joomla - настройка роботса для джумлы.

Что такое зеркало сайта? - использование файла роботс для указания главного зеркала.

Сообщение от Яндекса о новых правилах обработки директив Allow и Disallow в файле robots.txt

7.03.2012

Изменение касается тех страниц, которые попадают под действия нескольких директив 'Allow' и/или 'Disallow'.

В этом случае будет применяться директива с наибольшей длиной префикса URL. При определении длины префикса спецсимвол '' не учитывается.

Если на вашем сайте в robots.txt совместно используются директивы 'Allow' и 'Disallow', пожалуйста, проверьте их на соответствие новым стандартам с помощью проверки robots.txt в панели вебмастера.


Источник: http://www.master-live.ru/robots.html

Похожие новости


Чайные подарки своими руками
Рисунок на теле своими руками
Завалинка из профлиста своими руками
Задержка месячных как сделать чтоб пришли
Мебельный транспортер своими руками




ШОКИРУЮЩИЕ НОВОСТИ