robots.txt баннер

Индексация сайта – файл Robots.txt

Поисковой робот — это программа которая является частью поисковой системы. Робот перебирает страницы в интернете (индексирует) и заносит информацию о них в свою базу данных. Программа так же возвращается через определенные периоды времени и индексирует страницу снова для сохранения только актуальной информации о ресурсе. Таким образом проиндексирован может быть любой файл или документ на которые имеется ссылка. Вся информация, которую собирает робот заносится в индексы поисковой системы.

В первую очередь переходя на Ваш сайт поисковой робот ищет файл robots.txt. Если есть директории или контент, который Вы хотите скрыть от индексации, что бы при отображении сайта в поиске не отображались ссылки на административные панели и т.д. то должны изучить инструкцию по настройке данного файла.

Текстовый файл robots.txt должен находиться в корневой директории Вашего сайта. В нём записываются определенные инструкции для роботов из поисковых систем. В инструкции может быть запрещена индексация раздела или страницы сайта. Могут быть указаны зеркала домена. Так же можно рекомендовать роботу скачивать документы с сервера через определенные интервалы.

Для того что бы создать файл robots.txt не нужно каких-либо особых знаний. Достаточно просто переименовать простой текстовый файл (.txt) в robots.txt . Все редактирования можно производить в любом текстовом редакторе.

Перед тем как давать команды, нужно определиться для каких поисковых роботов они предназначены. Это делается командой User-agent.

User-agent: * #написанные команды будут обращены ко всем поисковым роботам
User-agent: YandexBot #основной робот Яндекса
User-agent: GoogleBot #основной робот Google

После того как мы определились с поисковым роботом, познакомимся с основной функцией всего файла. Эта функция разрешает и запрещает индексацию, и имеет две соответствующие команды

Allow — Можно индексировать.

Disallow — Нельзя индексировать.

User-agent: *
Disallow: /administrator/ #запрещает индексацию в директорию «администратора»

User-agent: GoogleBot # обращаемся к боту Google
Allow: /blog #Разрешаем индексировать директорию blog 
Disallow: / #а всё остальное запрещаем

User-agent: YandexBot # обратимся к боту Яндекса
Disallow: / #запрещаем индексировать весь сайт

При этом порядок написания условий не важен.

User-agent: GoogleBot 
Allow: /blog 
Disallow: / 

User-agent: YandexBot 
Disallow: / 
Allow: /blog 

Для того что бы поисковой робот знал какие файлы и страницы на сайте присутствуют, существует специальный файл sitemap.xml . В файле находится карта вашего сайта.

Sitemap: //site.ru/sitemap.xml # адрес карты сайта

В конце Вашего файла robots.txt должна быть команда Host которая обозначает главное зеркало. Указываться может только один раз, в противном случае последующие записи этой функции будут проигнорированы.

Host: //site.ru # зеркало сайта

Приведем примеры:

User-agent: *
Disallow: /administrator
Disallow: /blog
Allow: /images
Host: //site.ru

НО! По умолчанию Google игнорирует параметр Host, поэтому поступаем следующим методом:

User-agent: *
Disallow: /administrator
Host: //site.ru #главное зеркало
User-agent: GoogleBot # а теперь указываем команды для Google
Disallow: /administrator

Если файл Robots.txt превышает 32kb, то он по умолчанию разрешает всё и для всех.

Проверить Ваш файл Robots.txt поможет Яндекс.Вебмастер или Google проверка

Пример готового файла (WordPress) :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

 

Добавить комментарий

Ваш e-mail не будет опубликован.