Как оформить robots txt

( 1 Vote ) 

В процессе индексации, поисковый сервер вначале ищет файл robots.txt в корневой папке. Он сообщает автоматической индексирующей программе, какие файлы ей индексировать, а какие пропустить.

Файл robots.txt имеет определённый формат. Он состоит записей, каждая из которых является строкой, описывающей имя параметра, его значение:[параметр] “:” [значение]

Этот файл должен в UNIX - формате, в котором каждая строка оканчивается специальным символом “n”. А в Windows признаком окончания строки является последовательность “rn”. Поэтому важно, чтобы программа для редактирования имела режим текстового отображения всех символов, включая служебные.

Параметр User-agent

С его помощью указывается название робота, которому позволено проводить индексацию. Например:

User-agent: googlebot

Вместо имени робота можно поставить маску «*», тогда индексировать сайт сможет любая поисковый сервер:

User-agent: *

Имена роботов можно определить из логов обращения к файлу “robots.txt”, хранимых на сервере.

Параметр Disallow

Определяет, какие файлы и каталоги запрещено индексировать. Например эта директива запрещает индексацию файла my.html:

Disallow: my.html

Директива может включать и название каталога:

Disallow: /catalog_name/

Там можно указать роботу, чтобы он пропустил папку catalog_name. В Disallow могут применяться и специальные символы подстановки. Например, значение /my запретит паукам читать из /my и также как и из /my/my.html.

Если эта директива останется пустой, то сайт будет проиндексирован целиком.

Ошибка 404, перенаправление на другую страницу

Часто при ошибке 404 (не найден файл) веб-сервер выдаёт некоторую страницу, например 404.html. Сервер, при этом, не выдаёт признак ошибки и не осуществляет перенаправления на главную страницу. Получается робот не будет проинформирован относительно того, что файла с правилами индексации не существует. Вместо этого ему будет выдана HTML – страница. Возможно, ничего страшного при этом не произойдёт. Но что, если страница будет воспринята как файл robots.txt? Дабы этого избежать, нужно обязательно создать robots.txt, пусть даже и с пустым содержимым.

Вообще, именно с правильного оформления robots.txt должна начинаться жизнь каждого сайта, так как правильные действия очень упрощают продвижение сайта в поисковых системах. Если быть точнее, это не то что бы сильно упрощает продвижение, это не мешает и значительно сокращает сроки, нежели неправленно оформленный robots.txt, который заставит поисковые системы изначально негативно относится к Вашему сайту.

Многие CMS создают при установке огромного количества служебных файлов. Индексация их может отнимать много времени и совершенно бесполезна. Поэтому использование специального файла, где будут указаны все страницы, нуждающиеся в индексации, можно считать обязательным.

Читать еще:

Что такое апдейты поисковых систем

Поведенческие факторы Яндекса

Семантическое ядро сайта

wiki-work.ru