В процессе индексации, поисковый сервер вначале ищет файл robots.txt в корневой папке. Он сообщает автоматической индексирующей программе, какие файлы ей индексировать, а какие пропустить.
Файл robots.txt имеет определённый формат. Он состоит записей, каждая из которых является строкой, описывающей имя параметра, его значение:[параметр] “:” [значение]
Этот файл должен в UNIX - формате, в котором каждая строка оканчивается специальным символом “n”. А в Windows признаком окончания строки является последовательность “rn”. Поэтому важно, чтобы программа для редактирования имела режим текстового отображения всех символов, включая служебные.
Параметр User-agent
С его помощью указывается название робота, которому позволено проводить индексацию. Например:
User-agent: googlebot
Вместо имени робота можно поставить маску «*», тогда индексировать сайт сможет любая поисковый сервер:
User-agent: *
Имена роботов можно определить из логов обращения к файлу “robots.txt”, хранимых на сервере.
Параметр Disallow
Определяет, какие файлы и каталоги запрещено индексировать. Например эта директива запрещает индексацию файла my.html:
Disallow: my.html
Директива может включать и название каталога:
Disallow: /catalog_name/
Там можно указать роботу, чтобы он пропустил папку catalog_name. В Disallow могут применяться и специальные символы подстановки. Например, значение /my запретит паукам читать из /my и также как и из /my/my.html.
Если эта директива останется пустой, то сайт будет проиндексирован целиком.
Ошибка 404, перенаправление на другую страницу
Часто при ошибке 404 (не найден файл) веб-сервер выдаёт некоторую страницу, например 404.html. Сервер, при этом, не выдаёт признак ошибки и не осуществляет перенаправления на главную страницу. Получается робот не будет проинформирован относительно того, что файла с правилами индексации не существует. Вместо этого ему будет выдана HTML – страница. Возможно, ничего страшного при этом не произойдёт. Но что, если страница будет воспринята как файл robots.txt? Дабы этого избежать, нужно обязательно создать robots.txt, пусть даже и с пустым содержимым.
Вообще, именно с правильного оформления robots.txt должна начинаться жизнь каждого сайта, так как правильные действия очень упрощают продвижение сайта в поисковых системах. Если быть точнее, это не то что бы сильно упрощает продвижение, это не мешает и значительно сокращает сроки, нежели неправленно оформленный robots.txt, который заставит поисковые системы изначально негативно относится к Вашему сайту.
Многие CMS создают при установке огромного количества служебных файлов. Индексация их может отнимать много времени и совершенно бесполезна. Поэтому использование специального файла, где будут указаны все страницы, нуждающиеся в индексации, можно считать обязательным.
Читать еще:
Что такое апдейты поисковых систем
wiki-work.ru