www.ПЕРВЫЕ ШАГИ.ru :: Шаг 28 - Как управлять веб-роботами ?

Веб-роботы это программы, которые автоматически путешествуют по сети. Происходит это достаточно просто. Робот скачивает гипертекстовый документ и строит дерево ссылок этого документа. Затем он выбирает следующую ссылку из дерева и скачивает следующий документ, затем добавляет найденные ссылки к уже созданному дереву. И так далее... Чисто теоритически робот способен облазить за какое-то время всю сеть.

Роботы бывают нескольких типов:

Индексирующие
Проверяющие правильность HTML
Проверяющие правильность ссылок
Мониторинг "нового" на сайте
Зеркалирующие

К индексирующим роботам относятся все поисковые системы. Программы поисковой системы "проходят" по всем ссылкам сайта, и оставляют его "слепок" в своей базе данных, чтобы затем осуществлять поиск информации. Роботы проверяющие правильность ссылок или HTML кода как правило являются вспомогательными программами для веб-мастеров. Они помогают оценить целостность сайта и найти неработающие ссылки или неправильный код. Роботы осуществляющие мониторинг "нового" на сайте, как правило относятся к поисковым системам, но могут выступать и как вспомогательные программы для пользователей облегчающие поиск новой информации на сайте. Зеркалирующие роботы предназначены для создания копий сайтов. Это могут быть как автоматические программы, которые обновляют зеркала сайта, так и обычные программы закачки для пользователей.

Есть несколько причин недолюбливания роботов в сети:

Робот с плохой реализацией может перегрузить сетевой канал или сервер.
Роботами управляют люди, которые могут сделать ошибку в конфигурации.
Индексирующие роботы поисковых систем строят базу данных, которая не может полностью отразить миллионы страниц на миллионах сайтов.

Конечно же все эти причины относятся к плохо реализованным программам и вовсе не означает, что все роботы плохие. Однако следует относиться к ним с должным вниманием.

Чтобы дать возможность авторам и держателям сайтов управлять роботами был разработан специальный файл, который определяет области сайта для индексирования. Файл этот называется robots.txt. Он должен лежать в корне сервера.

Формат файла robots.txt достаточно прост. Весь файл делится на несколько блоков, каждый из которых может задавать настройки для разных роботов. Первая строка в блоке задает название робота, которому предназначен этот блок. Ее формат такой:

	User-agent: <название робота1> [... <название роботаN>]

Название робота может быть равно '*', т.е. все возможные роботы. Если Вы хотите настроить сразу несколько роботов одновременно, то перечислите их имена через пробел.

Затем идут строки описывающие запрещенные каталоги или файлы:

	Disallow: <путь>

И каталоги, которые не являются запрещенными:

	Allow: <путь>

Как и во всех нормальных конфигурационных файлах в файле /robots.txt могут быть комментарии. Комментарием считается любая строка или часть строки, которая начинается с символа '#'.

Вот несколько примеров файлов robots.txt:

#пример файла robots.txt

User-agent: WebBot
Disallow: /artic

User-agent: *
Disallow: /statistic
Disallow: /logs
Disallow: /forum/forum.html

Еще один пример, открывающий доступ только к одной папке:

#Закрываем весь сервер для всех роботов
User-agent: *
Disallow: /
#открываем только один каталог
Allow: /news/

Добавление символа "/" в конец пути означает, что закрывается доступ для всей папки. Если же этот символ не указан, то доступ будет закрываться для папок и файлов начинающихся с такого пути. Пример:

User-agent: *
Disallow: /ser

В результате такой настройки роботы не будут обращаться к папкам и файлам /ser*, например:

/server/
/serge.html
/service.html
....

Что вообще следует закрывать для доступа ?

Каталог или подкаталоги /cgi-bin/, в которых имеются скрипты сильно замедляющие работу сервера. К таким скриптам можно отнести программы поиска информации на сайте, генерации каких-либо отчетов и т.д.
Приватные папки пользователей, например /private
Папки с временными файлами /tmp, папки с файлами статистики, отчетов и логов.
Папки с постоянно генерируемыми файлами форумов или чатов.
Любые другие неугодные папки :)

Иногда /robots.txt невозможно создать из-за маленьких полномочий или очень огромного списка запрещенных каталогов и роботов. Тогда может помочь meta-механизм в html файлах.

Для управления роботами в html файле предназначен следующий тег:

	<meta name=robots content="[настройки]">

Настройки роботов состоят из двух параметров:

Индексирование - index(разрешено) или noindex(запрещено)
Следование по ссылкам - follow(разрешено) или nofollow(запрещено)

С помощью перечисления этих параметров можно настраивать роботов, например:

	<meta name=robots content="noindex,follow">

Данный пример запрещает индексацию, но разрешает следование по ссылкам.

Для запрещения или разрешения всех настроек существует два зарезервированных названия all и none. При этом :

	all  = index,follow
	none = noindex,nofollow

Пример:

	<meta name=robots content=all>
	или
	<meta name=robots content=none>

Правильные настройки роботов на сайте имеют огромное значение. В интернете более тысячи поисковых систем, более сотни автоматических искалок информации (например списков e-mail'ов для спама) и каждый день их все больше и больше. Вы можете представить, что будет с вашим сервером если все друг решат его облазить вдоль и поперек...

Поэтому надо уметь правильно запретить эти действия. Хотя естественно существуют роботы, которые на файл /robots.txt или его <meta> аналоги не смотрят. К таким почти всегда относятся скачивальщики (типа TelePort Pro) и программы вредители. Но на них можно придумать другие воздействия, если это действительно необходимо.