Веб-роботы это программы, которые автоматически путешествуют по сети. Происходит это достаточно просто. Робот скачивает гипертекстовый документ и строит дерево ссылок этого документа. Затем он выбирает следующую ссылку из дерева и скачивает следующий документ, затем добавляет найденные ссылки к уже созданному дереву. И так далее... Чисто теоритически робот способен облазить за какое-то время всю сеть.
Роботы бывают нескольких типов:
Есть несколько причин недолюбливания роботов в сети:
Чтобы дать возможность авторам и держателям сайтов управлять роботами был разработан специальный файл, который определяет области сайта для индексирования. Файл этот называется robots.txt. Он должен лежать в корне сервера.
Формат файла robots.txt достаточно прост. Весь файл делится на несколько блоков, каждый из которых может задавать настройки для разных роботов. Первая строка в блоке задает название робота, которому предназначен этот блок. Ее формат такой:
User-agent: <название робота1> [... <название роботаN>]Название робота может быть равно '*', т.е. все возможные роботы. Если Вы хотите настроить сразу несколько роботов одновременно, то перечислите их имена через пробел.
Затем идут строки описывающие запрещенные каталоги или файлы:
Disallow: <путь>И каталоги, которые не являются запрещенными:
Allow: <путь>Как и во всех нормальных конфигурационных файлах в файле /robots.txt могут быть комментарии. Комментарием считается любая строка или часть строки, которая начинается с символа '#'.
Вот несколько примеров файлов robots.txt:
#пример файла robots.txt User-agent: WebBot Disallow: /artic User-agent: * Disallow: /statistic Disallow: /logs Disallow: /forum/forum.htmlЕще один пример, открывающий доступ только к одной папке:
#Закрываем весь сервер для всех роботов User-agent: * Disallow: / #открываем только один каталог Allow: /news/Добавление символа "/" в конец пути означает, что закрывается доступ для всей папки. Если же этот символ не указан, то доступ будет закрываться для папок и файлов начинающихся с такого пути. Пример:
User-agent: * Disallow: /serВ результате такой настройки роботы не будут обращаться к папкам и файлам /ser*, например:
/server/ /serge.html /service.html ....Что вообще следует закрывать для доступа ?
Для управления роботами в html файле предназначен следующий тег:
<meta name=robots content="[настройки]">Настройки роботов состоят из двух параметров:
<meta name=robots content="noindex,follow">Данный пример запрещает индексацию, но разрешает следование по ссылкам.
Для запрещения или разрешения всех настроек существует два зарезервированных названия all и none. При этом :
all = index,follow none = noindex,nofollowПример:
<meta name=robots content=all> или <meta name=robots content=none>
Правильные настройки роботов на сайте имеют огромное значение. В интернете более тысячи поисковых систем, более сотни автоматических искалок информации (например списков e-mail'ов для спама) и каждый день их все больше и больше. Вы можете представить, что будет с вашим сервером если все друг решат его облазить вдоль и поперек...
Поэтому надо уметь правильно запретить эти действия. Хотя естественно существуют роботы, которые на файл /robots.txt или его <meta> аналоги не смотрят. К таким почти всегда относятся скачивальщики (типа TelePort Pro) и программы вредители. Но на них можно придумать другие воздействия, если это действительно необходимо.