Web服务器的默认robots.txt文件
如何为在Linux/Unix/MS-Windows服务器上运行的Apache Web服务器创建默认的robots.txt文件?
Web蜘蛛(也称为机器人)是WWW搜索引擎,可跨Internet进行爬网并为Web服务器上的页面编制索引。
robots.txt文件可帮助网站管理员或网站所有者阻止网络抓取工具(机器人)访问网站的全部或部分。
网站所有者使用robots.txt文件使用"机器人排除协议"向网站机器人提供有关其网站的说明。
robots.txt文件语法和规则
robots.txt文件使用以下基本规则:
User-agent:
:以下规则适用于机器人Disallow:
您要阻止的URL。Allow:
您要允许的URL。
示例:默认的robots.txt
要阻止整个服务器中的所有机械手,请按以下步骤创建或上传robots.txt文件:
User-agent: * Disallow: /
以上两行被视为文件中的单个条目。
要允许所有机械手完全访问整个服务器,请创建或上传robots.txt文件,如下所示:
User-agent: * Disallow:
或者
User-agent: * Allow:
请注意,User-agent:*
表示匹配任何机器人。
您可以包含任意数量的条目。
您可以在一个条目中包含多个"禁止"或"允许"行以及多个用户代理。
以下示例告诉机器人远离/foo/bar.php文件
User-agent: * Disallow: /foo/bar.php
在此示例中,您指示所有机械手不要输入/cgi-bin /和/print /目录:
User-agent: * Disallow: /cgi-bin/ Disallow: /print/
该示例告诉一个名为fooBar的特定机器人远离您的网站。
fooBar是机器人的实际用户代理的名称。
随意用bot的实际用户代理替换fooBar:
User-agent: fooBar Disallow: /
要阻止特定文件类型的文件,例如说所有* .png图像文件,请对googlebot使用以下语法:
User-agent: Googlebot Disallow: /*.png$
以下示例不允许从/cgi-bin /和/pdfs /路径访问名为fooBar的漫游器:
# Tell "fooBar" where it can't go User-agent: fooBar Disallow: /cgi-bin/ Disallow: /pdfs/ # Allow all other robots to browse everywhere User-agent: * Disallow:
在此示例中,我仅允许名为googlebot的Web Spider进入站点,而拒绝所有其他Spider:
# Allow "googlebot" in the site User-agent: Googlebot Disallow: # Deny all other spiders User-agent: * Disallow: /
如何在服务器上创建robots.txt文件?
请注意,robots.txt文件是一个特殊的文本文件,它始终位于Web服务器的根目录中。
应该注意的是,Web"机器人不需要遵守robots.txt文件",但是大多数写得很好的Web Spider都遵循您定义的规则。
您可以在系统上创建robots.txt,然后使用ftp客户端将其上传。
您可以使用ssh命令登录到服务器,并使用文本编辑器(例如vi)创建robots.txt文件。
在此示例中,我登录到名为server1.theitroad.local的服务器,并从OS X或基于Linux/Unix的桌面系统在/var/www/html目录中创建文件。
MS-Windows用户尝试使用ssh客户端:
ssh [email protected] cd /var/www/html vi robots.txt
示例robots.txt文件
来自theitroad.local的示例robots.txt文件:
#Allow Google Media Partners bot User-agent: Mediapartners-Google Disallow: #Block the bad bots User-agent: ia_archiver Disallow: / User-agent: VoilaBot Disallow: / User-agent: Baiduspider Disallow: / User-agent: MJ12bot Disallow: / User-agent: BecomeJPBot Disallow: / User-agent: Exabot Disallow: / User-agent: 008 Disallow: / User-agent: Sosospider Disallow: / #Block specific urls and directories for all bots User-agent: * Disallow: /low.html Disallow: /lib/ Disallow: /rd/ Disallow: /tools/ Disallow: /tmp/ Disallow: /*? Disallow: /view/pdf/faq/*.php Disallow: /view/pdf/tips/*.php Disallow: /view/pdf/cms/*.php