Web服务器的默认robots.txt文件

时间:2020-01-09 10:38:05  来源:igfitidea点击:

如何为在Linux/Unix/MS-Windows服务器上运行的Apache Web服务器创建默认的robots.txt文件?

Web蜘蛛(也称为机器人)是WWW搜索引擎,可跨Internet进行爬网并为Web服务器上的页面编制索引。

robots.txt文件可帮助网站管理员或网站所有者阻止网络抓取工具(机器人)访问网站的全部或部分。
网站所有者使用robots.txt文件使用"机器人排除协议"向网站机器人提供有关其网站的说明。

robots.txt文件语法和规则

robots.txt文件使用以下基本规则:

  • User-agent::以下规则适用于机器人
  • Disallow:您要阻止的URL。
  • Allow:您要允许的URL。

示例:默认的robots.txt

要阻止整个服务器中的所有机械手,请按以下步骤创建或上传robots.txt文件:

User-agent: *
Disallow: /

以上两行被视为文件中的单个条目。
要允许所有机械手完全访问整个服务器,请创建或上传robots.txt文件,如下所示:

User-agent: *
Disallow:

或者

User-agent: *
Allow:

请注意,User-agent:*表示匹配任何机器人。
您可以包含任意数量的条目。
您可以在一个条目中包含多个"禁止"或"允许"行以及多个用户代理。
以下示例告诉机器人远离/foo/bar.php文件

User-agent: *
Disallow: /foo/bar.php

在此示例中,您指示所有机械手不要输入/cgi-bin /和/print /目录:

User-agent: *
Disallow: /cgi-bin/
Disallow: /print/

该示例告诉一个名为fooBar的特定机器人远离您的网站。

fooBar是机器人的实际用户代理的名称。
随意用bot的实际用户代理替换fooBar:

User-agent: fooBar
Disallow: /

要阻止特定文件类型的文件,例如说所有* .png图像文件,请对googlebot使用以下语法:

User-agent: Googlebot
Disallow: /*.png$

以下示例不允许从/cgi-bin /和/pdfs /路径访问名为fooBar的漫游器:

# Tell "fooBar" where it can't go
User-agent: fooBar
Disallow: /cgi-bin/
Disallow: /pdfs/
 
# Allow all other robots to browse everywhere
User-agent: *
Disallow:

在此示例中,我仅允许名为googlebot的Web Spider进入站点,而拒绝所有其他Spider:

# Allow "googlebot" in the site
User-agent: Googlebot
Disallow:
 
# Deny all other spiders
User-agent: *
Disallow: /

如何在服务器上创建robots.txt文件?

请注意,robots.txt文件是一个特殊的文本文件,它始终位于Web服务器的根目录中。
应该注意的是,Web"机器人不需要遵守robots.txt文件",但是大多数写得很好的Web Spider都遵循您定义的规则。
您可以在系统上创建robots.txt,然后使用ftp客户端将其上传。

您可以使用ssh命令登录到服务器,并使用文本编辑器(例如vi)创建robots.txt文件。
在此示例中,我登录到名为server1.theitroad.local的服务器,并从OS X或基于Linux/Unix的桌面系统在/var/www/html目录中创建文件。

MS-Windows用户尝试使用ssh客户端:

ssh [email protected]
cd /var/www/html
vi robots.txt

示例robots.txt文件

来自theitroad.local的示例robots.txt文件:

#Allow Google Media Partners bot
User-agent: Mediapartners-Google
Disallow:
 
#Block the bad bots
User-agent: ia_archiver
Disallow: /
 
User-agent: VoilaBot
Disallow: /
 
User-agent: Baiduspider
Disallow: /
 
User-agent: MJ12bot
Disallow: /
 
User-agent: BecomeJPBot
Disallow: /
 
User-agent: Exabot
Disallow: /
 
User-agent: 008
Disallow: /	
 
User-agent: Sosospider
Disallow: /
 
#Block specific urls and directories for all bots
User-agent: *
Disallow: /low.html
Disallow: /lib/
Disallow: /rd/
Disallow: /tools/
Disallow: /tmp/
Disallow: /*?
Disallow: /view/pdf/faq/*.php 
Disallow: /view/pdf/tips/*.php 
Disallow: /view/pdf/cms/*.php