您现在的位置:首页 >> 学习笔记 >> 内容

robots.txt文件的作用

时间:2012-08-05 23:13:30 点击:

  核心提示:当搜索引擎派出的蜘蛛来到一个网站时,首先会在网站的根目录下找一个名为robots.txt的文件,如果文件存在,搜索机器人就按照文件中定义的规则来确定访问的网站范围;倘若不存在,搜索机器人则视为该网站允...

当搜索引擎派出的蜘蛛来到一个网站时,首先会在网站的根目录下找一个名为robots.txt的文件,如果文件存在,搜索机器人就按照文件中定义的规则来确定访问的网站范围;倘若不存在,搜索机器人则视为该网站允许全部访问。据此,可以看出,robots.txt文件其实是定义了一种协议,而非一个命令。该文件的作用事实上是用于告诉蜘蛛程序在服务器上什么文件是允许被查看的。可以说,robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

robots.txt文件必须要存放于网站的根目录下,且文件名必须是全部小写,这点务请注意!

 

robots.txt文件的格式
User-agent: 定义搜索引擎的类型
Disallow: 定义禁止搜索引擎收录的地址
Allow: 定义允许搜索引擎收录的地址

 

我们常用的搜索引擎类型有: (User-agent区分大小写)
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛: slurp
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot

 

robots.txt文件的写法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL
Allow: .gif$ 允许抓取网页和gif格式图片

我们在书写robots.txt文件时,如果不会书写,可以借助一些在线生成robots.txt的工具,比如站长站就有,链接是:http://tool.chinaz.com/robots/

Tags:ROBOTS.TXT SEO 
作者:admin 来源:本站原创