Robots.txt写法

2010年2月14日 发表评论 阅读评论

robots.txt是什么

(是robots.txt而不是robot.txt)

robots.txt是一个纯文本文件,存在于网站的根目录下。搜索引擎使用的爬虫(spider、robot)在访问一个网站时,会首先会检查是否有这个文件,网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。如果该文件不存在,那么搜索机器人就沿着链接抓取。

robots.txt的格式

User-agent 针对的搜索引擎robot的名字,通常用*表示所有搜索机器人

Disallow 该项的值用于描述不希望被访问的一组URL,可以是完整路径,也可以只是前缀

Allow 该项的值用于描述希望被访问的一组URL

Sitemap 指明网站sitemap所在地址

常见用法

允许所有的robot访问

User-agent: *
Disallow:

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止spider访问特定目录或url

User-agent: *
Disallow: /cgi-bin/
Disallow: /cgi-bin/*.htm
 

禁止抓取网站上的图片

User-agent: Baiduspider
Disallow: .jpg$
Disallow: .gif$

仅允许静态html页面被抓取

User-agent: *
Allow: .htm$
Disallow: /

需要注意的是Disallow与Allow行的顺序是有意义的,robot会根据排在前面的Allow或Disallow行确定是否访问某个URL。

使用”*”和”$”:使用通配符”*”和”$”来模糊匹配url。”$” 匹配行结束符、 ”*” 匹配0或多个任意字符。

具体写法可以参考:

http://www.google.com/robots.txt
http://www.w3.org/robots.txt

原创文章,转载请注明: 转载自水星博客 - 数字时代 To digi

本文永久链接地址: http://www.todigi.com/2010/02/robots-txt.html

  1. 2010年2月20日16:26 | #1

    robot 写法介绍的太简单了啊

  2. 2010年2月20日16:27 | #2

    想要知道的美找到啊

  3. 2010年2月23日11:51 | #3

    博主写的不错,谢谢分享,支持

  4. 2010年2月27日10:55 | #4

    写的不错,支持

  1. 本文目前尚无任何 trackbacks 和 pingbacks.