Robots.txt写法
robots.txt是什么
(是robots.txt而不是robot.txt)
robots.txt是一个纯文本文件,存在于网站的根目录下。搜索引擎使用的爬虫(spider、robot)在访问一个网站时,会首先会检查是否有这个文件,网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt的格式
User-agent 针对的搜索引擎robot的名字,通常用*表示所有搜索机器人
Disallow 该项的值用于描述不希望被访问的一组URL,可以是完整路径,也可以只是前缀
Allow 该项的值用于描述希望被访问的一组URL
Sitemap 指明网站sitemap所在地址
常见用法
允许所有的robot访问
User-agent: *
Disallow:
禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
禁止spider访问特定目录或url
User-agent: *
Disallow: /cgi-bin/
Disallow: /cgi-bin/*.htm
禁止抓取网站上的图片
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .gif$
仅允许静态html页面被抓取
User-agent: *
Allow: .htm$
Disallow: /
需要注意的是Disallow与Allow行的顺序是有意义的,robot会根据排在前面的Allow或Disallow行确定是否访问某个URL。
使用”*”和”$”:使用通配符”*”和”$”来模糊匹配url。”$” 匹配行结束符、 ”*” 匹配0或多个任意字符。
具体写法可以参考:
http://www.google.com/robots.txt
http://www.w3.org/robots.txt
原创文章,转载请注明: 转载自水星博客 - 数字时代 To digi
robot 写法介绍的太简单了啊
想要知道的美找到啊
博主写的不错,谢谢分享,支持
写的不错,支持