自由屋推书网—热门的小说推荐平台!

你的位置: 首页 > 网站技巧

robots.txt在网站中的重要性

2012-01-30 22:03:22

robots.txt是什么?robots.txt在网站中有什么作用?其实robots在网站建设和SEO中也起到很重要的作用!其实robots.txt是搜索引擎访问网站时要查看的第一个文件。robots.txt会告诉蜘蛛哪些网页是可以被收录的。如果网站中没有robots.txt文件,那么蜘蛛将访问网站上所有的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
最简单的robots.txt 使用两条规则
 

User-Agent:
适用下列规则的漫游器
Disallow: 要拦截的网页

 
那么robots.txt在网站SEO中起到什么作用呢?
  在进行网站优化的时候,经常会使用robots文件把一些内容不想让蜘蛛抓取,以前写过一篇网站优化之禁止收录网站动态页面的文章,现在写这编文章在补充一点robots.txt知识。到底有什么重要性呢,假如你的网站开启了问静态,没有设置robors,百度就会把一篇文章以不同的链接方式收录N遍,就说本篇文章吧!百度只会收录https://www.ziyouwu.com/index.php/archives/121.html 而不会收录https://www.ziyouwu.com/?p=121或者 https://www.ziyouwu.com/?p=121.html这样的动态页面!这样的好处还用解释吗?


robots.txt文件的写法


User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/  这里定义是禁止爬寻admin目录下面的目录

Disallow: /require/  这里定义是禁止爬寻require目录下面的目录

Disallow:/ABC/   这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm   禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?*   禁止访问网站中所有的动态页面

Disallow: /jpg$   禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html   禁止爬去ab文件夹下面的adc.html文件。

Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

Allow: /tmp   这里定义是允许爬寻tmp的整个目录

Allow: .htm$   仅允许访问以".htm"为后缀的URL。

Allow:.gif$   允许抓取网页和gif格式图片

 

以上这些信息都是由自由屋博客个人搜集整理改编的。(更详细的大家可以参照一下百度robots规则

我想除了想淘宝这样的网站会禁止百度的收录,其他应该不会有了吧!

编辑推荐

热门小说