robots.txt在网站中的重要性
robots.txt是什么?robots.txt在网站中有什么作用?其实robots在网站建设和SEO中也起到很重要的作用!其实robots.txt是搜索引擎访问网站时要查看的第一个文件。robots.txt会告诉蜘蛛哪些网页是可以被收录的。如果网站中没有robots.txt文件,那么蜘蛛将访问网站上所有的页面。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
最简单的robots.txt 使用两条规则:
User-Agent:
适用下列规则的漫游器
Disallow: 要拦截的网页
那么robots.txt在网站SEO中起到什么作用呢?
在进行网站优化的时候,经常会使用robots文件把一些内容不想让蜘蛛抓取,以前写过一篇网站优化之禁止收录网站动态页面的文章,现在写这编文章在补充一点robots.txt知识。到底有什么重要性呢,假如你的网站开启了问静态,没有设置robors,百度就会把一篇文章以不同的链接方式收录N遍,就说本篇文章吧!百度只会收录https://www.ziyouwu.com/index.php/archives/121.html 而不会收录https://www.ziyouwu.com/?p=121或者 https://www.ziyouwu.com/?p=121.html这样的动态页面!这样的好处还用解释吗?
robots.txt文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow:/ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow:.gif$ 允许抓取网页和gif格式图片
以上这些信息都是由自由屋博客个人搜集整理改编的。(更详细的大家可以参照一下百度robots规则)
我想除了想淘宝这样的网站会禁止百度的收录,其他应该不会有了吧!
最活跃的读者