robots文件写法以及对SEO的影响

小鹰博客8年前网站优化986

蜘蛛spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。早期robots协议是防止网站内的隐私,防止抓取用户不想让搜索引擎曝光的页面。

robots.txt文件位置

robots.txt文件应该放置在网站根目录下。比如http://www.0375wg.com/robots.txt这个文件

robots一般格式基本语法 

User-agent:定义禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。*号代表全部搜索引擎

Disallow:不允许收录

Allow:允许收录

#:注释

全站屏蔽所有蜘蛛

网站改版之前,为了避免蜘蛛抓取错误或临时的链接,可以采用全站屏蔽蜘蛛的操作,在根目录建立robots.txt,添加如下内容:

User-agent:*

Disallow:/

屏蔽某个目录、文件

案例:屏蔽所有蜘蛛抓取根目录下的inc文件夹及里面的所有内容,根目录下的wap目录下的index.html文件。robots.txt文件添加如下内容:

User-agent:*

Disallow:/inc/

Disallow:/wap/index.html

屏蔽某个目录,但抓取目录下的文件或文件夹

①案例:屏蔽所有蜘蛛抓取根目录下的wap文件夹,但抓取里面后缀名为html的文件

User-agent:*

Disallow:/wap/

Allow:/wap/*.html

注意:上面的写法,wap带“/”代表根目录下的wap目录下的内容。并不会禁止比如根目录下waptest的文件夹及文件夹所有内容。

②案例:禁止抓取根目录下所有前面带“wap”字符的文件夹及文件

User-agent:*

Disallow:/wap

禁止了如:/wap/,/wap/12.html,/waptest/,/wapabc.html。

③案例:保护隐私文件夹或文件

在别让网站的robots成为最大的安全漏洞一文说到,禁止搜索引擎抓取某些私密文件夹的同时,也暴露了网站的目录结构,猜出网站后台管理系统、后台等。

比如:禁止抓取/include,就可以写成如下,当然前提是你的根目录里面没有前面带这些字符的文件夹或文件给蜘蛛抓取。

User-agent:*

Disallow:/inc

屏蔽动态URL

网站有些动态页面可能会和静态页面相同,造成重复收录。

①案例:用robots屏蔽动态URL

User-agent:*

Disallow:/*?*

②案例:仅允许访问“.html”为后缀的URL

User-agent:*

Allow:.html$

Disallow:/

屏蔽死链接

网站改版、删除文章后,原来的URL如果已经被搜索引擎索引,出现404错误。一般的做法如下:

①查看网站日志,找出这些死链,用百度提交死链工具提交,慢慢的会删除这些死链;

②如果这个链接已经更换,也可以用301跳转到新的链接,301跳转后原页面和新页面处理办法;

③robots禁止蜘蛛抓取死链,写法同上,最好带完整路径

User-agent:*

Disallow:http://www.0375wg.com/***/***.html

屏蔽不参与排名的页面链接

比如会员中心、登陆界面、联系我们等。这些虽然有实际用途,蜘蛛一样会爬取这些页面链接,这些页面也会分权,因此为了集中权重,一些完全不参与排名的页面应该用robots屏蔽。也可以在该页面的</head>之前添加<meta>声明,指向该页面的链接加上nofollow标签。

<meta name="robots" content="noindex,nofollow"/>

<a rel="nofollow" href="/member/login">登陆</a>

sitemap索引在robots.txt的位置

sitamap索引的位置最好放在robots.txt的最下面,蜘蛛先遵循前面的原则,再按照网站地图爬取。

Sitemap: http://www.0375wg.com/sitemap.xml

相关文章

如何分析一个关键词的竞争度和价值

如何分析一个关键词的竞争度和价值

我们在做网站seo优化的时候,都需要对要做的网站找出合适的关键词来做,那么我们该如何分析一个网站关键词的竞争度大小和关键词的价值呢?笔者今天就对这个问题来说说自己对这个问题的一些拙见,希望多大家在做网...

网站被挂黑链怎么办

网站被挂黑链怎么办

可能很多新的站长还不知道,在站长工具里面有一个功能可以查同IP下的站点。良多的情况下,其也有可能是网站的服务器被挂了链。这个时候我们就需要使用站长工具里的“同IP站点查询”功能,查询到跟你网站在统一服...

SEO优化过度怎么办

SEO优化过度怎么办

优化过度其实很好理解,那就是对你的网站优化的太过分了,让搜索引擎觉得你的网站太完美了,这样的兼职网他们就会觉得有问题,并不是为用户体验而考虑的,而是为了让搜索引擎给你更高的分值而考虑的,所以这样的站点...

学习长尾关键词 长尾关键词有什么作用

学习长尾关键词 长尾关键词有什么作用

网站上非目标关键词但也可以带来搜索流量的关键词,称为长尾关键词。 长尾关键词的特征是比较长,往往是2-3个词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。 搜索量非常少,并且不稳...

哪些因素会影响网站的百度快照更新时间

哪些因素会影响网站的百度快照更新时间

网站快照,是搜索引擎在抓取网站数据的时候,对网页进行的一种缓存处理。通俗点的,可以理解为是搜索引擎抓取网站数据的时间。快照的时间越显示的是近期,表明了搜索引擎是时常性的来抓取网站中的数据,对于网站是有...

黑帽SEO与白帽SEO有什么区别

黑帽SEO与白帽SEO有什么区别

人们把使用作弊手段的称为黑帽,使用正当合法手段优化网站的称为白帽。刚才在Google里查了一下黑帽SEO,竟然只有两百多个结果。看来这个词出于某种原因还没有在中国传开。笼统的说,所有使用作弊手段或可疑...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。