一个网站有很多重要的文件,其中sitemap网站地图以及robots(可以说是机器人向导或者蜘蛛向导吧)。这两个文件对搜索引擎的收录会产生很大的影响,如果设置得不好的话,将会照成重复收录同类型内容而降低搜索引擎的权重,另外还有一种糟糕的情况就是我遇到的,设置了错误的robots导致搜索引擎不收录网站的内容。
对于搜索引擎不收录我网站的内容是由于robots.txt文件造成的这个原因是我最近才发现的,还好我偶尔会使用搜索引擎网站提供给站长的工具。而这一次我是在使用Bing的站长管理工具的过程中发现的问题。当时我看到Bing、搜狗和360的收录量特别少,我就觉得奇怪,然后我通过Bing的Bingbot提取功能测试了我网站上的不同类型的链接,之后发现首页是可以正常的提取出来的,但是详细的文章页面,也就是正文页面,却提示被Robots.txt阻止了,但是我还是觉得比较奇怪的,因为我之前通过百度、谷歌两大搜索引擎的robots校验工具对我的robots.txt的规则进行了检验,百度、谷歌两大搜索引擎均提示正文和分类以及首页是可以正常收录的,但是为什么到Bing这里却是提示阻止了呢?
随后,我有点不相信,又再次的到百度站长工具中再一次的进行了检验,发现百度的确显示的我设置的robots.txt文件是正常的,可以正常收录我设置的网页和排除我不希望被收录的网页。
实在是没有了办法,于是只好通过单个搜索引擎的限制的方法来解决这个问题。但是我一直想不明白的是ROBOTS不是一个标准吗?语法什么的应该都是一样的,但是竟然对其他的搜索引擎起到了不同的效果,我也是醉了。
下面的robots详细教程,网上有很多,也不算是原创,就是整理有条来让人可以轻易的看明白。
第一步:新建一个名称为robots.txt的文件。
第二步:在文件中添加User-agent: *
其中号表示所有的搜索引擎蜘蛛,如果你需要针对某一个单独的搜索引擎的蜘蛛进行设置,你也可以将号改为搜索引擎的蜘蛛名称。
从网上各种论坛和搜索引擎官方的站长工具文档中查看搜索引擎蜘蛛的名称大致如下:
百度
百度蜘蛛:Baiduspider
百度图片:Baiduspider-image
百度视频:Baiduspider-video
百度新闻:Baiduspider-news
百度WAP:Baiduspider-mobile
谷歌
谷歌蜘蛛:Googlebot
谷歌图片:Googlebot-Mobile
360
360蜘蛛:360Spider
SOSO
SOSO蜘蛛:Sosospider
搜狗
Sogou web spider
Sogou inst spider
Sogou spider
Sogou blog
Sogou News Spider
Sogou Orion spider
根据网上的说法,搜狗蜘蛛可以统称为Sogou。
有道
YoudaoBot
YodaoBot
必应
Bingbot
一搜(神马搜索)
YisouSpider
根据博主查的资料,在UC官网论坛中,被称为神马搜索,蜘蛛名为Yisouspider。
Alexa
ia_archiver
宜搜
EasouSpider
即刻
JikeSpider
注意:这里需要注意的一点,就是User-agent:和*号之间是有一个空格的,虽然不知道这个空格是不是真的对整个robots.txt规则有所影响,但是我查看了很多robots.txt文件均是有空格的,所以大家尽量也留个空格出来,避免出现意外的情况。
第三步:声明网站地图sitemap文件的位置,如果你网站没有sitemap网站地图文件则可以直接跳过这一步。
Sitemap: http://www.lihuan.com.cn/sitemap.xml
Sitemap:后面是网站的sitemap的文件地址。
第四步:设置搜索引擎的蜘蛛可以访问的链接。
这里如果你希望搜索引擎的蜘蛛能够访问到网站所有的内容可以在User-agent: *下添加如Disallow:或者Allow: /。还是需要注意的是Allow:和Disallow:与后面的字符均需要留出一个空格。虽然不知道其影响,但是我看过的其他网站都是留有空格的。
User-agent: *
Allow: /
或者
User-agent: *
Disallow:
如果,你需要禁止搜索引擎的蜘蛛访问网站的某个目录的内容,则可以写成:
User-agent: *
Disallow: /admin/
如果,你需要指定搜索引擎可以访问和收录某个的目录内容,则可以写成:
User-agent: *
Allow: /admin/
如果,你需要指定搜索引擎不收录带参数的链接内容,则可以写成:
User-agent: *
Disallow: /?
基本上robots文件的基础设置语句就只有这些了。
通过查询网上的资料发现还有专门指定搜索引擎针对图片的收录的Robot规则。
允许抓取指定图片格式:
Allow: .jpg$
禁止抓取指定图片格式:
Disallow: .jpg$
这种方法我没有具体试过,所以不知道是不是真实有效,而且这种方法大部分情况下都不会被用到,只有真正希望网站图片不被收录才会使用,因此,没有太大的设置的必要。
站长推荐:
百度站长管理工具:zhanzhang.baidu.com
谷歌站长管理工具:www.google.com/webmasters/
360站长管理工具:zhanzhang.haosou.com
搜狗站长管理工具:zhanzhang.sogou.com
Bing站长管理工具:www.bing.com/webmaster/
神马站长管理工具:zhanzhang.sm.cn
希望本篇文章能够给各位站长带来帮助,如果你有什么好的建议或意见请提出,如果本文内容有错误或不全的地方还请指出,谢谢各位的支持。