引起百度蜘蛛抓取量暴增的几个可能性的原因

　　近期，做项目的时候发现网站的抓取量暴增，PC和移动都有这种情况，以至于超过了服务器的最大承受能力，这种突然的抓取量暴增现象应该怎么处理呢?下面我们来一一介绍。那我们先来了解下引起百度蜘蛛抓取量暴增的几个可能性的原因：

　　l Baiduspider发现站内JS代码较多，调用大量资源针对JS代码进行解析抓取

　　l 其他部门(如商业、图片等)的spider在抓取，但流量没有控制好，sorry

　　l 已抓取的链接，打分不够好，垃圾过多，导致spider重新抓取

　　l 站点被攻击，有人仿冒百度爬虫

　　备注：(如何正确的识别蜘蛛，参考各搜索引擎的官方文档)

　　首先，我们要确定服务器是没有技术上的问题的，然后分析下日志，看一下搜索引擎频繁的抓取哪些页面或哪一个页面，如果是一个页面，那只能舍弃这个页面了，使用robots屏蔽掉。

　　其次，如果搜索引擎抓取的是整站的页面，我们可以用站长工具去控制蜘蛛的抓取频率，调整到一个服务器能够接受的值，当然这种做法会促使蜘蛛抓取量下降，但可能达不到理想的值，需要时刻查看调整相关的数据。

　　第三，有一些站长工具是没有限制蜘蛛抓取功能的，我们还可以通过robots来限制蜘蛛的抓取频率，如以下robots协议

　　一、 Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。

　　语法：Crawl-delay:XX

　　"XX"，是指两间抓取的间隔时间，单位为秒。如果蜘蛛的抓取频率太高可以指定这个值，来减轻服务器的负担。

　　二、Visit-time 指定蜘蛛的访问时间。

　　语法：Visit-time:0930-1630

　　开头的文本行指定每天允许网络蜘蛛采集的时间段，格式为mmss-mmss，例如0930-1630

　　三、 Request-rate 指定采集的频率

　　语法：Request-rate:1/5 0600-0845

　　指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段，例如1/5 0600-0845。

　　最后说明下，有些站长通过屏蔽蜘蛛IP的方法限制蜘蛛的抓取量，这种做法是非常不可取的，虽然蜘蛛的确有一个IP池，真实IP在这个IP池内切换，无法保证这个IP池整体不会发生变化。