13996527831
SEO博客详细

引起百度蜘蛛抓取量暴增的几个可能性的原因

发表日期:2016-10-18 09:44:37   作者来源:米卓网络   浏览:    

  近期,做项目的时候发现网站的抓取量暴增,PC和移动都有这种情况,以至于超过了服务器的最大承受能力,这种突然的抓取量暴增现象应该怎么处理呢?下面我们来一一介绍。那我们先来了解下引起百度蜘蛛抓取量暴增的几个可能性的原因:

  l Baiduspider发现站内JS代码较多,调用大量资源针对JS代码进行解析抓取

  l 其他部门(如商业、图片等)的spider在抓取,但流量没有控制好,sorry

  l 已抓取的链接,打分不够好,垃圾过多,导致spider重新抓取

  l 站点被攻击,有人仿冒百度爬虫

  备注:(如何正确的识别蜘蛛,参考各搜索引擎的官方文档)

  首先,我们要确定服务器是没有技术上的问题的,然后分析下日志,看一下搜索引擎频繁的抓取哪些页面或哪一个页面,如果是一个页面,那只能舍弃这个页面了,使用robots屏蔽掉。

  其次,如果搜索引擎抓取的是整站的页面,我们可以用站长工具去控制蜘蛛的抓取频率,调整到一个服务器能够接受的值,当然这种做法会促使蜘蛛抓取量下降,但可能达不到理想的值,需要时刻查看调整相关的数据。

  第三,有一些站长工具是没有限制蜘蛛抓取功能的,我们还可以通过robots来限制蜘蛛的抓取频率,如以下robots协议

  一、 Crawl-delay 这个协议可以指定蜘蛛两次抓取时间的间隔值。

  语法:Crawl-delay:XX

  "XX",是指两间抓取的间隔时间,单位为秒。如果蜘蛛的抓取频率太高可以指定这个值,来减轻服务器的负担。

  二、Visit-time 指定蜘蛛的访问时间。

  语法:Visit-time:0930-1630

  开头的文本行指定每天允许网络蜘蛛采集的时间段,格式为mmss-mmss,例如0930-1630

  三、 Request-rate 指定采集的频率

  语法:Request-rate:1/5 0600-0845

  指定同一个网络蜘蛛每多少秒采集一次网页和采集时间段,例如1/5 0600-0845。

  最后说明下,有些站长通过屏蔽蜘蛛IP的方法限制蜘蛛的抓取量,这种做法是非常不可取的,虽然蜘蛛的确有一个IP池,真实IP在这个IP池内切换,无法保证这个IP池整体不会发生变化。