请问360的爬虫每秒钟抓取量有没有办法控制?能不能在站长平台加个速率的控制?谢谢!
虽然网站有做cdn,但是为了让爬虫可以抓取最新鲜的内容,网站设置了对爬虫采用源站地址抓取;
但是经常因为360的爬虫瞬间抓取速度过快,把服务器的连接数由5K直接干到6万,每秒钟抓取页面数量太多了,接着就是数据库的CPU干到99%,这会影响网站正常的访问。每次都要通过屏蔽360的爬虫来解决,但是长期这样也不利于360对内容的收录,所以,希望360的工程师们能改善一下抓取的速率和策略,比如可以让站长在站长管理后台设置每秒钟可以接受的抓取页面数量,每种类型的页面建议抓取的周期。这样会更有利于抓取的成功率,以及贵公司服务器也能保存到最新鲜的内容。
感谢360能听取我们的建议,让我们和360一起共同发展! |
|
|
|
评论
直达楼层