数据爬取正常,一开始占用内存400M,用完多条线索后就1G多了,速度慢了很多,接近卡死,如何解决?

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-3-3 10:02

沙发
xandy 论坛元老 发表于 2017-3-1 11:42:07 | 只看该作者
是开了很多爬虫窗口吗?
举报 使用道具
板凳
Fuller 管理员 发表于 2017-3-1 12:07:34 | 只看该作者
采集哪个网站?主题名是什么?

有些网站的网页会有内存泄露,就会内存占用不放。另外,也可能是程序bug导致,我们要具体测试定位。

在一些大型项目中,为了持续可靠运行,还会部署一个监控程序,会定期对爬虫进行重启
举报 使用道具
地板
lpasd123 初级会员 发表于 2017-3-1 13:58:58 | 只看该作者
xandy 发表于 2017-3-1 11:42
是开了很多爬虫窗口吗?

一个窗口。
举报 使用道具
5#
lpasd123 初级会员 发表于 2017-3-1 13:59:44 | 只看该作者
Fuller 发表于 2017-3-1 12:07
采集哪个网站?主题名是什么?

有些网站的网页会有内存泄露,就会内存占用不放。另外,也可能是程序bug导 ...

天眼查
主题名:天眼查二级

举报 使用道具
6#
lpasd123 初级会员 发表于 2017-3-3 09:19:52 | 只看该作者
继续顶贴求解答。
举报 使用道具
7#
shenzhenwan10 金牌会员 发表于 2017-3-3 10:01:32 | 只看该作者
和访问的网页, 爬虫电脑的配置有关
遇到这种情况, 可以重启GS浏览器或火狐
举报 使用道具
8#
shenzhenwan10 金牌会员 发表于 2017-3-3 10:02:19 | 只看该作者
天眼查的采集多了会出滑块验证码
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 14:26