规则做对了,在爬数据的时候,发现有些数据抓到了,有些数据没有抓到,请问这是什么原因造成的?有什么好的解决方法?
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-3-20 14:30

沙发
For数据 高级会员 发表于 2015-12-29 10:38:11 | 只看该作者
这种情况可能是网页还在加载,但抓取速度比较快,导致爬虫还没开始采集就跳过去了,建议勾选定时器触发。
举报 使用道具
板凳
Fuller 管理员 发表于 2015-12-29 18:24:06 | 只看该作者
漏抓的情况具体是哪种?会有不同的应对方式。
我能联想到的
1)列表页,比如,京东的某个品类的商品列表,或者搜索出来的商品列表,假设一共有40个商品,只抓到35个
2)独立网页抓取,比如,有100个网页要抓取,结果只抓取到95个网页内容
3)整理箱中的抓取内容不全,比如,定义了一个整理箱,一共有6个抓取内容,结果有5个有内容。
举报 使用道具
地板
Fuller 管理员 发表于 2015-12-29 18:24:27 | 只看该作者
For数据 发表于 2015-12-29 10:38
这种情况可能是网页还在加载,但抓取速度比较快,导致爬虫还没开始采集就跳过去了,建议勾选定时器触发。 ...

定时器触发只能加剧漏抓
举报 使用道具
5#
Fuller 管理员 发表于 2015-12-29 23:39:41 | 只看该作者
Fuller 发表于 2015-12-29 18:24
漏抓的情况具体是哪种?会有不同的应对方式。
我能联想到的
1)列表页,比如,京东的某个品类的商品列表, ...

可以具体讲讲是哪种漏抓,我们可以有针对性地提出解决方案
举报 使用道具
6#
cwg1002 初级会员 发表于 2017-3-20 09:58:24 | 只看该作者
第一种情况
举报 使用道具
7#
cwg1002 初级会员 发表于 2017-3-20 09:58:39 | 只看该作者
咋办
举报 使用道具
8#
quyixuan 金牌会员 发表于 2017-3-20 11:12:57 | 只看该作者

这种有可能是网页加载不完全就开始采集了,导致采集不完整,可以试试设置一下打数机的延迟抓取


一般设置5秒足够了


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
cwg1002 初级会员 发表于 2017-3-20 11:56:35 | 只看该作者
还是漏,自定义xpath能彻底解决问题吗?
举报 使用道具
10#
cwg1002 初级会员 发表于 2017-3-20 11:56:54 | 只看该作者
求回复!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-4 23:21