还有采集未完成的时候,可以打包是不是正常现象?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-10-18 22:34

沙发
shengchengx 金牌会员 发表于 2017-10-18 18:10:49 | 只看该作者
因为京东这边对翻页会有限制,翻页最多只能翻到一百页。
数据重复的话,检查先添加的线索是否有重复的,如果有的话会进行重复抓取,在打包数据的时候,会根据线索来判断打包。
采集中可以打包这个是属于正常的。
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2017-10-18 18:14:40 | 只看该作者
你说的完整是指什么? 京东有限制, 评论只显示100页, 要采集更多的只能是每天采集增量进行补充
可以打包是正常的, 因为已经检测到有数据了. 如果你进行了打包, 这只是部分数据,  后续有新的数据进来, 还需要再打包
举报 使用道具
地板
Fuller 管理员 发表于 2017-10-18 22:34:32 | 只看该作者
数据DIY的爬虫在运行的时候,都是有两个爬虫窗口,一个爬数据,一个打包,所以,还没有完全翻页完,就能打包
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 15:26