重新采集一遍,下级线索会不会重复?有些线索采集失败了,中途断掉了,重新激活采集的话,数据和下级线索会重复吗?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-10-31 11:51

沙发
数据集 高级会员 发表于 2017-10-31 11:51:42 | 只看该作者
1,如果是采集失败了,失败的线索本来就没有生成结果文件 所以数据和下级线索都不会重复。
2,如果中途断掉了,对于有翻页的情况,如果执行了一半就失败了,这时候已经有多个结果文件生成,如果激活该条线索后重新抓取,会出现重复采集的情况,所有会有重复的数据,可以对结果进行去重处理。但下级线索依旧不会重复,当生成已存在的线索时,只会被当作一条。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 18:05