重新采集一遍,下级线索会不会重复?有些线索采集失败了,中途断掉了,重新激活采集的话,数据和下级线索会重复吗?
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2017-10-31 11:51

沙发
数据集 高级会员 发表于 2017-10-31 11:51:42 | 只看该作者
1,如果是采集失败了,失败的线索本来就没有生成结果文件 所以数据和下级线索都不会重复。
2,如果中途断掉了,对于有翻页的情况,如果执行了一半就失败了,这时候已经有多个结果文件生成,如果激活该条线索后重新抓取,会出现重复采集的情况,所有会有重复的数据,可以对结果进行去重处理。但下级线索依旧不会重复,当生成已存在的线索时,只会被当作一条。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • BERTopic做主题合并以后为什么得到的实际主
  • 怎样使用BERTopic做话题检测和主题聚类
  • 什么是SBERT
  • 怎样让GooSeeker分词工具使用宋体画词云图
  • 使用BERTopic时遇到的c-TF-IDF是什么?

热门用户

GMT+8, 2026-6-13 14:05