11#
xandy 论坛元老 发表于 2017-3-24 15:26:47 | 只看该作者
wevolution 发表于 2017-3-24 15:13
那有没有办法抓取所有的呢?虽然重复了,但是我确实还是需要的

如果你要的不是去重的,那么在做一级规则的时候不要勾选下级线索,在二级规则将一级采集到的网址以线索的形式添加,这样网址就是没有经过去重的。
举报 使用道具
12#
wevolution 高级会员 发表于 2017-3-24 15:39:38 | 只看该作者
66666
举报 使用道具
13#
wevolution 高级会员 发表于 2017-3-24 15:58:45 | 只看该作者
那我一级的时候采集到的线索很多,我一条一条加大二级上去,非得累死
举报 使用道具
14#
Fuller 管理员 发表于 2017-3-24 19:43:52 | 只看该作者
wevolution 发表于 2017-3-24 15:58
那我一级的时候采集到的线索很多,我一条一条加大二级上去,非得累死

不需要一个个添加,进入会员中心,找到这个规则,有添加线索按钮,把所有网址一行行放在一列,存入excel,把这个excel导入就行了。一次不要超过一万条。具体参看《如何管理规则的线索

举报 使用道具
15#
wevolution 高级会员 发表于 2017-3-26 09:30:15 | 只看该作者
好的
举报 使用道具
16#
Huilin 初级会员 发表于 2018-3-15 01:42:55 | 只看该作者
Fuller 发表于 2017-3-24 19:43
不需要一个个添加,进入会员中心,找到这个规则,有添加线索按钮,把所有网址一行行放在一列,存入excel ...

我也遇到了一样的问题,上一级显示有1900+个条目,应产生相应个数下级线索,但是下一级规则只生成1669. 如果要后期手动添加回被查重筛除的线索,请问有什么办法可以检测其中哪些是被查重筛除的吗?
举报 使用道具
17#
Fuller 管理员 发表于 2018-3-15 09:06:53 | 只看该作者
Huilin 发表于 2018-3-15 01:42
我也遇到了一样的问题,上一级显示有1900+个条目,应产生相应个数下级线索,但是下一级规则只生成1669.  ...

用excel查重很方便的

选中那一列,用菜单 开始-》条件格式-》突出显示单元格规则-》重复值

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置
  • 为集搜客分词和情感分析扩展模块安装情感分

热门用户

GMT+8, 2026-3-15 05:31