如题
举报 使用道具
| 回复

共 18 个关于本帖的回复 最后回复于 2016-9-19 15:25

沙发
酱紫 中级会员 发表于 2016-9-19 14:37:23 | 只看该作者
一起抓的话是自动排重的
举报 使用道具
板凳
TonyJiang 高级会员 发表于 2016-9-19 14:39:02 | 只看该作者
酱紫 发表于 2016-9-19 14:37
一起抓的话是自动排重的


就是这两个关键词搜索出来的产品有很多重复的,怎么排重


举报 使用道具
地板
quyixuan 金牌会员 发表于 2016-9-19 14:39:41 | 只看该作者
TonyJiang 发表于 2016-9-19 14:39
就是这两个关键词搜索出来的产品有很多重复的,怎么排重

对结果排重就可以了
为啥要对线索排重?
举报 使用道具
5#
TonyJiang 高级会员 发表于 2016-9-19 14:40:27 | 只看该作者
quyixuan 发表于 2016-9-19 14:39
对结果排重就可以了
为啥要对线索排重?

我是一个关键词一个线索然后抓取网址
对线索排重可以不用抓那么多线索,节约时间啊
举报 使用道具
6#
TonyJiang 高级会员 发表于 2016-9-19 14:41:10 | 只看该作者
假如10000条网址中有4000条重复,要是能对线索排重只要抓取6000次就ok
举报 使用道具
7#
quyixuan 金牌会员 发表于 2016-9-19 14:41:41 | 只看该作者
TonyJiang 发表于 2016-9-19 14:41
假如10000条网址中有4000条重复,要是能对线索排重只要抓取6000次就ok

线索如果是你自己贴进去的话,你会发现实际线索没有你贴进去的多
系统自动给你排重了
举报 使用道具
8#
TonyJiang 高级会员 发表于 2016-9-19 14:42:14 | 只看该作者
quyixuan 发表于 2016-9-19 14:41
线索如果是你自己贴进去的话,你会发现实际线索没有你贴进去的多
系统自动给你排重了 ...

应该没有
举报 使用道具
9#
TonyJiang 高级会员 发表于 2016-9-19 14:43:09 | 只看该作者
quyixuan 发表于 2016-9-19 14:41
线索如果是你自己贴进去的话,你会发现实际线索没有你贴进去的多
系统自动给你排重了 ...


这俩个线索就是那两个关键词的网址


举报 使用道具
10#
TonyJiang 高级会员 发表于 2016-9-19 14:43:25 | 只看该作者
好像是排重了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 05:51