11#
scraper 论坛元老 发表于 2016-9-19 14:47:04 | 只看该作者
线索一样的就会去重
你的关键词不一样 所以网址不同 是两条线索 不会去重
你有做下级线索吗?
如果你是想要继续采集商品详细页面的话 会去重的的 相同商品的网址只会生成一次线索
举报 使用道具
12#
TonyJiang 高级会员 发表于 2016-9-19 14:48:04 | 只看该作者
scraper 发表于 2016-9-19 14:47
线索一样的就会去重
你的关键词不一样 所以网址不同 是两条线索 不会去重
你有做下级线索吗?

搜索的关键词虽然一样,但是关键词搜到的产品可能是一样的,链接也是一样的。这样不会去重么?
举报 使用道具
13#
quyixuan 金牌会员 发表于 2016-9-19 14:48:38 | 只看该作者
TonyJiang 发表于 2016-9-19 14:48
搜索的关键词虽然一样,但是关键词搜到的产品可能是一样的,链接也是一样的。这样不会去重么?
...

作为采集结果是会重复出现的 需要你自己去重
但是作为下级线索 程序会自动去重
举报 使用道具
14#
TonyJiang 高级会员 发表于 2016-9-19 14:51:03 | 只看该作者
scraper 发表于 2016-9-19 14:47
线索一样的就会去重
你的关键词不一样 所以网址不同 是两条线索 不会去重
你有做下级线索吗?


这个主题规则帮我看一下怎样才能使得那些线索抓到的网址自动排重?
谢谢啦


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
15#
quyixuan 金牌会员 发表于 2016-9-19 14:54:45 | 只看该作者
TonyJiang 发表于 2016-9-19 14:51
这个主题规则帮我看一下怎样才能使得那些线索抓到的网址自动排重?
谢谢啦

这样解释吧
你的第一级规则是网址抓取 第二级是数据抓取
第一级规则有两个网址(括号为商品链接)
www.1.com(1,2,3,4,5)
www.2.com(2,3,4,5,6)
这样第二级规则的链接只会有(1,2,3,4,5,6)
程序自动去重的
举报 使用道具
16#
TonyJiang 高级会员 发表于 2016-9-19 14:56:31 | 只看该作者
quyixuan 发表于 2016-9-19 14:54
这样解释吧
你的第一级规则是网址抓取 第二级是数据抓取
第一级规则有两个网址(括号为商品链接)

也就是说我那个主题抓取的网址放到另一个主题里系统会根据网址的异同自动排重的吧?
举报 使用道具
17#
quyixuan 金牌会员 发表于 2016-9-19 14:56:41 | 只看该作者
TonyJiang 发表于 2016-9-19 14:56
也就是说我那个主题抓取的网址放到另一个主题里系统会根据网址的异同自动排重的吧? ...

是的
举报 使用道具
18#
TonyJiang 高级会员 发表于 2016-9-19 15:25:27 | 只看该作者

那会不会有一种页面:网址相同,但加载出来的页面(产品不一样)?
举报 使用道具
19#
quyixuan 金牌会员 发表于 2016-9-19 15:25:37 | 只看该作者
TonyJiang 发表于 2016-9-19 15:25
那会不会有一种页面:网址相同,但加载出来的页面(产品不一样)?

不会
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-8 06:55