Hi, 各位大佬好,

目前正在做Amazon中国站的商品信息爬取,但是现在想只爬非自营,非海外购的商品的信息,

我现在是分别从每个类目进入,在商品列表页爬商品详情页的URL作为下级线索,但是苦于没有办法筛选出只有非自营和非海外购的商品的URL作为下级线索,这个怎么破呀?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-1-5 17:41

沙发
petergao0528 初级会员 发表于 2018-1-5 10:12:16 | 只看该作者
因为是用集群爬取,所以不想先商品URL,然后再筛选哈,有什么办法直接筛掉不要的嘛
举报 使用道具
板凳
wangyong 版主 发表于 2018-1-5 10:34:42 | 只看该作者
最简单的方法是在规则里不勾下级线索,先把网址和非自营抓下来到Excel里筛选手工添加线索
添加线索教程:《手工添加线索》
举报 使用道具
地板
petergao0528 初级会员 发表于 2018-1-5 17:14:25 | 只看该作者
那这样就利用不了自动调度 爬虫集群了
举报 使用道具
5#
bowieD 金牌会员 发表于 2018-1-5 17:41:03 | 只看该作者
本帖最后由 bowieD 于 2018-1-5 17:42 编辑
petergao0528 发表于 2018-1-5 17:14
那这样就利用不了自动调度 爬虫集群了

也可以全部采集下来,采集的时候采集能区分商品信息的标志,在excel中对结果做筛选,筛选出想要的数据。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-12 03:47