本帖最后由 13019480013 于 2016-9-30 18:53 编辑

主题名:淘宝销量
线   索: https://s.taobao.com/search?spm= ... 9f68&sort=sale-desc

同样的页面我有两种需求

第一,我有9000条线索要抓取销量,因为页面是销量排序,所以我要抓取100页里面销量只有5个销量的宝贝是在第几页(抓取指定销量的函数已经学会),如何让软抓取到数据之后,自动进入下一个线索,而不是无脑的反到100页之后再进入下一个线索

第二,我有9000条线索要抓取价格,我只需要抓取前5页所有宝贝价格当中最低价格和最高价格,但是不想要生成5页的数据,在手动的去除,而是一条线索出一个最高价格和最低价格一个XML就可以了

就是说尽量一条数据生成一个XML




举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-9-30 23:23

沙发
Fuller 管理员 发表于 2016-9-30 23:23:02 | 只看该作者
抓取过程最大的成本是向目标网站发请求,对于第二个需求,无论是在抓取的过程中找到最低和最高,还是在抓取以后整理结果文件的时候找出他们,抓取的数量是一样的,所以成本是一样的。总之,还是想办法把抓取结果导入excel进行排序吧。

第一个需求是翻页过程吗?如果是翻页,那就用连续动作的点击动作,也能翻页,而且可以设定条件
如果要翻100页,那么重复次数填100,最重要的合用表达式,这个XPath表达式的结果应该是个布尔类型,当这个结果是true的时候,那么继续翻页。所以,你编写XPath的时候,表达出来“销量>=5”的时候结果为true,一旦遇到4或者更小数字,就终止了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 05:27