想要抓取的数据太多没有好的思路请楼主指点

加为好友

本帖最后由 13019480013 于 2016-9-30 18:53 编辑

主题名：淘宝销量
线索： https://s.taobao.com/search?spm= ... 9f68&sort=sale-desc

同样的页面我有两种需求

第一，我有9000条线索要抓取销量，因为页面是销量排序，所以我要抓取100页里面销量只有5个销量的宝贝是在第几页（抓取指定销量的函数已经学会），如何让软抓取到数据之后，自动进入下一个线索，而不是无脑的反到100页之后再进入下一个线索

第二，我有9000条线索要抓取价格，我只需要抓取前5页所有宝贝价格当中最低价格和最高价格，但是不想要生成5页的数据，在手动的去除，而是一条线索出一个最高价格和最低价格一个XML就可以了

就是说尽量一条数据生成一个XML

Fuller · 发表于 2016-9-30 23:23:02

抓取过程最大的成本是向目标网站发请求，对于第二个需求，无论是在抓取的过程中找到最低和最高，还是在抓取以后整理结果文件的时候找出他们，抓取的数量是一样的，所以成本是一样的。总之，还是想办法把抓取结果导入excel进行排序吧。

第一个需求是翻页过程吗？如果是翻页，那就用连续动作的点击动作，也能翻页，而且可以设定条件

如果要翻100页，那么重复次数填100，最重要的合用表达式，这个XPath表达式的结果应该是个布尔类型，当这个结果是true的时候，那么继续翻页。所以，你编写XPath的时候，表达出来“销量>=5”的时候结果为true，一旦遇到4或者更小数字，就终止了

想要抓取的数据太多没有好的思路请楼主指点

共 1 个关于本帖的回复最后回复于 2016-9-30 23:23

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

想要抓取的数据太多没有好的思路请楼主指点

共 1 个关于本帖的回复 最后回复于 2016-9-30 23:23

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2016-9-30 23:23