QQ截图20160722174905.jpg
如图所示,筛选不同的地铁站,网址不一样。我针对一个特定的地铁站,在这个网页上建立了一个规则。它可以采集筛选后的内容。
但是我要采集所有地铁站上的信息。如果做模拟点击的话,也只能是点击一次。总不能在模拟点击上做样例复制啊。我现在只能是把规则中的网址改掉,再爬一遍。这样做,感觉好麻烦啊。还有别的高效的方法吗?
举报 使用道具
| 回复

共 17 个关于本帖的回复 最后回复于 2016-7-27 17:13

Fuller 管理员 发表于 2016-7-22 18:59:56 | 显示全部楼层
用连续动作,一组连续动作中可以定义多个动作,比如上例,一组连续动作中可以有两个点击动作:
1,第一个点击动作是挨个点击线路
2,第二个点击动作是挨个点击站名
这样就形成了一个嵌套循环,具体参看连续动作教程:http://www.gooseeker.com/doc/article-141-1.html
举报 使用道具
759924607 高级会员 发表于 2016-7-26 11:44:15 | 显示全部楼层
Fuller 发表于 2016-7-22 18:59
用连续动作,一组连续动作中可以定义多个动作,比如上例,一组连续动作中可以有两个点击动作:
1,第一个点 ...

教程内容跳跃性略强,只有自己琢磨着弄了。
QQ截图20160726112052.jpg QQ截图20160726113927.jpg
这是我做的点击动作,显然不只需要这一个站的信息,还要采集剩下的站。
1、连续动作中没有样例复制功能,我如何实现它点击完这个站,下一次点击下一个站?
2、定位表达式中,将站台全都包括进去。定位表达式写出//*[@class='shquan']/span[position()>=1] 这个就可以了吧?全部定位到,就会挨个点击所有站台信息?
3、 QQ截图20160726113545.jpg 我做这个的规则进行采集,是否就是图中所示的循环结构?只要连续动作点击一次,就会转入到下一主题。
举报 使用道具
759924607 高级会员 发表于 2016-7-26 11:47:25 | 显示全部楼层
Fuller 发表于 2016-7-22 18:59
用连续动作,一组连续动作中可以定义多个动作,比如上例,一组连续动作中可以有两个点击动作:
1,第一个点 ...

再补充一条,做连续动作的规则,是不是可以不用做任何内容映射?只在连续动作中设定动作?
举报 使用道具
Fuller 管理员 发表于 2016-7-26 16:20:35 | 显示全部楼层
759924607 发表于 2016-7-26 11:44
教程内容跳跃性略强,只有自己琢磨着弄了。

这是我做的点击动作,显然不只需要这一个站的信息,还要采集 ...

1,要点击多个站,那么xpath就不是你写的 xxx/span[position()=1],而是xxx/span ,这样就不限定一个,输入这个xpath,点击右边的“搜索按钮”,看看是否搜索到所有站。DS打数机运行的时候,他会把搜索到的节点排好,挨个点击
2,你用position()>=1应该也可以,或者根本不写position这个条件
3,你列的3级主题不对,他们应该属于同一级,而是一组动作中的3个步骤,也就是在“连续动作”工作台上创建三个步骤,他们就构成了嵌套循环。在“连续动作”工作台上需要命名下一级主题名,这个网页可以不用下一级,也就是说用相同的主题名,也可以用个不同的下一级主题名。我们推荐使用不同的下一级。那么下一级就是抓取搜索到的房子信息列表,可能在下一级还要定义翻页抓取。三个步骤都做一遍,就进入到下一级
举报 使用道具
Fuller 管理员 发表于 2016-7-26 16:21:55 | 显示全部楼层
759924607 发表于 2016-7-26 11:47
再补充一条,做连续动作的规则,是不是可以不用做任何内容映射?只在连续动作中设定动作? ...

最好还是做一个内容映射,这个会作为判断标志,判断抓取规则是否适合。如果不做,总是认为是规则适合的,万一网站改版了,他也不知道
举报 使用道具
759924607 高级会员 发表于 2016-7-26 17:39:36 | 显示全部楼层
Fuller 发表于 2016-7-26 16:21
最好还是做一个内容映射,这个会作为判断标志,判断抓取规则是否适合。如果不做,总是认为是规则适合的, ...

终于等到fuller大神的回复了!感谢感谢!
举报 使用道具
759924607 高级会员 发表于 2016-7-27 11:25:52 | 显示全部楼层
Fuller 发表于 2016-7-26 16:21
最好还是做一个内容映射,这个会作为判断标志,判断抓取规则是否适合。如果不做,总是认为是规则适合的, ...

Fuller大神 现在遇到一个问题。
1.jpg 2.jpg 3.jpg
如上图所示:在一个主题下做了三个动作。步骤一:点击线路。步骤二:点击线路下的地铁站。步骤三:点击租金区间。
爬了一次数据,只能采到第一个线路下的第一个地铁站,各个租金区间的数据。如下图:
filehelper_1469589798069_1.png
也就是步骤1跟步骤2 没有进行循环。这是啥原因?
举报 使用道具
HJLing 版主 发表于 2016-7-27 12:06:47 | 显示全部楼层
759924607 发表于 2016-7-27 11:25
Fuller大神 现在遇到一个问题。

如上图所示:在一个主题下做了三个动作。步骤一:点击线路。步骤二:点 ...

1.你的步骤2写的Xpath不对 你那样写并不能点击到具体的站点 需要写到站点对应的a节点
2.你的下级规则 给翻页那里建立了一个关键内容 这是不需要的 因为有些筛选条件过后出来的房源只有一页 没有翻页标志就会报错
举报 使用道具
759924607 高级会员 发表于 2016-7-27 15:15:48 | 显示全部楼层
HJLing 发表于 2016-7-27 12:06
1.你的步骤2写的Xpath不对 你那样写并不能点击到具体的站点 需要写到站点对应的a节点
2.你的下级规则 给 ...

44332211.jpg
爬数据显示步骤2跟步骤3出错了。肯定还是Xpath定位表达式的问题。
1、先说下我是如何写Xpath表达式的,如下图所示。
555555555555555.jpg
这一次选择,自动显示出来的Xpath表达式变成。//*[@class='none']。但是我上一次选择,表达式明明是//*[@class='search-term-list']/li[position()=1]/a[position()=2]。不知道是啥原因。
2、这是步骤2的Xpath表达式。在搜索结果验证,23个节点,正好也是23个地铁站。应该是没错的啊。
66666666666666666666.jpg 777777777777777777.jpg
3、这是步骤2的Xpath表达式。在搜索结果验证,6个节点,正好也是6个租金区间。这应该是没错的啊。
88888888888888888.jpg 000000000000000.jpg



举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 20:00