集搜客GooSeeker网络爬虫

标题: 使用记号线索翻页采集完成后如何跳转回首页 [打印本页]

作者: zhanyi101    时间: 2016-7-28 08:22
标题: 使用记号线索翻页采集完成后如何跳转回首页
采集网址在  http://ddx.gubit.cn/sh.php[attach]1184[/attach]
需要采集不同日期下面的所有股票的数据

我建立了一个三级规则
第一级选择“历史数据”的日期
第二级使用记号线索进行翻页采集
第三级通过点击上一页和首页按钮跳转回第一页
然后重新选择日期,再一次开始采集,直到所有日期的历史数据全部采集完成

问题:
因为使用的是记号线索,不知道如何将第二级和第三级规则联系起来
造成的问题是第一个日期全部数据采集完成之后页数没有跳转(一直都是指向最后一页)
然后日期开始跳转(第二个日期开始全部都是采集的最后一页的数据)

麻烦各位boss帮我看看,如何解决这个问题啊。。。。。


作者: Fuller    时间: 2016-7-28 09:14
不需要第三级,第二级翻页到最后,能不能自动停止翻页,如果能,这是正常的,让他停止好了,自然会回到第一级继续做动作选择日期
作者: zhanyi101    时间: 2016-7-28 12:20
这样不行
第一天的数据采完之后
页数停留在了最后一页
如果不能跳转回第一页的话
当下一轮开始采集的时候(重新选择日期之后)
数据总是只采集最后一页的数据

我不知道有没有其他的方法能够使页数重新回到第一页上面
或者就如您上一个问题里面说的那样,在下一版软件里面提供一个允许删除的功能

作者: Fuller    时间: 2016-7-28 12:30
zhanyi101 发表于 2016-7-28 12:20
这样不行
第一天的数据采完之后
页数停留在了最后一页

那就需要加个第三级,这一级专门点击首页按钮,目标主题名再次指回第一级。

这样应该可以,但是,要注意这样形成的环形的主题关系,采集过程中可能会造成内存过度消耗,换回10几次应该没有问题,换回多了可能会有问题。你先试试吧,如果有问题反馈给我们
作者: zhanyi101    时间: 2016-7-28 14:27
但是现在问题卡在了第二级如何转到第三级规则上面
第二级循环采集完成之后,网页结构与页面指向第一页时已经发生了变化
作者: Fuller    时间: 2016-7-28 14:57
那就这样:
1,不要第三级,而是把第三级的点击首页的动作放在第一级的选择日期动作之后,那么第一级的动作是先选日期,然后点击首页,则进入第二级
2,第二级翻页抓取
作者: zhanyi101    时间: 2016-7-28 17:43
可能我问题描述的不够清楚
我再详细地把这个网页的状况描述一遍
首先输入网址(http://ddx.gubit.cn/sh.php)之后
开始采集时,网页显示如下
[attach]1186[/attach]

当采集进行中时,网页显示如下
[attach]1187[/attach]

当采集到最后一页时,网页显示如下
[attach]1188[/attach]

因为三种状态下网页结构都发生了变化,有些按钮有,有些按钮又没有了
所以不大好在规则里面抓取元素
而且还有一个地方是变化的,就是每天的网页页数也是不一致的,有多有少

所以当第二级规则进行翻页采集到最大页数后,如何把页数跳转回第一页,我实在找不到好的方法,麻烦boss帮我想想怎么弄吧,万分感谢!!

作者: HJLing    时间: 2016-7-28 18:05
接下来的版本连续动作有个“双击”的动作类型 双击之后再输入1 点击跳转 就可以回到第一页的 这样就可以保证选择完日期回到首页
作者: zhanyi101    时间: 2016-7-28 18:10
哦   那太好了,实在是太好了!!
万分感谢!!
作者: Fuller    时间: 2016-7-28 18:30
zhanyi101 发表于 2016-7-28 18:10
哦   那太好了,实在是太好了!!
万分感谢!!

三个截图看的我有点糊涂,在图2的时候还有第一页按钮,到图3就没有了?

如果有这个按钮,就比较容易做了。在第一级规则里面,连续动作定义两个大步骤
1,点击第一页按钮,如果没有这个按钮,而是有页码1,那么xpath写的时候可以兼顾多种情况
2,点击日期,这个步骤可能是多个,根据情况定义
最重要的是多一个第一步。

当运行完第二级后,会回到第一级,从第一步开始,就会进入第一页
作者: zhanyi101    时间: 2016-7-28 18:38
就是因为采到最后一页,原来有的“第一页”按钮没有了,只剩下“前一页”按钮了,所以规则就很不好定义了,然后我就卡在那里做不下去了。

所以最后很可能只能像HJLing说的那样在你们新版本里面使用双击功能才能解决现在的问题。




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2