本帖最后由 hazardous 于 2020-12-23 17:38 编辑

任务名:task5615448656465

网页:http://113.57.190.228:8001/web/Report/BigMSKReport#

我需要的是每次修改时间框里的时间,然后点击搜索按钮,更新下面的值,然后爬取。

我已经创建好规则和连续路线了。但是感觉点击”查询“按钮这个动作并没有真正实现,每次点击查询按钮后,获取到的数据还是第一次打开页面的数据?
然后就因为重复内容3次被终止爬取了。

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-12-24 09:39

wangyong 版主 发表于 2020-12-23 17:56:35 | 显示全部楼层
本帖最后由 wangyong 于 2020-12-23 18:49 编辑

连续动作的规则最基本的是要做两级规则,第一级做点击,第二级做抓取
https://www.gooseeker.com/doc/article-375-1.html
https://www.gooseeker.com/doc/article-288-1.html
你先按照这两篇教程把基本的框架搭好,规划每天动作步骤是否点击成功
举报 使用道具
hazardous 新手上路 发表于 2020-12-23 18:27:58 | 显示全部楼层
本帖最后由 hazardous 于 2020-12-23 18:42 编辑
wangyong 发表于 2020-12-23 17:56
连续动作的规则最基本的是要做两级规则,第一级做点击,第二级做抓取
https://www.gooseeker.com/doc/artic ...

您这放的两个链接是同一个。
QQ截图20201223182348.png
这是我设置的连续动作。

连续动作完后,能看到程序重新开始按照爬虫规则爬取。但是网页上的数据没有变化,怀疑是点击”查询“按钮没有获取到数据。因为正常网页上点击”查询“按钮都需要5秒左右的,软件里显示2秒就”查询“完了,不太对劲。

需要爬虫路线和连续动作配合么?
举报 使用道具
wangyong 版主 发表于 2020-12-23 18:58:51 | 显示全部楼层
教程更新了,你先把上面的两篇教程看完,高级设置里是可以设置延迟,可以设置5秒或者更多

//*[@id='a_search']
然后xpath不用写到text只写到区块节点就行,你现在规则里有写到text的了
举报 使用道具
hazardous 新手上路 发表于 2020-12-23 19:55:21 | 显示全部楼层
本帖最后由 hazardous 于 2020-12-23 19:59 编辑
wangyong 发表于 2020-12-23 18:58
教程更新了,你先把上面的两篇教程看完,高级设置里是可以设置延迟,可以设置5秒或者更多

//*[@id='a_sear ...
1.然后xpath不用写到text只写到区块节点就行,你现在规则里有写到text的了

我那里没有到text啊?这个id是按钮的

2.我感觉现在就是连续动作第二步,点击查询按钮那里,没有真正查到新数据下来更新页面。这个跟八爪鱼那个软件也是一样的问题。我觉得我连续动作那里设置的没问题的,要不您试一下看看?

跟高级设置里的延迟没有关系。这个延迟我理解是执行动作前的延迟,跟这个动作(查询新数据)有没有执行成功没有关系。
举报 使用道具
Fuller 管理员 发表于 2020-12-23 23:07:25 | 显示全部楼层
hazardous 发表于 2020-12-23 19:55
1.然后xpath不用写到text只写到区块节点就行,你现在规则里有写到text的了

我那里没有到text啊?这个id是 ...

我测试了一下,确实像你说的,点击以后也不变,明天我安排开发人员检查一下这个网页有什么特别的地方
举报 使用道具
hazardous 新手上路 发表于 2020-12-24 09:39:01 | 显示全部楼层
Fuller 发表于 2020-12-23 23:07
我测试了一下,确实像你说的,点击以后也不变,明天我安排开发人员检查一下这个网页有什么特别的地方
...

好的,非常感谢!期待能找到解决方法~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:48