这是一个典型javascript 嵌套的目录页加列表页。但没有类似的视频,自己弄了3天了,解决不了,所以求救。

网页地址:http://www.valueonline.cn/laws/laws.html


规则第一层(左侧目录)ID: 法律法规20181212
规则第二层(右侧列表页及翻页)ID:法律法规20181211-2

问题是:定位错误。    左侧目录我不想从“全部”按钮开始,我想从“首发上市”开始。 可是每次搜索结果都是全部的列表。不知错规则一错在哪里, 点击无法准确定位第二层)


我采用了连续点击的教授的方法。可能是我没有吃透。一个是规则一的列表设的不对,第二是不是我的连续点击的XPATH 有问题。

另外是不是这样的情况下,左侧目录页还要样例复制?

请大佬帮忙。

规则

规则

连续动作

连续动作
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-12-14 15:10

Fuller 管理员 发表于 2018-12-13 12:24:00 | 显示全部楼层
你的第一级规则的目的是为了点击“首发上市”吧?那么在连续动作工作台上就应该写一个xpath,能点击到这个“首发上市”。这个首发上市按钮对应了DOM上一个A节点,可以用显示XPath按钮产生XPath。如图 显示xpath20181213122212.png
我选择了“显示XPath:只用id”,因为上图红框里面那个id是唯一的,所以一定会定位到“首发上市”。把这个xpath拷贝到连续动作控制台的定位表达式编辑框中。第一级规则就做好了
举报 使用道具
Fuller 管理员 发表于 2018-12-13 12:31:40 | 显示全部楼层
你的第二级规则,创建规则工作台上,给整理箱最顶级的容器节点设置了高级设置,这样就无法一条条抓取了。如下图:
容器20181213122647.png

“业务类型”含有抓取内容,算作一个容器节点,不能设置高级内容。这里允许设置,是集搜客软件使用体验方面的bug,后面版本会改掉
把“高级设置”清除掉就好了。

翻页的问题如下图
主题名20181213123040.png

目标主题名一定要跟当前主题名一样。连续点击一下“连续翻页”,就能自动填上
举报 使用道具
czj19961023 实习版主 发表于 2018-12-13 12:45:30 | 显示全部楼层
本帖最后由 czj19961023 于 2018-12-13 12:48 编辑

这个网址不用采了,采不下来只能先做点击动作 QQ截图20181213114455.png


举报 使用道具
mryj2000 新手上路 发表于 2018-12-14 00:14:08 | 显示全部楼层
Fuller 发表于 2018-12-13 12:31
你的第二级规则,创建规则工作台上,给整理箱最顶级的容器节点设置了高级设置,这样就无法一条条抓取了。如 ...

感谢。已经解决我两个窗口的不能联动的问题了。

有没有办法让规则一进行串联,进行左侧栏目合并采集呢?

如果我把 “连续采集”当中的步骤1 定位表达式XPATH对应 “首发上市”右侧翻页采集, 新加一个步骤 2 定位表达式XPATH对应“信息披露和停复牌”的右侧翻页采集。有没有可能呢?

会不会步骤1翻页采集完成后,结束就停止了。不走步骤2了?
举报 使用道具
Fuller 管理员 发表于 2018-12-14 15:10:33 | 显示全部楼层
mryj2000 发表于 2018-12-14 00:14
感谢。已经解决我两个窗口的不能联动的问题了。

有没有办法让规则一进行串联,进行左侧栏目合并采集呢 ...

信息披露和停复牌 和 首发上市 在同一级,这个不能创建第二个动作,而是第一个动作的xpath要修改一下,让这个xpath能够定位到两个节点。这样就能实现你的需求。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 17:47