简单描述一下吧,就是打开一个页面,里面有很多按钮,需要依次循环点击,每个按钮点了会在同页面显示出很多超链接,然后需要依次循环点击每个超链接,超链接是打开新页面的,采集的内容也在里面,这样一套要怎么操作?我现在是一级规则采集超链接,作为下级线索,然后二级规则采集超链接里的内容,那么前面循环点击按钮要用什么,是再新建一个更顶层的规则作连续动作嘛
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2020-7-14 17:39

Fuller 管理员 发表于 2020-7-14 11:10:49 | 显示全部楼层
如果每个超链接都是一个A元素,还有href属性,里面有静态的网址,那么就用层级采集,不要用连续点击,因为连续点击要一口气执行完,很容易失败,而且也没法多个爬虫同时运行。层级采集的教程在这里:https://www.gooseeker.com/doc/article-343-1.html
层数不限。

如果没有静态网址,那只有做连续点击了,连续点击的教程:https://www.gooseeker.com/doc/article-288-1.html
连续点击有很多限制,如果点击以后显示的网页内容替换了当前窗口的内容,那么点击完新网页内容以后还要执行一个回退动作;如果点击以后显示的网页内容是在一个新窗口中,那么要使用飞掠模式。回退和飞掠都是旗舰版的功能
举报 使用道具
azurecrow 初级会员 发表于 2020-7-14 16:53:46 | 显示全部楼层
Fuller 发表于 2020-7-14 11:10
如果每个超链接都是一个A元素,还有href属性,里面有静态的网址,那么就用层级采集,不要用连续点击,因为 ...

一开始点按钮的时候,都是在同一个地址窗口显示多个超链接,然后每个超链接都是A+href属性的新地址窗口,采集超链接作下级线索进行采集的这部分我了解了,就是一开始循环点击按钮的操作要怎么执行?
举报 使用道具
wangyong 版主 发表于 2020-7-14 17:15:52 | 显示全部楼层
azurecrow 发表于 2020-7-14 16:53
一开始点按钮的时候,都是在同一个地址窗口显示多个超链接,然后每个超链接都是A+href属性的新地址窗口, ...

是要用连续动作点击,编写xpath定位到每个需要展开的点,设置连续动作后爬虫采集的时候会自动点击,可以把网址或者网页截图发一下
举报 使用道具
azurecrow 初级会员 发表于 2020-7-14 17:25:11 | 显示全部楼层
wangyong 发表于 2020-7-14 17:15
是要用连续动作点击,编写xpath定位到每个需要展开的点,设置连续动作后爬虫采集的时候会自动点击,可以 ...

连续动作和层级采集,这两个单独的我都会了,但是要把这两个合并起来,效果流程其实不难理解:点按钮1——点超链接1.1——采集新页面1.1——点超链接1.2——采集新页面1.2……——点按钮2——点超链接2.1——采集新页面2.1——点超链接2.2——采集新页面2.2……
举报 使用道具
wangyong 版主 发表于 2020-7-14 17:39:28 | 显示全部楼层
不是,采集新页面是在完全运行完连续动作后才进行,先进行连续动作采集到超级链接,设置下级线索后,超链接会给下级规则生成线索,再单独运行下级线索
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 10:09