集搜客GooSeeker网络爬虫

标题: 多次点击后的网址抓取 [打印本页]

作者: DuoRuaiMi    时间: 2018-7-30 17:10
标题: 多次点击后的网址抓取
这个页面里点击多次最后抓取发起人介绍网址(即最后一张图所在的网址)如何进行
[attach]9810[/attach]
[attach]9811[/attach]
[attach]9812[/attach]
[attach]9813[/attach]

作者: Fuller    时间: 2018-7-30 19:51
因为连续动作是一口气做完一件事的,有两大缺点:1,如果动作太多,万一中间某个出问题,比如,一时没有显示出来,后面的动作就被跳过了
2,要一口气做完,所以,只能在一个DS打数机窗口中执行,无法多窗口并行执行

那么,在分析跳转关系的时候,要观察中间步骤会不会有独立的网址,如果有,就从那个位置断开,变成层级采集

你的第二个截图,那个View Past Campaigns对应一个独立网址,在这里可以定义个层级采集。到Profile又是一个独立网址,又可以用层级采集

作者: DuoRuaiMi    时间: 2018-7-30 20:24
Fuller 发表于 2018-7-30 19:51
因为连续动作是一口气做完一件事的,有两大缺点:1,如果动作太多,万一中间某个出问题,比如,一时没有显 ...

动作太多会导致连续动作执行不能完成吗
[attach]9814[/attach]
基本信息表1是一级规则,其他两个是连续动作下的二级规则,执行没有报错,但是只能得到点击的结果,悬浮没有执行是为什么


作者: Fuller    时间: 2018-7-30 22:44
DuoRuaiMi 发表于 2018-7-30 20:24
动作太多会导致连续动作执行不能完成吗

基本信息表1是一级规则,其他两个是连续动作下的二级规则,执行 ...

点击了以后,就会出现一个浮窗,你不关闭它,就无法做悬浮动作,悬浮目标节点都被盖住了。

这个网页很特殊,即使不弹出那个浮窗,浮窗上的内容也能采集,所以,你的第一个步,那个点击动作可以不用。只要悬浮动作就行了。

这个网页很特殊,如果是个普通网页的话,只有做了动作以后,浮窗中的内容才能采集,那么你不能把采集内容都放在第一级,浮窗中的内容要做了动作以后才能采集。因为这个网页很特殊,你倒是不用考虑这点了

作者: DuoRuaiMi    时间: 2018-8-1 13:03
Fuller 发表于 2018-7-30 22:44
点击了以后,就会出现一个浮窗,你不关闭它,就无法做悬浮动作,悬浮目标节点都被盖住了。

这个网页很特 ...

你的意思是不用设置点击动作,直接在一级规则上就能抓取点击后弹窗出现的内容吗

作者: Fuller    时间: 2018-8-1 14:48
DuoRuaiMi 发表于 2018-8-1 13:03
你的意思是不用设置点击动作,直接在一级规则上就能抓取点击后弹窗出现的内容吗
...

实验了一下,不用点击动作就可以

作者: DuoRuaiMi    时间: 2018-8-3 10:26
Fuller 发表于 2018-8-1 14:48
实验了一下,不用点击动作就可以

我怎么行不通呢,不用点击动作怎么抓取到点击后弹出框的内容呢,点击more之后网页结构就变了啊

作者: Fuller    时间: 2018-8-3 10:55
DuoRuaiMi 发表于 2018-8-3 10:26
我怎么行不通呢,不用点击动作怎么抓取到点击后弹出框的内容呢,点击more之后网页结构就变了啊
...

我试了你的样本页面,感觉是可以抓取的。如果不行的话,要在点击出浮窗以后再加一个关闭浮窗的动作,才能去执行悬停动作

作者: DuoRuaiMi    时间: 2018-8-3 11:09
Fuller 发表于 2018-8-3 10:55
我试了你的样本页面,感觉是可以抓取的。如果不行的话,要在点击出浮窗以后再加一个关闭浮窗的动作,才能 ...

好的,谢谢






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2