集搜客GooSeeker网络爬虫

标题: 两个规则之间衔接不上 [打印本页]

作者: 18443172656    时间: 2021-4-15 22:31
标题: 两个规则之间衔接不上
自从购买旗舰版后,原来制定的规则衔接不上了,一共三个规则,总是在第二级规则后结束。
规则名:esm采集2、esm采集2-1、esm采集3
而且我运行其他规则时,有时也会还未运行规则直接结束

作者: maomao    时间: 2021-4-15 23:20
开了几个电脑?
作者: 18443172656    时间: 2021-4-16 08:01
就一台啊,刚才又测试了一次,编辑好的输入动作直接跳过了
作者: 18443172656    时间: 2021-4-16 08:02
maomao 发表于 2021-4-15 23:20
开了几个电脑?

就一台啊,刚才又运行一次,规则里的输入动作又给忽略了
作者: 18443172656    时间: 2021-4-16 08:03
本帖最后由 18443172656 于 2021-4-16 08:28 编辑
maomao 发表于 2021-4-15 23:20
开了几个电脑?



作者: 18443172656    时间: 2021-4-16 08:13
maomao 发表于 2021-4-15 23:20
开了几个电脑?

一台
作者: Fuller    时间: 2021-4-16 10:11
18443172656 发表于 2021-4-16 08:13
一台

我测试了你的规则,动作执行的都挺好,就是最后一级,显示内容太慢了,有时候会抓取超时。

你用的爬虫版本是哪一个?要及时升级版本。我用的是最新的10.6.1,如果不够新,可以重新下载和安装一下

作者: 18443172656    时间: 2021-4-16 10:45
Fuller 发表于 2021-4-16 10:11
我测试了你的规则,动作执行的都挺好,就是最后一级,显示内容太慢了,有时候会抓取超时。

你用的爬虫版 ...

最新版的,但是在我这运行就总出问题,我上传了一下视频,第二个规则的输入动作直接丢失
作者: Fuller    时间: 2021-4-16 10:51
18443172656 发表于 2021-4-16 10:45
最新版的,但是在我这运行就总出问题,我上传了一下视频,第二个规则的输入动作直接丢失 ...

第二个规则就是输入账号吧?我测试输入挺正常的

作者: Fuller    时间: 2021-4-16 10:55
[attach]14123[/attach]

我执行完第三级,下载也完成了。会不会是你下载太多,这个网站有限制?

可以清理一下缓存试试。最好也换一下IP

[attach]14124[/attach]

作者: 18443172656    时间: 2021-4-16 12:38
Fuller 发表于 2021-4-16 10:55
我执行完第三级,下载也完成了。会不会是你下载太多,这个网站有限制?

可以清理一下缓存试试。最好也换 ...

还是把输入动作跳过了,是我电脑的问题吗
作者: Fuller    时间: 2021-4-16 15:38
18443172656 发表于 2021-4-16 12:38
还是把输入动作跳过了,是我电脑的问题吗

[attach]14125[/attach]

勾上输入联想试试。

也可能有个原因,就是网页的输入框位置有可能不一样,找不到输入框,也不会输入。你这个xpath是绝对定位的:/html/body/div[position()=1]/div[position()=5]/table/tbody/tr[position()=2]/td[position()=2]/input 。很容易受网页结构的影响。

用这个相对于class定位的xpath试试://*[@class='REGISTRATION_INPUT']

作者: 18443172656    时间: 2021-4-16 19:28
Fuller 发表于 2021-4-16 15:38
勾上输入联想试试。

也可能有个原因,就是网页的输入框位置有可能不一样,找不到输入框,也不会输入。 ...

应该不是xpath的原因,我用采集失败的网址进行分析页面后仍然是成功的,而且您后面那个xpath定位到10个位置,不能用
作者: 18443172656    时间: 2021-4-16 19:31
Fuller 发表于 2021-4-16 15:38
勾上输入联想试试。

也可能有个原因,就是网页的输入框位置有可能不一样,找不到输入框,也不会输入。 ...

[attach]14126[/attach]而且我前面采集的都没有问题,只是最近需要飞掠模式购买了旗舰版。才出现这种状况,不只是这一个规则,其他规则也有问题

作者: 18443172656    时间: 2021-4-16 21:18
本帖最后由 18443172656 于 2021-4-16 21:22 编辑
Fuller 发表于 2021-4-16 15:38
勾上输入联想试试。

也可能有个原因,就是网页的输入框位置有可能不一样,找不到输入框,也不会输入。 ...

现在的情况是:开始采集的第一条线索是正常采集成功的,但是从第二条线索开始,就把输入动作以及延迟给忽略掉了,直接执行点击,导致登录错误,网页结构变化,就验证规则失败。而且我换了一台电脑,也是同样的情况


作者: 内容分析应用    时间: 2021-4-16 21:36
18443172656 发表于 2021-4-16 21:18
现在的情况是:开始采集的第一条线索是正常采集成功的,但是从第二条线索开始,就把输入动作以及延迟给忽 ...

大概一个月前, 我记得你曾经发过一个帖子, 也是这个网站采集的问题。当时我帮你修改了xpath后,后面就正常了。

你试试把那个定位email输入框的xpath改成://*[@class='CADMOMAINTABLE']//tr[contains(.//*,'Returning users: login')]/following-sibling::*[position()<5]//*[@class='REGISTRATION_INPUT']
把点击Login的xpath改成://*[@class='CADMOMAINTABLE']//tr[contains(.//*,'Returning users: login')]/following-sibling::*[position()<5]//*[@class='CADMOBUTTON']
测试下看看有没有改善

作者: 18443172656    时间: 2021-4-16 22:00
内容分析应用 发表于 2021-4-16 21:36
大概一个月前, 我记得你曾经发过一个帖子, 也是这个网站采集的问题。当时我帮你修改了xpath后,后面就 ...

对的,感谢您帮我修改,以前是可以的,只是最近突然出问题了。您这个xpath可以定位到,但是情况还是没改变, 只有第一条线索采集成功,第二条开始就跳过输入动作,我感觉应该不是xpath的问题,会不会是旗舰版有bug,我这些问题都是在使用旗舰版之后才出现的


作者: Fuller    时间: 2021-4-16 22:15
18443172656 发表于 2021-4-16 22:00
对的,感谢您帮我修改,以前是可以的,只是最近突然出问题了。您这个xpath可以定位到,但是情况还是没改 ...

把失败的网址发出来几个,测试一下

作者: 18443172656    时间: 2021-4-16 22:23
Fuller 发表于 2021-4-16 22:15
把失败的网址发出来几个,测试一下

https://esm.mi.ingv.it/DYNA-stag ... en=NULLNULLNULLNULL
https://esm.mi.ingv.it/DYNA-stag ... en=NULLNULLNULLNULL
https://esm.mi.ingv.it/DYNA-stag ... en=NULLNULLNULLNULL
您最好连续运行线索,看一下

作者: Fuller    时间: 2021-4-17 08:45
18443172656 发表于 2021-4-16 22:23
https://esm.mi.ingv.it/DYNA-stage/CadmoDriver?_action_do_single=1&_criteria=CZ003AND%20CZ003AND%20 ...

咨询了开发人员。这个问题是在设计考虑范围之内的。要这样使用:
1,如果是免费版,那么输入词是从规则中拿的,所以,不存在问题
2,如果是旗舰版,那么输入词是从会员中心的导入词中拿的。但是,如果是要给非第一级规则导入输入词,那么要把这些词只能导入给第一级,因为第二级、第三级...没有爬虫线索
2.1,如果要把输入词都导入给第一级,就要求定义动作的时候,给每个动作都起一个名字,而且名字不能重

简单的说:
把第二级要输入的词导入到每个第一级的线索。如下图,是导入词的菜单。

但是,这个功能很少使用,是否稳定可靠,需要验证一下,我们也在验证。另外,我已经通知开发,在定义规则界面上增加一个选项,强制使用规则中的输入词,新版本在周一推出,因为是加急版本,还没有到发布时间,只能在qq群里跟管理员要。

[attach]14128[/attach]

作者: Fuller    时间: 2021-4-17 09:03
Fuller 发表于 2021-4-17 08:45
咨询了开发人员。这个问题是在设计考虑范围之内的。要这样使用:
1,如果是免费版,那么输入词是从规则中 ...

我刚刚测试了第一种方法,就是给第一级规则添加关键词,测试发现没有效果,已经反馈给开发。正在安排检查和开发

作者: Fuller    时间: 2021-4-18 11:08
18443172656 发表于 2021-4-16 22:00
对的,感谢您帮我修改,以前是可以的,只是最近突然出问题了。您这个xpath可以定位到,但是情况还是没改 ...

你在集搜客QQ群里面吗?我们做了一个临时版本,用来解决这个问题,可以向QQ群管理员要

作者: 18443172656    时间: 2021-4-18 11:10
Fuller 发表于 2021-4-18 11:08
你在集搜客QQ群里面吗?我们做了一个临时版本,用来解决这个问题,可以向QQ群管理员要
...

我在,好的






欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2