集搜客GooSeeker网络爬虫

标题: 逐步点击采集问题 [打印本页]

作者: yinyicheng    时间: 2021-10-21 11:54
标题: 逐步点击采集问题
需要采集的是列表数据,每行列表数据都是加密带*号的,需要点开列表右边的小眼睛才能显示出来。
每页最多只能显示10行数据,设置了点击,发现采集只点了3到4次(应该10次的),采集到的数据只有部分不带*号的,
而且数据还重复,有大佬知道问题吗?
[attach]15039[/attach]

作者: 内容分析应用    时间: 2021-10-21 12:08
任务名是什么? 发出来技术加载分析下你的采集规则

作者: yinyicheng    时间: 2021-10-21 13:42
内容分析应用 发表于 2021-10-21 12:08
任务名是什么? 发出来技术加载分析下你的采集规则

抖店订单_动作
作者: yinyicheng    时间: 2021-10-21 13:43
任务名:抖店订单_动作
作者: yinyicheng    时间: 2021-10-21 14:30
内容分析应用 发表于 2021-10-21 12:08
任务名是什么? 发出来技术加载分析下你的采集规则

抖店订单_动作

作者: gz51837844    时间: 2021-10-21 14:46
yinyicheng 发表于 2021-10-21 14:30
抖店订单_动作

这个抖店网站,我用抖音登录了, 不过看不到你做规则的页面
作者: wangyong    时间: 2021-10-21 14:52
yinyicheng 发表于 2021-10-21 14:30
抖店订单_动作

连续动作每点击一次就会采集一次数据,这样肯定会有重复数据,重复数据没关系,可以采集完成后在Excel中去重

你先检查xpath是不是每个点击位置都能定位的到,然后取消设置里的重复内容判断,再进行采集
[attach]15040[/attach]

作者: yinyicheng    时间: 2021-10-21 14:56
gz51837844 发表于 2021-10-21 14:46
这个抖店网站,我用抖音登录了, 不过看不到你做规则的页面

要店家账号才行的

作者: yinyicheng    时间: 2021-10-21 14:57
wangyong 发表于 2021-10-21 14:52
连续动作每点击一次就会采集一次数据,这样肯定会有重复数据,重复数据没关系,可以采集完成后在Excel中 ...

好的,我试试。我发现,设置三步点击,会抓取7轮数据,
到最后一轮是全部都出来了

作者: yinyicheng    时间: 2021-10-21 15:31
wangyong 发表于 2021-10-21 14:52
连续动作每点击一次就会采集一次数据,这样肯定会有重复数据,重复数据没关系,可以采集完成后在Excel中 ...

设置了重复内容中断,还是重复

作者: gz51837844    时间: 2021-10-21 16:22
还有1种做法, 就是页面上有多少需要点击的地方, 就在动作里添加一个对应的点击动作。
比如页面上有10个地方需要”点击显示“, 就在动作里创建10个:
动作1  点击
动作2  点击
。。。。。。
作者: yinyicheng    时间: 2021-10-21 17:49
点个筛选功能,出现问题了
会一轮一轮的执行点击筛选,
动作循环这个能关掉吗?我也没点连续动作呀
作者: gz51837844    时间: 2021-10-21 21:24
yinyicheng 发表于 2021-10-21 17:49
点个筛选功能,出现问题了
会一轮一轮的执行点击筛选,
动作循环这个能关掉吗?我也没点连续动作呀 ...

因为你那个页面无法访问, 所以给不出更具体的建议。
基本原则是,你人工做了哪几步之后可以看到页面上需要的文本, 那么让爬虫也同样的做那几步后再抓取

作者: yinyicheng    时间: 2021-10-22 11:51
页面就是些普通的订单列表,不同的是每列地址信息需要点击才能显示,
否则就是带**号的文本
请问能说说抓取思路吗?我对比下,看看问题出在哪里
作者: wangyong    时间: 2021-10-22 14:29
yinyicheng 发表于 2021-10-21 17:49
点个筛选功能,出现问题了
会一轮一轮的执行点击筛选,
动作循环这个能关掉吗?我也没点连续动作呀 ...

检查一下规则里的xpath,xpath节点能定位到多个节点就会循环,改成只定位到一个节点
作者: yinyicheng    时间: 2021-10-23 17:29
将动作和采集分开不同的任务层级,这样就可以采集到数据了,内容还不会重复。感谢各位的技术支持




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2