用连续动作定位到需要定位的地方(联系方式),Xpath表达式没问题,可以定位到该页面的每一个需要定位的地方,在实际采集中,却会漏掉一大半,只定位并采集了少量(联系方式),这个会是什么原因?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2018-6-11 13:54

沙发
18122850075 初级会员 发表于 2018-6-7 14:20:03 | 只看该作者
规则名为:
千里马搜索1层
千里马搜索第2层
千里马搜索第3层
出现问题的规则名:千里马搜索第2层
举报 使用道具
板凳
18122850075 初级会员 发表于 2018-6-7 14:29:16 | 只看该作者
从搜出来的结果分析,其实也不是漏,比如第1个,就重复了14遍,导致下一个,从第15个开始了,把真正第2到第14个漏掉了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
shengchengx 金牌会员 发表于 2018-6-7 15:21:28 | 只看该作者
你这个应该是因为他第一个悬浮太大了,当悬浮完了第一个,他会放到这个悬浮的上面去做第二个,但是因为这个然后挡住了,所以悬浮的效果没有出来,采集到的还是第一个的数据,导致的重复数据。

你可以在第三个规则中再加一个悬浮动作,xpath定位就定到标题的位置上面,把重复判断关掉,再测试一下应该就没问题了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
wangyong 版主 发表于 2018-6-7 15:22:59 | 只看该作者
这个是因为你虽然把每个联系方式都点过了,但是实际上没点一次抓取的还是第一个联系方式,所有就会有重复的

在做规则时可以看看每点一次网页结构会发生什么变化,再去做规则,在规则的测试中能看到没次点后对应的数据可以抓取下来再去做规则运行
举报 使用道具
6#
18122850075 初级会员 发表于 2018-6-7 17:06:01 | 只看该作者
shengchengx 发表于 2018-6-7 15:21
你这个应该是因为他第一个悬浮太大了,当悬浮完了第一个,他会放到这个悬浮的上面去做第二个,但是因为这个 ...

谢谢,您的意思是在第2步定位悬浮后,再加一步,进行悬浮,原来第3步就变成第4步吗?
举报 使用道具
7#
shengchengx 金牌会员 发表于 2018-6-7 17:10:30 | 只看该作者
18122850075 发表于 2018-6-7 17:06
谢谢,您的意思是在第2步定位悬浮后,再加一步,进行悬浮,原来第3步就变成第4步吗?
...

在第三个规则也就是你的采集数据的那个规则上面再加一个悬浮动作。
举报 使用道具
8#
18122850075 初级会员 发表于 2018-6-7 17:22:24 | 只看该作者
shengchengx 发表于 2018-6-7 17:10
在第三个规则也就是你的采集数据的那个规则上面再加一个悬浮动作。


好的,有2个不明白,
1、箭头指的那里,第3导加的连续动作,目标主题名,就写第三层的主题名吗?还是写什么呢?
2、您前边说的“把重复判断关掉”,是在哪个位置关?
谢谢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
shengchengx 金牌会员 发表于 2018-6-7 17:31:36 | 只看该作者
18122850075 发表于 2018-6-7 17:22
好的,有2个不明白,
1、箭头指的那里,第3导加的连续动作,目标主题名,就写第三层的主题名吗?还是写 ...

第三级规则目标主题名就填第二级,然后重复判断在打数机左上角,选择高级->终点标志,
举报 使用道具
10#
18122850075 初级会员 发表于 2018-6-7 17:53:30 | 只看该作者
按这样设置后,只采集了第1个,就停止了,不知道是哪里不对?

三个规则主题名:
千里马搜索1层
千里马搜索第2层
千里马搜索第3层
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 09:19