还是原来的规则“上迪英文”,我看了一下教程,连续点击需要二级规则,所以我设置了一个二级规则“上迪英文点击更多”,然后打数器爬一级规则,但是还是不能爬出来,为什么会这个样啊
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2019-5-18 00:36

沙发
Fuller 管理员 发表于 2019-5-14 22:21:15 | 只看该作者
你的规则本来都是正确的,但是,第二级你却做了一个翻页。这个就不对了,因为翻页是归第一级管的。第二级只管抓取需要的数据。可以看看这篇文档《数据采集、爬虫路线和连续动作的循序

另外,在第一级,点击动作的高级设置那里最好加上额外延迟,比如,2秒,因为点击以后需要加载时间
举报 使用道具
板凳
fluffy 初级会员 发表于 2019-5-15 18:12:51 | 只看该作者
Fuller 发表于 2019-5-14 22:21
你的规则本来都是正确的,但是,第二级你却做了一个翻页。这个就不对了,因为翻页是归第一级管的。第二级只 ...

我调试之后规则运行失败了,那第二级规则还要做标志映射吗?还是只要抓取评论的内容,评论的题目和标志映射第一级规则做就行了嘛

微信截图_20190515174936.png (72.01 KB, 下载次数: 799)

微信截图_20190515174936.png
举报 使用道具
地板
Fuller 管理员 发表于 2019-5-15 19:51:19 | 只看该作者
fluffy 发表于 2019-5-15 18:12
我调试之后规则运行失败了,那第二级规则还要做标志映射吗?还是只要抓取评论的内容,评论的题目和标志映 ...

我测试了你的规则,运行的挺好的。你的窗口是不是特别小?DS打数机窗口尽量放大,在把底部的日志窗口收缩起来,让DS打数机的浏览器窗口尽量最大。很多动态网页是根据窗口大小决定显示内容的。如果窗口太小,就根本不加载内容
举报 使用道具
5#
fluffy 初级会员 发表于 2019-5-16 00:08:30 | 只看该作者
Fuller 发表于 2019-5-15 19:51
我测试了你的规则,运行的挺好的。你的窗口是不是特别小?DS打数机窗口尽量放大,在把底部的日志窗口收缩 ...

恩恩,放大了窗口确实可以了。但是为什么有的页数不是每个更多都点开了,比如这个图。还有是选择集搜还是单搜啊?选择多少条线索是根据页数多少吗?

微信截图_2.png (52.53 KB, 下载次数: 816)

微信截图_2.png
举报 使用道具
6#
Fuller 管理员 发表于 2019-5-16 07:44:52 | 只看该作者
fluffy 发表于 2019-5-16 00:08
恩恩,放大了窗口确实可以了。但是为什么有的页数不是每个更多都点开了,比如这个图。还有是选择集搜还是 ...

假设网页上有10个“更多”,如果xpath写的合适,能够包含所有10个更多,那么就会自动点10次。我试过,点一次能打开所有更多,但是好像不可靠。那么就要修改xpath,在“搜索”功能上先试试,能否定位到所有更多,能才能用。

如果有10个“更多”,那么会点击10次,每次点击都会产生一个第二级的结果。这些结果里面就有还没有点击“更多”的内容。如果正常的话,应该是最后一个结果文件是最全的,因为那时候所有更多都点击过了
举报 使用道具
7#
fluffy 初级会员 发表于 2019-5-16 18:11:59 | 只看该作者
Fuller 发表于 2019-5-16 07:44
假设网页上有10个“更多”,如果xpath写的合适,能够包含所有10个更多,那么就会自动点10次。我试过,点 ...

我没太明白你的意思,什么叫最后一个结果文件是最全的啊?不过我搜索过,确实是包含了10个更多,但是不懂为什么抓出来不是所有都点开的
举报 使用道具
8#
fluffy 初级会员 发表于 2019-5-16 19:35:34 | 只看该作者
Fuller 发表于 2019-5-16 07:44
假设网页上有10个“更多”,如果xpath写的合适,能够包含所有10个更多,那么就会自动点10次。我试过,点 ...

还有个问题,我发现我抓下来的评论会出现重复的现象,是因为我设置了标志映射的原因吗?
举报 使用道具
9#
Fuller 管理员 发表于 2019-5-16 19:41:46 | 只看该作者
fluffy 发表于 2019-5-16 18:11
我没太明白你的意思,什么叫最后一个结果文件是最全的啊?不过我搜索过,确实是包含了10个更多,但是不懂 ...

假设连续动作的xpath能够定位到10个节点,那么会点击10次,每点击一次就是一次循环,每次循环都要存一次结果文件
举报 使用道具
10#
Fuller 管理员 发表于 2019-5-16 19:42:51 | 只看该作者
fluffy 发表于 2019-5-16 19:35
还有个问题,我发现我抓下来的评论会出现重复的现象,是因为我设置了标志映射的原因吗?
...

因为连续点击的时候会下载多个结果文件,首先文件与文件之间的重复是不可避免的。但是,同一个文件内部的重复应该要解决的,你看看重复是在一个文件内吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 18:47