集搜客GooSeeker网络爬虫

标题: 我稍微修改了我的规则,连续动作还是失败了 [打印本页]

作者: fluffy    时间: 2019-5-14 19:00
标题: 我稍微修改了我的规则,连续动作还是失败了
还是原来的规则“上迪英文”,我看了一下教程,连续点击需要二级规则,所以我设置了一个二级规则“上迪英文点击更多”,然后打数器爬一级规则,但是还是不能爬出来,为什么会这个样啊

作者: Fuller    时间: 2019-5-14 22:21
你的规则本来都是正确的,但是,第二级你却做了一个翻页。这个就不对了,因为翻页是归第一级管的。第二级只管抓取需要的数据。可以看看这篇文档《数据采集、爬虫路线和连续动作的循序

另外,在第一级,点击动作的高级设置那里最好加上额外延迟,比如,2秒,因为点击以后需要加载时间

作者: fluffy    时间: 2019-5-15 18:12
Fuller 发表于 2019-5-14 22:21
你的规则本来都是正确的,但是,第二级你却做了一个翻页。这个就不对了,因为翻页是归第一级管的。第二级只 ...

我调试之后规则运行失败了,那第二级规则还要做标志映射吗?还是只要抓取评论的内容,评论的题目和标志映射第一级规则做就行了嘛

作者: Fuller    时间: 2019-5-15 19:51
fluffy 发表于 2019-5-15 18:12
我调试之后规则运行失败了,那第二级规则还要做标志映射吗?还是只要抓取评论的内容,评论的题目和标志映 ...

我测试了你的规则,运行的挺好的。你的窗口是不是特别小?DS打数机窗口尽量放大,在把底部的日志窗口收缩起来,让DS打数机的浏览器窗口尽量最大。很多动态网页是根据窗口大小决定显示内容的。如果窗口太小,就根本不加载内容

作者: fluffy    时间: 2019-5-16 00:08
Fuller 发表于 2019-5-15 19:51
我测试了你的规则,运行的挺好的。你的窗口是不是特别小?DS打数机窗口尽量放大,在把底部的日志窗口收缩 ...

恩恩,放大了窗口确实可以了。但是为什么有的页数不是每个更多都点开了,比如这个图。还有是选择集搜还是单搜啊?选择多少条线索是根据页数多少吗?

作者: Fuller    时间: 2019-5-16 07:44
fluffy 发表于 2019-5-16 00:08
恩恩,放大了窗口确实可以了。但是为什么有的页数不是每个更多都点开了,比如这个图。还有是选择集搜还是 ...

假设网页上有10个“更多”,如果xpath写的合适,能够包含所有10个更多,那么就会自动点10次。我试过,点一次能打开所有更多,但是好像不可靠。那么就要修改xpath,在“搜索”功能上先试试,能否定位到所有更多,能才能用。

如果有10个“更多”,那么会点击10次,每次点击都会产生一个第二级的结果。这些结果里面就有还没有点击“更多”的内容。如果正常的话,应该是最后一个结果文件是最全的,因为那时候所有更多都点击过了

作者: fluffy    时间: 2019-5-16 18:11
Fuller 发表于 2019-5-16 07:44
假设网页上有10个“更多”,如果xpath写的合适,能够包含所有10个更多,那么就会自动点10次。我试过,点 ...

我没太明白你的意思,什么叫最后一个结果文件是最全的啊?不过我搜索过,确实是包含了10个更多,但是不懂为什么抓出来不是所有都点开的

作者: fluffy    时间: 2019-5-16 19:35
Fuller 发表于 2019-5-16 07:44
假设网页上有10个“更多”,如果xpath写的合适,能够包含所有10个更多,那么就会自动点10次。我试过,点 ...

还有个问题,我发现我抓下来的评论会出现重复的现象,是因为我设置了标志映射的原因吗?

作者: Fuller    时间: 2019-5-16 19:41
fluffy 发表于 2019-5-16 18:11
我没太明白你的意思,什么叫最后一个结果文件是最全的啊?不过我搜索过,确实是包含了10个更多,但是不懂 ...

假设连续动作的xpath能够定位到10个节点,那么会点击10次,每点击一次就是一次循环,每次循环都要存一次结果文件

作者: Fuller    时间: 2019-5-16 19:42
fluffy 发表于 2019-5-16 19:35
还有个问题,我发现我抓下来的评论会出现重复的现象,是因为我设置了标志映射的原因吗?
...

因为连续点击的时候会下载多个结果文件,首先文件与文件之间的重复是不可避免的。但是,同一个文件内部的重复应该要解决的,你看看重复是在一个文件内吗?

作者: fluffy    时间: 2019-5-17 17:07
Fuller 发表于 2019-5-16 19:42
因为连续点击的时候会下载多个结果文件,首先文件与文件之间的重复是不可避免的。但是,同一个文件内部的 ...

就是有文件和文件会重复,这个要自己手动删除吗。那xpath的定位有问题吗?就这种不能每个都点开的情况

作者: fluffy    时间: 2019-5-17 17:21
Fuller 发表于 2019-5-16 19:42
因为连续点击的时候会下载多个结果文件,首先文件与文件之间的重复是不可避免的。但是,同一个文件内部的 ...

有没有办法设置每一次翻页只点击一次更多,因为我发现就点一次这个页面上所有评论完整版就都会跳出来

作者: Fuller    时间: 2019-5-17 17:24
fluffy 发表于 2019-5-17 17:07
就是有文件和文件会重复,这个要自己手动删除吗。那xpath的定位有问题吗?就这种不能每个都点开的情况
...

文件与文件之间一定会有重复,1,导出数据以后,在excel中可以把重复内容标记出来,首先可以根据内容列进行标记
2,然后进行排序,这样就能把重复内容排在一起,排在一起方便删除重复的。
3,再做一次重复内容标记,但是不是根据内容,而是根据别的内容,比如,评论人+评论时间
4,然后进行排序,这样就能把重复内容排在一起,排在一起方便删除重复的。这个时候要判断一下。如果一条内容点击查看到了更多内容,那么重复信息中的第一行的内容是点击前的,内容更少,第二行或者更多重复行是点击后的,内容更多。就把内容少的删除。

用多列组合在一起判断重复项可能不太准确,那么就先把多列合成一列,就像这个教程说的《Excel多列标记重复项小技巧



作者: Fuller    时间: 2019-5-17 17:26
fluffy 发表于 2019-5-17 17:21
有没有办法设置每一次翻页只点击一次更多,因为我发现就点一次这个页面上所有评论完整版就都会跳出来
...

xpath中增加一个条件  (你写的xpath)[1],这样就只定位到1个节点,你可以试试,把xpath写好以后,放在这里测试
[attach]10988[/attach]


作者: fluffy    时间: 2019-5-18 00:36
Fuller 发表于 2019-5-17 17:26
xpath中增加一个条件  (你写的xpath)[1],这样就只定位到1个节点,你可以试试,把xpath写好以后,放在这 ...

恩恩,我用了你的第二个方法可以了。所有的详细内容都能展开!谢啦





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2