集搜客GooSeeker网络爬虫

标题: 翻页采集数据中途失败 [打印本页]

作者: 杜若    时间: 2019-3-10 19:52
标题: 翻页采集数据中途失败
请问翻页采集数据的时候中途停止,日志显示定位到重复内容动作中断应该怎么办呢?

作者: Fuller    时间: 2019-3-10 21:48
这种是你设置的参数不合适,DS打数机的菜单 高级-》终点标志-》重复内容。 不勾他们,就不会中断
作者: Fuller    时间: 2019-3-10 21:48
如果翻页到最后总是重复采集最后一页,那么就要勾上了
作者: 杜若    时间: 2019-3-10 22:06
我觉得它好像一直在重复采集同一页,采集到几百页之后就翻不过去了,不勾重复内容就一直在重复采集
作者: 杜若    时间: 2019-3-10 22:07
Fuller 发表于 2019-3-10 21:48
如果翻页到最后总是重复采集最后一页,那么就要勾上了

我觉得它好像一直在重复采集同一页,采集到几百页之后就翻不过去了,不勾重复内容就一直在重复采集

作者: Fuller    时间: 2019-3-11 09:20
如果总是重复第一页,就不对了
作者: Fuller    时间: 2019-3-11 09:20
是第一页重复还是最后一页重复?
作者: Fuller    时间: 2019-3-11 09:43
我运行了你的规则,很好,是不是到最后一页一直重复?那就要勾上重复内容中断
作者: 杜若    时间: 2019-3-11 09:43
Fuller 发表于 2019-3-11 09:20
是第一页重复还是最后一页重复?

是中间页重复,一共有一千多页,第一次打到300多页的时候就开始重复了,第二次没有勾选重复内容,打到200多页就开始重复

作者: Fuller    时间: 2019-3-11 09:51
杜若 发表于 2019-3-11 09:43
是中间页重复,一共有一千多页,第一次打到300多页的时候就开始重复了,第二次没有勾选重复内容,打到200 ...

我还没有运行到那么多,说不定是网站不让翻页了,就像天猫,100页后看不到了,京东100页评论后,就一直重复了

作者: 杜若    时间: 2019-3-11 09:54
Fuller 发表于 2019-3-11 09:51
我还没有运行到那么多,说不定是网站不让翻页了,就像天猫,100页后看不到了,京东100页评论后,就一直重 ...

那为什么两次运行重复的地方不一样呢?这种情况应该怎么解决呢

作者: Fuller    时间: 2019-3-11 10:00
[attach]10663[/attach]
有个方法可以补充采集,另做一个规则,先点击最后一页,然后倒着翻页。最后将两种结果合并在一起,把重复的过滤掉

作者: 杜若    时间: 2019-3-11 10:07
Fuller 发表于 2019-3-11 10:00
有个方法可以补充采集,另做一个规则,先点击最后一页,然后倒着翻页。最后将两种结果合并在一起,把重复 ...

好的  我试试呢

作者: 杜若    时间: 2019-3-11 10:25
Fuller 发表于 2019-3-11 10:00
有个方法可以补充采集,另做一个规则,先点击最后一页,然后倒着翻页。最后将两种结果合并在一起,把重复 ...

[attach]10664[/attach]这样倒着采集也不行呢,采集了一页就停止了,而且好像不是从最后一页开始采集的[attach]10665[/attach]


作者: Fuller    时间: 2019-3-11 12:50
杜若 发表于 2019-3-11 10:25
这样倒着采集也不行呢,采集了一页就停止了,而且好像不是从最后一页开始采集的

...

倒着采要复杂一点,两级规则,第一级负责点击最后一页,进入第二级,才是倒着翻页

作者: 杜若    时间: 2019-3-11 13:53
Fuller 发表于 2019-3-11 12:50
倒着采要复杂一点,两级规则,第一级负责点击最后一页,进入第二级,才是倒着翻页
...

我觉得我不太会弄这个,感觉qq音乐的评论有点奇怪,第一页和最后一页的评论有重复,然后点击一百多页之后就刷新成正常的顺序了,而且它的不同页的网址是同一个,应该怎么采集啊file:///C:\Users\asus\AppData\Roaming\Tencent\QQ\Temp\E88GZPUWFVDHABP)KB6_FYJ.png 我试了一下倒着翻没弄对,规则应该是成都lllll

作者: Fuller    时间: 2019-3-12 09:50
杜若 发表于 2019-3-11 13:53
我觉得我不太会弄这个,感觉qq音乐的评论有点奇怪,第一页和最后一页的评论有重复,然后点击一百多页之后 ...

[attach]10666[/attach]
这是你的规则,用了下级线索,这是不对的。下级线索会在另外一个循环中执行,不会在当前这个窗口中连续执行。所以,要做的动作、要翻页,都不能用下级线索。

点击最后一页,应该用点击动作,在“连续动作”工作台上定义点击类动作。在连续动作工作台上定义有个好处,自己写xpath可以很灵活。

要点击到最后一页,xpath稍微有点复杂,最后一页不是你的规则中点击的“...”,而是夹在"..."和 “>”之间的那个数字,那么xpath就要参照 ... 或者 > 写,比如,参照 ...这个节点,就写成
  1. //*[@class='mod_page_nav js_pager_comment']//a[preceding-sibling::*[1]/@class='more']
复制代码

如果参照> 写,那么就是
  1. //*[@class='mod_page_nav js_pager_comment']//a[following-sibling::a[1]/span/text()='>']
复制代码



作者: 杜若    时间: 2019-3-12 20:58
Fuller 发表于 2019-3-12 09:50
这是你的规则,用了下级线索,这是不对的。下级线索会在另外一个循环中执行,不会在当前这个窗口中连续 ...

我试了你下你说的方法还是不行呢  规则是成都zz





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2