本帖最后由 ym 于 2015-10-26 15:43 编辑

常见问题 > 制作规则—常见问题导航 > 翻页 > 翻页到中间就失败了怎么解决

原因可能是翻页到中间后,线索范围的的定位标志与第一页的定位标志不同。
分析第一页和失败页面,找到共有的@class值或者@id值在谋数台中做为线索范围定位标志
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-5-24 15:13

沙发
ym 版主 发表于 2016-5-24 14:49:15 | 只看该作者
本帖最后由 ym 于 2017-2-17 10:56 编辑

1、分析规则是否有问题
翻页到中间就失败的话,可能是翻页线索没设置好,可能是整理箱定位到的起点路径找不到,也可能是某些抓取内容不存在网页上,具体原因可以到MS里加载规则,手工翻页分析一下网页是否与规则匹配。
具体操作:到MS加载规则后,把工具条上的“内容定位”不要勾选,然后在浏览器中点击翻页,再勾上内容定位,点击文件菜单->刷新网页结构->分析页面,网页结构与规则不匹配的话,MS就会提示***定位不到节点,要具体分析一下网页结构的差异,再来优化规则映射。参考教程怎样解决规则采集失败/遗漏的问题

2、规则没问题的话就是被网站限制访问了
另外,还有可能是目标网站有访问量控制,连续翻页太多或者网速较差时就容易翻页断掉,如果检查了规则没有问题的话,应该就是遇到访问限制了。

解决方法:
1、看看每页是否有独立网址,有独立网址的话,打开最新抓到的那个xml,打开fullpath网址,把断掉的下一页网址添加到规则里继续爬
2、若有独立网址,可以删掉翻页线索,把下一页的网址采集下来并设置下级线索,目标主题名依然填本级的主题名,然后用爬虫群采集,就可以自动逐页采集,遇到采集失败的情况,只需激活失败线索,爬虫群就可以继续采集下一页,详细操作参考这篇文章的第三步第3点《实战:怎么解决翻页死循环/重复翻页的问题》
3、没有独立网址的话,看看是否有页码输入框,有的话,就可以在规则里通过连续动作设置翻页,让爬虫再次采集时就跳转到断掉的那一页,再继续翻页采集,参考教程《用连续动作实现翻页点击》

另外,要控制好采集速度,翻页太快的话,就容易被限制,控制采集速度的方法见http://www.gooseeker.com/doc/thread-676-1-2.html
举报 使用道具
板凳
ym 版主 发表于 2016-5-24 15:13:03 | 只看该作者
本帖最后由 ym 于 2017-2-9 16:58 编辑

3、翻页线索并不适用,需要人工调整优化
很多人忘了设置线索定位,一般默认是绝对定位,此时,第一页的翻页路径和第二页通常不同,就会使得第二页翻页失败,所以,通常要修改一下线索定位为偏好class或偏好id,可以优化翻页的xpath路径。


如果是第一页没有翻过去,说明翻页设置不适用,要尝试一下其他翻页方法,看看是否能成功。更多翻页方法见集锦的第一点http://www.gooseeker.com/doc/thread-698-1-1.html

另外,翻页采集时,DS打数机不要勾选定时器触发,这样会加快采集速度,从而很容易翻页到中间就断掉。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 22:41