本帖最后由 miomio113 于 2017-5-3 23:52 编辑


如图所示,我使用记号线索方式来实现翻页,但是实际爬网页时,只能爬取当前页面的内容,到了第二页就停止了,从文件夹中也只能看到第一页的xml。

请问大家这该怎么解决?还有其他好的翻页方法吗?谢谢!



举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-5-4 00:04

沙发
Fuller 管理员 发表于 2017-5-3 23:54:58 | 只看该作者
我测试了你的规则,翻页没有问题,但是翻到下下页的时候,匹配失败。


生成的规则中,红框里面用了id作为定位标志,那么到下一页以后,就没有这个id了,就匹配失败,可以点击“定位”按钮,选择“偏好class”,就能优先选择class

举报 使用道具
板凳
Fuller 管理员 发表于 2017-5-4 00:04:23 | 只看该作者
这个规则还有几个需要改进的地方,虽然不影响抓取,但是可以做的更加有适应性


1,如上图,你定义了一个嵌套整理箱,“抓取价格”这层像你这样用法就浪费了,有一层做样例复制就够了。但是,可以给“抓取价格”作个定位标志映射,如图。映射好以后,要双击“抓取价格”这行,弹出高级设置框,要选择class,而不是id,这个id很可能翻到第二页就失效了。

2,书名 和 价格 都可以用上定位标志映射,网页上有很好的class可用,手工做映射,可以提高规则的适应性

3,你的规则是在第二页上做的,这样就采集不到第一页了,应该在第一页上做

另外,这个网页很长,记得要打开DS打数机的滚屏功能,选择菜单 配置-〉滚屏参数,把滚屏次数设置成>0的数字
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-20 21:11