5 11610

知乎数据层级抓取失败

dianer0316 于 2018-4-16 18:34 发表 [复制链接]
第一层网页链接:https://www.zhihu.com/lives/954300980817260544/participants  需要抓取页面中所有的用户名;
第二层需要点击用户名,跳转到用户个人主页,然后采集提问数、回答数等数据,也就是需要采集第一层所有用户的提问数、回答数等。
做了层级之后,只能采集到第一个人的,请问后面的数据应该怎么采集呢?谢谢!
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-4-19 15:35

Fuller 管理员 发表于 2018-4-16 18:55:38 | 显示全部楼层
只能采集到第一个人的说的是第一层吗?

运行第一层的时候,在DS打数机上统计第二层的线索数量,观察一下,是不是在运行第一层的时候,随着翻页或者滚屏,产生的第二层的线索越来越多。

你做的规则的主题名是什么?
举报 使用道具
dianer0316 新手上路 发表于 2018-4-16 19:00:57 | 显示全部楼层
Fuller 发表于 2018-4-16 18:55
只能采集到第一个人的说的是第一层吗?

运行第一层的时候,在DS打数机上统计第二层的线索数量,观察一下, ...

第二层只能采集第一个人的,规则名是  知乎数据第一层 、知乎数据第二层
举报 使用道具
bowieD 金牌会员 发表于 2018-4-17 11:29:42 | 显示全部楼层
本帖最后由 bowieD 于 2018-4-17 11:34 编辑

第一层规则需要把所有用户名的链接采集下来作为下级线索给第二层规则,你这里都没有抓取下级链接,而是直接把用户名作为下级线索给第二层规则,当然不行

修改规则,取消用户名的下级线索,映射@href节点给下级链接,再为下级链接勾上下级线索。如下图

这样运行第一层规则会为第二层规则生成用户线索,然后二层规则就可以抓取所有用户的信息
参考这篇层级抓取教程


另外,采集的时候需要把滚屏打开,在ds打数机的配置-》滚屏参数中设置
2.png
举报 使用道具
dianer0316 新手上路 发表于 2018-4-19 14:54:56 | 显示全部楼层
bowieD 发表于 2018-4-17 11:29
第一层规则需要把所有用户名的链接采集下来作为下级线索给第二层规则,你这里都没有抓取下级链接,而是直接 ...

嗯嗯谢谢您~按照您的指导已经修改成功啦~还有个问题,连续动作的定位表达式怎么设置呢?
X8CRC%WZE%GU~RR%96$BWVY.png
举报 使用道具
bowieD 金牌会员 发表于 2018-4-19 15:35:13 | 显示全部楼层
dianer0316 发表于 2018-4-19 14:54
嗯嗯谢谢您~按照您的指导已经修改成功啦~还有个问题,连续动作的定位表达式怎么设置呢?
...

参考xpath搜索功能
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 01:25