抓取微博地址和粉丝的数据   微博地址和粉丝数量的定位编号不一致      测试完毕后     为什么微博粉丝抓取的结果也是微博地址


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-4-9 10:51

沙发
ym 版主 发表于 2017-4-8 13:27:47 | 只看该作者
主题名是什么
举报 使用道具
板凳
ym 版主 发表于 2017-4-8 14:01:14 | 只看该作者
本帖最后由 ym 于 2017-4-8 14:03 编辑

你把整理箱定位改为绝对定位后,有些博主的粉丝就抓不到了,因为生成的数据规则不够通用。另外,你应该用第一个博主做映射会比较好,否则样例复制之后可能会漏抓前面几个博主的信息。



再做上定位标志映射,就能正常抓到每个博主的粉丝数量了,如下图



举报 使用道具
地板
ijklijklpo 初级会员 发表于 2017-4-8 19:29:07 | 只看该作者
谢谢大神,方便私信发下您QQ嘛,加下您好友,后期多向您学些,还请您多多指教可以嘛?
举报 使用道具
5#
ijklijklpo 初级会员 发表于 2017-4-9 10:43:07 | 只看该作者
@ym   大神你好,如果用第一个博主做映射,我需要认证用户的一些信息,可是第一个博主未认证,没有相关信息去做映射,这要如何处理?
举报 使用道具
6#
Fuller 管理员 发表于 2017-4-9 10:51:41 | 只看该作者
ijklijklpo 发表于 2017-4-9 10:43
@ym   大神你好,如果用第一个博主做映射,我需要认证用户的一些信息,可是第一个博主未认证,没有相关信息 ...

这个有点麻烦,要写自定义xpath,还是用第一个样例做映射,找一个存在的节点,映射给认证,等测试看到生成的规则以后,自定义xpath,原来的定位表达式不变,把内容提取表达式改了,根据有认证的样例,把内容提取表达式构造出来。


也就是说,对于不存在的节点,定位表达式指向一个总是存在的节点,而内容提取表达式才指向要提取的真实内容。这样,定位总是能成功,是否能提取到数据看具体情况

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-18 15:23