想要爬评价中的星级评价,但是做完class映射之后发现,只有和第一个样例一样的“五星”评价才能被爬下来,其他三星和四星的爬不下来,都是空白,这是什么原因?
但是我试了试先爬三星的又正常了。。。求大佬指教!!!感激不尽!!!

这是要爬的几颗星星

这是要爬的几颗星星

这是以三星为第一范例,印射

这是以三星为第一范例,印射

这是以五星为第一个样例,后面的三星四星就啥都没了

这是以五星为第一个样例,后面的三星四星就啥都没了
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2018-5-16 09:26

shenzhenwan10 金牌会员 发表于 2018-5-15 21:01:24 | 显示全部楼层
估计是不同的星级class值不同, 你可以用他们的祖先节点做定位映射
主题名是什么, 可以帮你分析下
举报 使用道具
Kellyj103 初级会员 发表于 2018-5-15 21:08:52 | 显示全部楼层
shenzhenwan10 发表于 2018-5-15 21:01
估计是不同的星级class值不同, 你可以用他们的祖先节点做定位映射
主题名是什么, 可以帮你分析下 ...

是的,有星的是star,没星的是null,但是如果用star做class值,后面的null全都显示为了star,要么就是彻底空白不显示,不知道该如何正确操作,求大佬赐教,我告诉你主题名,你那里也可以打开我的吗?
举报 使用道具
shenzhenwan10 金牌会员 发表于 2018-5-15 21:40:45 | 显示全部楼层
Kellyj103 发表于 2018-5-15 21:08
是的,有星的是star,没星的是null,但是如果用star做class值,后面的null全都显示为了star,要么就是彻 ...

管理员可以加载你的规则
举报 使用道具
Kellyj103 初级会员 发表于 2018-5-15 21:46:29 | 显示全部楼层
shenzhenwan10 发表于 2018-5-15 21:40
管理员可以加载你的规则

模拟点击_222,求管理员帮个忙~而且我遇到个问题,保存规则后,每次再次打开它会错乱,就没用了,又得重新编辑,怎么办呢?
举报 使用道具
shenzhenwan10 金牌会员 发表于 2018-5-15 22:13:42 | 显示全部楼层
你要抓的评论在哪个页面? 从哪里点进去?
举报 使用道具
Fuller 管理员 发表于 2018-5-15 22:14:46 | 显示全部楼层
Kellyj103 发表于 2018-5-15 21:46
模拟点击_222,求管理员帮个忙~而且我遇到个问题,保存规则后,每次再次打开它会错乱,就没用了,又得重新 ...

其实这种大平台是比较好采的,但是要用上一个技巧:定位标志映射。因为这种大平台的网页结构很复杂,如果不用定位标志映射,很容易定位不准。参看《定位标志精确采集范围

比如,用户名 这个抓取内容,可以用那个含有@class=‘author’的P节点做定位标志映射给他。

你要采集的满意度和关键词是在网页上哪个位置?能否截个图看看?



举报 使用道具
Fuller 管理员 发表于 2018-5-15 22:20:41 | 显示全部楼层
我终于把你的规则加载好了。原来你是要采集“点评”下的内容。你选择样本页面一开始并不显示点评内容,而是显示游记攻略,所以,采集的话一定会失败,你必须告诉爬虫,像你手工一样,先点击“点评”那个栏目再去采集数据。

那么,这需要规划两个主题
1,第一个主题,加载样本页面后自动去点击“点评”
2,第二个主题,才是真正地去采集点评内容。

你现在这个规则是用于第二个主题的。你可以参照这个教程定义第一个主题:《模拟点击切换到另一个标签窗口采数据
举报 使用道具
Fuller 管理员 发表于 2018-5-15 22:28:33 | 显示全部楼层
你贴出来的主题名,我加载了它的规则,看到满意度那里,跟你截图的不一样。你截图的一定是另一个网站,到底是几星使用class值控制的,这种好采集,把class值采集下来就是星级。
你的这个主题名对应的网页,星级是用5个span表示的,如果是5星,那么5个span的class='star',如果某颗星是空心的,那么class='null'。要采集5个span的class,
1,要么做个嵌套整理箱,在内层箱子里面存这个span的class值,给这个箱子做样例复制映射,就能把5个span的class都采集下来
2,要么创建5个抓取内容,每个抓取内容对应一个span的class值
我觉得第二个方案更简单
举报 使用道具
Kellyj103 初级会员 发表于 2018-5-15 23:43:00 | 显示全部楼层
Fuller 发表于 2018-5-15 22:28
你贴出来的主题名,我加载了它的规则,看到满意度那里,跟你截图的不一样。你截图的一定是另一个网站,到底 ...

感激管理员,搞定啦!!!大谢大谢!!!我开着电脑让他爬了,待机黑屏模式下,他也应该会爬吧?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:51