请问京东商城商品评价里“星星“”这一标签做@class内容映射之后,比如刚开始是映射的3颗星,抓取的时候只能抓取3颗星,其他的1,2,4,5星都抓取不到,该如何解决?

我看了http://www.gooseeker.com/doc/thread-707-1-1.html这个网址里面的后两条,我理解的链接里面的方法是:为了避免@class,所以用嵌套整理箱来兼顾定位标志映射和样例复制映射,然后将定位改为绝对定位以及将@id映射到第一层整理箱(其中@id该如何选取),然后再第二层整理箱中进行样例复制? 可是这样做并没有解决问题,请问该如何解决?谢谢您!


QQ图片20170303185301.png (25.9 KB, 下载次数: 607)

QQ图片20170303185301.png
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-3-4 00:13

沙发
Fuller 管理员 发表于 2017-3-3 20:01:27 | 只看该作者
你的主题名是什么?告诉我,我加载后为你诊断问题,提供修改建议
举报 使用道具
板凳
飞鸟 新手上路 发表于 2017-3-3 22:21:33 | 只看该作者
Fuller 发表于 2017-3-3 20:01
你的主题名是什么?告诉我,我加载后为你诊断问题,提供修改建议


我抓取的是以下几个主题,都存在上述问题。

另外还有一个很严重的问题,我今天把抓取的文件打开看了一下,基本上到几百个的时候,后面的文件基本都是重复的了,也请您给诊断一下吧,我感觉是京东的反爬取机制导致的。。。。(如果真的是这样,是否要重新爬,以及爬的时候要注意什么问题才能避免这样的问题再次发生,求解答)

万分感谢!
举报 使用道具
地板
Fuller 管理员 发表于 2017-3-3 23:32:29 | 只看该作者


你生成的规则里面写死了*[@class='comment-star star5'],这表示5星,这个可以自定义xpath,写成
  1. .//*[contains(@class,'comment-star')]/@class
复制代码
这样,不管是comment-star star5,还是comment-star star4,comment-star star3, comment-star star2,comment-star star1都能匹配上



举报 使用道具
5#
Fuller 管理员 发表于 2017-3-4 00:13:48 | 只看该作者


一共有六个块,假设你想采集全部评价那块,你看起来也在那里翻页,但是你的规则实际是在采集“好评”那块,那么你不管怎样翻页,其实总是采集到“好评”的第一页。

京东网站上每个抓取内容几乎都能找到定位标志,你要用定位标志提高采集的准确度,具体参看《定位标志精确采集范围——以安居客租房采集为例》,尤其看最后的Tip2,正是讲解怎样先划定范围
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 11:09