我想知道,怎样在京东评论下,得到每条评论的图片数量,或者直接有无图片得到一个判定,能够把有无图片区分开来(0与1)。

网址:https://item.jd.com/100017508669.html

8ac8f8a0ccf7fbf569131d505355221.png (416.42 KB, 下载次数: 325)

8ac8f8a0ccf7fbf569131d505355221.png
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2022-4-20 17:58

沙发
Fuller 管理员 发表于 2022-4-19 09:28:12 | 只看该作者
如果要在规则中直接统计图片的个数,也能实现,但是要写自定义xpath。要选择专用定位。定位xpath是含有所有图片的那个区域;内容xpath是一个count()函数,比如,count(.//img)就是统计定位到的那个网页区域中的所有的图片个数
举报 使用道具
板凳
lw2219 初级会员 发表于 2022-4-19 13:16:17 | 只看该作者
请问这个规则是这样吗?为啥我统计出来都是只有一张图片。是不是我写错了?
C:\Users\22190\Desktop\新建文件夹 (3)
举报 使用道具
地板
Fuller 管理员 发表于 2022-4-19 15:01:45 | 只看该作者
把规则名发出来,我分析一下你的规则有什么问题
举报 使用道具
5#
lw2219 初级会员 发表于 2022-4-19 17:05:47 | 只看该作者
我准备抓京东的好评。要设置两层。  第一层是 : 京东前  第二层是:京东后。
就是抓出来不对,每次抓下一页都会重复抓了之前的。
举报 使用道具
6#
Fuller 管理员 发表于 2022-4-19 17:36:50 | 只看该作者
lw2219 发表于 2022-4-19 17:05
我准备抓京东的好评。要设置两层。  第一层是 : 京东前  第二层是:京东后。
就是抓出来不对,每次抓下一 ...



采集到相同的内容原因是:网页上有多个评论列表内容,分别对应好评,差评等。点击好评以后,好评那个列表就有内容了。但是,如果不特殊处理,采集到的总是全部评论列表

整理箱做成一个多层结构。选中原先的抓取内容,鼠标右键菜单中有移动-右移菜单,就能缩进一层。调整好整理箱结构以后,使用具有@id=comment-4的那个节点做定位映射,映射给最外层整理箱。这样就划定好了范围,就会采集好评列表
举报 使用道具
7#
Fuller 管理员 发表于 2022-4-19 17:39:53 | 只看该作者
要想统计图片数量,要自定义xpath

第一步:做普通内容映射,使用含有一组图片的那个div做内容映射


第二步:点击测试按钮,在采集规则那里找到这个抓取内容的xpath,拷贝出来:.//*[@class='pic-list J-pic-list']



第三步:编辑这个xpath,变成 count(.//*[@class='pic-list J-pic-list']//img) ,把这两个xpath分别填到定位xpath和内容xpath那里


举报 使用道具
8#
lw2219 初级会员 发表于 2022-4-19 20:54:50 | 只看该作者
为什么我点击好评那个节点,下边dom页面没有显示他的id呢?
举报 使用道具
9#
lw2219 初级会员 发表于 2022-4-19 21:39:39 | 只看该作者
你再看看我的规则呢?怎么现在 京东后这个规则自己都测试有问题了? 现在我运行京东前这个规则都链接不到第二层了?
举报 使用道具
10#
lw2219 初级会员 发表于 2022-4-20 10:28:52 | 只看该作者
而且我现在第二层(京东后)进去还会分析页面成这样

545151579e2921aa49f83880411d889.png (234.68 KB, 下载次数: 339)

545151579e2921aa49f83880411d889.png
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 05:37