一个表,最后一行为合计,如何实现只采集表体,不采集合计行?

QQ截图20161120002010.jpg (5.87 KB, 下载次数: 752)

QQ截图20161120002010.jpg
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-11-20 23:40

沙发
Fuller 管理员 发表于 2016-11-20 10:11:58 | 只看该作者
做规则的时候过滤掉这行挺麻烦的,可以在结果导入excel后删除最后一行。

如果非要在做规则的时候删除,可以用自定义xpath,如果网页上有“合计”这串文字,就已他为标记,编写XPath。一般要使用contains()函数,表达出来“包含”这个文字的一行怎么怎么样
举报 使用道具
板凳
chinagsr 初级会员 发表于 2016-11-20 22:20:32 | 只看该作者
XPath应该怎么写,能举个例子吗?
举报 使用道具
地板
Fuller 管理员 发表于 2016-11-20 22:33:48 | 只看该作者
chinagsr 发表于 2016-11-20 22:20
XPath应该怎么写,能举个例子吗?

你的主题名是什么?
举报 使用道具
5#
chinagsr 初级会员 发表于 2016-11-20 22:37:19 | 只看该作者
GSR_龙虎榜明细
举报 使用道具
6#
Fuller 管理员 发表于 2016-11-20 23:06:59 | 只看该作者


比如要过滤掉含有总计的这行,只要上面的那些行,假设要采集 买入金额 那一列,那么就可以用“总合计”这串文字作为过滤条件。用XPath大概要这样写
  1. ....../td[not(contains(preceding-sibling::td[1]/span/text(),'总合计'))]/span/text()
复制代码
用了两个函数:not()和contains(),还用到preceding-sibling
但是这样写是比较繁琐的,不如抓取下来以后在excel中删除。



举报 使用道具
7#
chinagsr 初级会员 发表于 2016-11-20 23:32:02 | 只看该作者
了解,象这种过滤条件应该放在容器里(如第N层),还是放在采集项里(如买入金额)?
举报 使用道具
8#
Fuller 管理员 发表于 2016-11-20 23:40:43 | 只看该作者
chinagsr 发表于 2016-11-20 23:32
了解,象这种过滤条件应该放在容器里(如第N层),还是放在采集项里(如买入金额)? ...

应该放在采集项里,自定义xpath方法不支持给容器做自定义
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-8 11:18