样例复制如何不采集合计行？

chinagsr · 2016-11-20 00:20 上传

一个表，最后一行为合计，如何实现只采集表体，不采集合计行？

Fuller · 发表于 2016-11-20 10:11:58

做规则的时候过滤掉这行挺麻烦的，可以在结果导入excel后删除最后一行。

如果非要在做规则的时候删除，可以用自定义xpath，如果网页上有“合计”这串文字，就已他为标记，编写XPath。一般要使用contains()函数，表达出来“包含”这个文字的一行怎么怎么样

chinagsr · 发表于 2016-11-20 22:20:32

XPath应该怎么写，能举个例子吗？

Fuller · 发表于 2016-11-20 22:33:48

chinagsr 发表于 2016-11-20 22:20
XPath应该怎么写，能举个例子吗？

你的主题名是什么？

chinagsr · 发表于 2016-11-20 22:37:19

GSR_龙虎榜明细

Fuller · 发表于 2016-11-20 23:06:59

chinagsr 发表于 2016-11-20 22:37
GSR_龙虎榜明细

比如要过滤掉含有总计的这行，只要上面的那些行，假设要采集买入金额那一列，那么就可以用“总合计”这串文字作为过滤条件。用XPath大概要这样写

....../td[not(contains(preceding-sibling::td[1]/span/text(),'总合计'))]/span/text()

复制代码

用了两个函数：not()和contains()，还用到preceding-sibling
但是这样写是比较繁琐的，不如抓取下来以后在excel中删除。

chinagsr · 发表于 2016-11-20 23:32:02

了解，象这种过滤条件应该放在容器里（如第N层），还是放在采集项里（如买入金额）?

Fuller · 发表于 2016-11-20 23:40:43

chinagsr 发表于 2016-11-20 23:32
了解，象这种过滤条件应该放在容器里（如第N层），还是放在采集项里（如买入金额）? ...

应该放在采集项里，自定义xpath方法不支持给容器做自定义

共 7 个关于本帖的回复最后回复于 2016-11-20 23:40

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页