现有一个网页pdf文档,其内容是“主要产品和服务项目:电子产品。经营状况:良好。"我需要把“主要产品和服务项目:”和“经营状况:”之间的文本内容提取出来。应该怎么写xpath语句。谢谢。
举报 使用道具
| 回复

共 28 个关于本帖的回复 最后回复于 2017-3-3 12:41

沙发
xandy 论坛元老 发表于 2017-3-1 16:08:40 | 只看该作者
你要把主题名或者样本网址贴出来,然后截图说明下我们才知道网页结构是怎样的啊。
举报 使用道具
板凳
xandy 论坛元老 发表于 2017-3-1 16:19:59 | 只看该作者
举个例子,假设你发的这段文本是某div节点(@class='xxx')下的text(),要把“主要产品和服务项目:”和“经营状况:”之间的文本内容提取出来,那么xpath可以这么写:
  1. substring-before(substring-after(//*[@class='xxx']/text(),'主要产品和服务项目:'),'经营状况:')
复制代码

前提是PDF的这段文本是可以抓取下来的,你可以参看这个帖子:《xpath使用substring-before()和substring-after()遇到的问题
举报 使用道具
地板
sagehxq 初级会员 发表于 2017-3-1 16:49:05 | 只看该作者
这个pdf是可以抓取下来的,每一页是一个div节点。页下面的每一段话或者每一个词语也是一个子div节点。
样本网址:网页pdf

小Q截图-20170301164852.png (97.65 KB, 下载次数: 593)

小Q截图-20170301164852.png
举报 使用道具
5#
sagehxq 初级会员 发表于 2017-3-1 16:50:45 | 只看该作者
xandy 发表于 2017-3-1 16:19
举个例子,假设你发的这段文本是某div节点(@class='xxx')下的text(),要把“主要产品和服务项目:”和“ ...

这个pdf是可以抓取下来的,每一页是一个div节点。页下面的每一段话或者每一个词语也是一个子div节点。
样本网址:http://www.neeq.com.cn/disclosure/2016/2016-08-11/1470901305_691460.pdf


小Q截图-20170301164852.png (97.65 KB, 下载次数: 597)

小Q截图-20170301164852.png
举报 使用道具
6#
xandy 论坛元老 发表于 2017-3-1 16:56:39 | 只看该作者

你对照教程修改下xpath,上面的只是举例说明,不要直接复制进去用。
举报 使用道具
7#
Fuller 管理员 发表于 2017-3-1 22:22:04 | 只看该作者
pdf的div很特别,可能会把文本拆分到多个div中,自定义xpath不容易写,建议定义一个通用的规则,把整篇文挡的文本都采集下来,用另外的程序匹配其中的内容
举报 使用道具
8#
sagehxq 初级会员 发表于 2017-3-1 23:46:33 | 只看该作者
Fuller 发表于 2017-3-1 22:22
pdf的div很特别,可能会把文本拆分到多个div中,自定义xpath不容易写,建议定义一个通用的规则,把整篇文挡 ...

但是,我需要提取的文本有个很显然的特征就是前后的文本内容固定,所以你看能不能利用这点。如果把所有文本抓下来,主要问题在于文本太多,有好几百页!
举报 使用道具
9#
Fuller 管理员 发表于 2017-3-2 09:05:20 | 只看该作者
sagehxq 发表于 2017-3-1 23:46
但是,我需要提取的文本有个很显然的特征就是前后的文本内容固定,所以你看能不能利用这点。如果把所有文 ...

组合使用substring-after()和substring-before()能把文本内容切出来,也可以作为判断条件进行定位
举报 使用道具
10#
sagehxq 初级会员 发表于 2017-3-3 09:06:25 | 只看该作者
Fuller 发表于 2017-3-2 09:05
组合使用substring-after()和substring-before()能把文本内容切出来,也可以作为判断条件进行定位
...

望大神指教,我试了试,就是没搞明白


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 15:44