现有一个网页pdf文档,其内容是“主要产品和服务项目:电子产品。经营状况:良好。"我需要把“主要产品和服务项目:”和“经营状况:”之间的文本内容提取出来。应该怎么写xpath语句。谢谢。
举报 使用道具
| 回复

共 28 个关于本帖的回复 最后回复于 2017-3-3 12:41

沙发
xandy 论坛元老 发表于 2017-3-1 16:08:40 | 只看该作者
你要把主题名或者样本网址贴出来,然后截图说明下我们才知道网页结构是怎样的啊。
举报 使用道具
板凳
xandy 论坛元老 发表于 2017-3-1 16:19:59 | 只看该作者
举个例子,假设你发的这段文本是某div节点(@class='xxx')下的text(),要把“主要产品和服务项目:”和“经营状况:”之间的文本内容提取出来,那么xpath可以这么写:
  1. substring-before(substring-after(//*[@class='xxx']/text(),'主要产品和服务项目:'),'经营状况:')
复制代码

前提是PDF的这段文本是可以抓取下来的,你可以参看这个帖子:《xpath使用substring-before()和substring-after()遇到的问题
举报 使用道具
地板
sagehxq 初级会员 发表于 2017-3-1 16:49:05 | 只看该作者
这个pdf是可以抓取下来的,每一页是一个div节点。页下面的每一段话或者每一个词语也是一个子div节点。
样本网址:网页pdf

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
sagehxq 初级会员 发表于 2017-3-1 16:50:45 | 只看该作者
xandy 发表于 2017-3-1 16:19
举个例子,假设你发的这段文本是某div节点(@class='xxx')下的text(),要把“主要产品和服务项目:”和“ ...

这个pdf是可以抓取下来的,每一页是一个div节点。页下面的每一段话或者每一个词语也是一个子div节点。
样本网址:http://www.neeq.com.cn/disclosure/2016/2016-08-11/1470901305_691460.pdf


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
xandy 论坛元老 发表于 2017-3-1 16:56:39 | 只看该作者

你对照教程修改下xpath,上面的只是举例说明,不要直接复制进去用。
举报 使用道具
7#
Fuller 管理员 发表于 2017-3-1 22:22:04 | 只看该作者
pdf的div很特别,可能会把文本拆分到多个div中,自定义xpath不容易写,建议定义一个通用的规则,把整篇文挡的文本都采集下来,用另外的程序匹配其中的内容
举报 使用道具
8#
sagehxq 初级会员 发表于 2017-3-1 23:46:33 | 只看该作者
Fuller 发表于 2017-3-1 22:22
pdf的div很特别,可能会把文本拆分到多个div中,自定义xpath不容易写,建议定义一个通用的规则,把整篇文挡 ...

但是,我需要提取的文本有个很显然的特征就是前后的文本内容固定,所以你看能不能利用这点。如果把所有文本抓下来,主要问题在于文本太多,有好几百页!
举报 使用道具
9#
Fuller 管理员 发表于 2017-3-2 09:05:20 | 只看该作者
sagehxq 发表于 2017-3-1 23:46
但是,我需要提取的文本有个很显然的特征就是前后的文本内容固定,所以你看能不能利用这点。如果把所有文 ...

组合使用substring-after()和substring-before()能把文本内容切出来,也可以作为判断条件进行定位
举报 使用道具
10#
sagehxq 初级会员 发表于 2017-3-3 09:06:25 | 只看该作者
Fuller 发表于 2017-3-2 09:05
组合使用substring-after()和substring-before()能把文本内容切出来,也可以作为判断条件进行定位
...

望大神指教,我试了试,就是没搞明白


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-4 15:18