21#
xandy 论坛元老 发表于 2017-3-3 11:11:55 | 只看该作者
sagehxq 发表于 2017-3-3 11:03
对啊,我是将substring-before(substring-after(.,'主要产品与服务项目'),'普通股股票转让方式')复制到 ...

还有就是你要确保你要提取的文字就是在'主要产品与服务项目'和'普通股股票转让方式'之间,如果换了要抓取的内容,xpath函数还得调整过。
举报 使用道具
22#
sagehxq 初级会员 发表于 2017-3-3 11:14:35 | 只看该作者
xandy 发表于 2017-3-3 11:11
还有就是你要确保你要提取的文字就是在'主要产品与服务项目'和'普通股股票转让方式'之间,如果换了要抓取 ...

每个pdf都具有这样的特征,而且我用的pdf样本都是和你的样本一样,到底哪里出了问题了呢?

举报 使用道具
23#
xandy 论坛元老 发表于 2017-3-3 11:18:13 | 只看该作者
sagehxq 发表于 2017-3-3 11:14
每个pdf都具有这样的特征,而且我用的pdf样本都是和你的样本一样,到底哪里出了问题了呢?

...

你先报存规则,保存完后发下规则名,我看下。
不然自己新建过规则试下!!!
举报 使用道具
24#
sagehxq 初级会员 发表于 2017-3-3 11:23:21 | 只看该作者
xandy 发表于 2017-3-3 11:18
你先报存规则,保存完后发下规则名,我看下。
不然自己新建过规则试下!!!
...

主题名:pdf抓取sage。
举报 使用道具
25#
xandy 论坛元老 发表于 2017-3-3 11:38:42 | 只看该作者
sagehxq 发表于 2017-3-3 11:23
主题名:pdf抓取sage。

点击“规则”,“刷新网页结构”,然后点击测试后结果就有了。

ps:下次可不可以先按提示先操作下再发问。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
26#
sagehxq 初级会员 发表于 2017-3-3 11:43:54 | 只看该作者
xandy 发表于 2017-3-3 11:38
点击“规则”,“刷新网页结构”,然后点击测试后结果就有了。

ps:下次可不可以先按提示先操作下再发问 ...

我有刷新网页结构的,您是用的我创建的规则吗?
举报 使用道具
27#
xandy 论坛元老 发表于 2017-3-3 11:46:51 | 只看该作者
sagehxq 发表于 2017-3-3 11:43
我有刷新网页结构的,您是用的我创建的规则吗?

你看下截图的主题名,是你的
举报 使用道具
28#
xandy 论坛元老 发表于 2017-3-3 12:03:42 | 只看该作者
sagehxq 发表于 2017-3-3 11:43
我有刷新网页结构的,您是用的我创建的规则吗?

在MS谋数台的浏览器中,先把滚动条拉到底(让MS把所有内容先解析出来)

然后:
1)点击“规则”
2)点击“刷新网页结构”
3)点击测试

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
29#
sagehxq 初级会员 发表于 2017-3-3 12:41:36 | 只看该作者
xandy 发表于 2017-3-3 12:03
在MS谋数台的浏览器中,先把滚动条拉到底(让MS把所有内容先解析出来)

然后:

谢谢,原来问题出在没有加载完全!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-4 20:17