xandy 发表于 2017-3-1 16:19
举个例子,假设你发的这段文本是某div节点(@class='xxx')下的text(),要把“主要产品和服务项目:”和“ ...
这个pdf是可以抓取下来的,每一页是一个div节点。页下面的每一段话或者每一个词语也是一个子div节点。 样本网址:http://www.neeq.com.cn/disclosure/2016/2016-08-11/1470901305_691460.pdf |
Fuller 发表于 2017-3-1 22:22
pdf的div很特别,可能会把文本拆分到多个div中,自定义xpath不容易写,建议定义一个通用的规则,把整篇文挡 ...
sagehxq 发表于 2017-3-1 23:46
但是,我需要提取的文本有个很显然的特征就是前后的文本内容固定,所以你看能不能利用这点。如果把所有文 ...
Fuller 发表于 2017-3-2 09:05
组合使用substring-after()和substring-before()能把文本内容切出来,也可以作为判断条件进行定位
...
Fuller 发表于 2017-3-2 09:05
组合使用substring-after()和substring-before()能把文本内容切出来,也可以作为判断条件进行定位
...
sagehxq 发表于 2017-3-3 09:09
而且,substring-after()和substring-before()只能针对某个节点下的文本,对吗?
...
ym 发表于 2017-3-3 09:43
是的,你可以用整篇文章的那个html节点作为提取信息的初始值。
sagehxq 发表于 2017-3-3 09:55
能不能举个例子啊,这样讲得比较抽象,恕我愚钝。谢谢!
xandy 发表于 2017-3-3 10:09
如下图所示,将整个HTML内容映射给要抓的内容。
然后,给该采集字段勾选高级设置->勾选自定义xpath->勾选 ...
xandy 发表于 2017-3-3 10:09
如下图所示,将整个HTML内容映射给要抓的内容。
然后,给该采集字段勾选高级设置->勾选自定义xpath->勾选 ...
sagehxq 发表于 2017-3-3 10:44
这个xpath在搜索栏里定位不到dom节点,不知道哪里有问题。好捉急!
xandy 发表于 2017-3-3 10:49
高级设置里面xpath要复制进去。
这个xpath里头有函数,不能直接在搜索框进行搜索。
...
xandy 发表于 2017-3-3 10:49
高级设置里面xpath要复制进去。
这个xpath里头有函数,不能直接在搜索框进行搜索。
...
sagehxq 发表于 2017-3-3 11:03
对啊,我是将substring-before(substring-after(.,'主要产品与服务项目'),'普通股股票转让方式')复制到 ...
sagehxq 发表于 2017-3-3 11:03
对啊,我是将substring-before(substring-after(.,'主要产品与服务项目'),'普通股股票转让方式')复制到 ...
xandy 发表于 2017-3-3 11:11
还有就是你要确保你要提取的文字就是在'主要产品与服务项目'和'普通股股票转让方式'之间,如果换了要抓取 ...
sagehxq 发表于 2017-3-3 11:14
每个pdf都具有这样的特征,而且我用的pdf样本都是和你的样本一样,到底哪里出了问题了呢?
...
xandy 发表于 2017-3-3 11:18
你先报存规则,保存完后发下规则名,我看下。
不然自己新建过规则试下!!!
...
sagehxq 发表于 2017-3-3 11:23
主题名:pdf抓取sage。
xandy 发表于 2017-3-3 11:38
点击“规则”,“刷新网页结构”,然后点击测试后结果就有了。
ps:下次可不可以先按提示先操作下再发问 ...
sagehxq 发表于 2017-3-3 11:43
我有刷新网页结构的,您是用的我创建的规则吗?
sagehxq 发表于 2017-3-3 11:43
我有刷新网页结构的,您是用的我创建的规则吗?
xandy 发表于 2017-3-3 12:03
在MS谋数台的浏览器中,先把滚动条拉到底(让MS把所有内容先解析出来)
然后:
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) | Powered by Discuz! X3.2 |