contains()函数是最常用的

zhuohui1987

这个份文件是由doc抓html文件本地文件，我现在要抓去上面弄

doc转htm，假如单独抓一份数据是ok，但是数量多就不好，规则不好鉴定，容易抓错内容，抓空，所以contains()函数是最常用的，根据文本中的标志文字定位节点
我把文件放到了百度云盘里了 http://pan.baidu.com/s/1jHZmCwI
麻烦帮我看一下，没有弄主题

Fuller · 发表于 2017-2-25 11:42:41

你想从本地硬盘上的html文件抓数据？

zhuohui1987 · 发表于 2017-2-25 11:45:38

Fuller 发表于 2017-2-25 11:42
你想从本地硬盘上的html文件抓数据？

是的，但是contains()函数是怎么使用

zhuohui1987 · 发表于 2017-2-25 11:48:05

zhuohui1987 发表于 2017-2-25 11:45
是的，但是contains()函数是怎么使用

本地不行放服务器上做超链接就可以啊

Fuller · 发表于 2017-2-25 11:49:20

这些表格都是手工制作的，比如，用word，格式千变万化，而且还有合并单元格，那样就要挨个字段写xpath

xpath不用纯手工写，有生成工具，如下图，选中节点，点击显示XPath按钮，有好几个按钮可以选择，我选择偏好xpath，就这样了

基于自动生成的，手工改改就行了

Fuller · 发表于 2017-2-25 11:55:11

比如，能改成这个样子：

//*[@class='MsoNormal']/span[contains(text(),'估价对象')]

复制代码

找到了6个节点，要找出第一个来，还挺麻烦的，刚才我试了一下，XPath用的不熟，没有写对，需要在百度上查查，用什么函数从这6个中筛选出第一个来

xandy · 发表于 2017-2-25 13:27:00

zhuohui1987 发表于 2017-2-25 11:48
本地不行放服务器上做超链接就可以啊

试下：

//*[contains(./td//span/text(),'估价对象')][1]/td[2]

复制代码

zhuohui1987 · 发表于 2017-2-26 00:47:53

本帖最后由 zhuohui1987 于 2017-2-26 10:14 编辑

xandy 发表于 2017-2-25 13:27
试下：

遇到三种情况我不知道定义
问题一【如下：】
表格一

//*/tr[contains(.//span/text(),'建筑结构')][1]/td[2]
这么写第二行“钢混”定义不到，选出一个，还是没有办法

问题二【如下】

//*[contains(.//span[1]/text(),'估价目的')][1]/span[1]/text() 这么样写怎么样定位不了我上面画那边

问题三

就这么样一排字，我就要抓出让两个字，怎么用xpthy定义呢？

Fuller · 发表于 2017-2-26 10:32:25

zhuohui1987 发表于 2017-2-26 00:47
遇到三种情况我不知道定义
问题一【如下：】
表格一

这么复杂的内容提取就不要在采集规则中做了。
1）如果数据量不大，比如，一万条以内，就导入excel，用excel的函数提取内容，excel很强大
2）如果数据量大，就用数据库的字符处理函数。

这么复杂的内容提取一般要用比较复杂的字符处理函数，xpath在这方面比较弱，不够灵活

xandy · 发表于 2017-2-26 13:33:39

zhuohui1987 发表于 2017-2-26 00:47
遇到三种情况我不知道定义
问题一【如下：】
表格一

问题一：
xpath语句可以这样写：

//*[@class='MsoNormal'][contains(.//text(),'建筑结构')]/../following-sibling::td[1]

复制代码

问题二和问题三，如Fuller所说的，你把整段文本采集下来，到excel或数据库处理，这样来的快和容易些。

contains()函数是最常用的

本帖子中包含更多资源

共 9 个关于本帖的回复最后回复于 2017-2-26 13:33

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

contains()函数是最常用的

本帖子中包含更多资源

共 9 个关于本帖的回复 最后回复于 2017-2-26 13:33

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 9 个关于本帖的回复最后回复于 2017-2-26 13:33