如何自定义xpath或xslt，实现自定义数据抓取呢？

xcntime

在循环抓取表格内容时，出现问题：某一单元格内可能包含多行数据(br换行)，也可能没有数据，那么在提取多行数据的时候，多行数据连接在一起导致没法区分起止，所以使用自定义xpath进行node()选取，可以保留br换行符了，然而诡异的是br为什么多了一个xmlns="http://www.w3.org/1999/xhtml"的属性声明，能不能把它去掉呢？？
网址是：http://zt.zjzs.net/xuanke/10460.html
下面是截图：

Fuller · 发表于 2017-2-21 22:24:50

你这是很高级的用法了，我几乎没有用过node()函数，刚才我测试了一下，如果不用node()，那么采集下来的是包含用来做映射的td节点，结果是

<所含专业>
<td xmlns="http://www.w3.org/1999/xhtml" align="left">地球化学
<br />地质学
</td>
</所含专业>

复制代码

如果用上node()函数，就把td内部的所有节点都采集下来，结果是

<所含专业>社会学
<br xmlns="http://www.w3.org/1999/xhtml" />社会工作
</所含专业>

复制代码

结果更加理想。含有xmlns="http://www.w3.org/1999/xhtml" 的原因是原样采集下来的的html节点所属的命名空间与结果文件xml的命名空间不同，也就是节点名字属于两个不同的体系，所以，html节点会加上命名空间声明。

第二种结果只有br节点，无论是否含有命名空间，都比较容易过滤掉。

xcntime · 发表于 2017-2-25 15:30:14

Fuller 发表于 2017-2-21 22:24
你这是很高级的用法了，我几乎没有用过node()函数，刚才我测试了一下，如果不用node()，那么采集下来的是包 ...

看来得加上node()了，最后再用编辑器替换吧。，不然没法区分换行了

如何自定义xpath或xslt，实现自定义数据抓取呢？

本帖子中包含更多资源

共 2 个关于本帖的回复最后回复于 2017-2-25 15:30

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

如何自定义xpath或xslt，实现自定义数据抓取呢？

本帖子中包含更多资源

共 2 个关于本帖的回复 最后回复于 2017-2-25 15:30

推荐板块

精彩推荐

热门话题

热门用户

共 2 个关于本帖的回复最后回复于 2017-2-25 15:30