提示: 作者被禁止或删除 内容自动屏蔽
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-4-24 18:05

Fuller 管理员 发表于 2019-4-23 21:47:38 | 显示全部楼层
自定义xpath的一组教程参看:https://www.gooseeker.com/doc/thread-701-1-1.html

文本定位用函数test(),而不是#text

xpath的函数和完整的用法应该在百度上找点更全面的资料
举报 使用道具
Fuller 管理员 发表于 2019-4-23 21:47:38 | 显示全部楼层
自定义xpath的一组教程参看:https://www.gooseeker.com/doc/thread-701-1-1.html

文本定位用函数test(),而不是#text

xpath的函数和完整的用法应该在百度上找点更全面的资料
举报 使用道具
Fuller 管理员 发表于 2019-4-23 21:47:39 | 显示全部楼层
自定义xpath的一组教程参看:https://www.gooseeker.com/doc/thread-701-1-1.html

文本定位用函数test(),而不是#text

xpath的函数和完整的用法应该在百度上找点更全面的资料
举报 使用道具
mohany 禁止发言 发表于 2019-4-24 16:47:53 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
举报 使用道具
Fuller 管理员 发表于 2019-4-24 18:05:35 | 显示全部楼层
mohany 发表于 2019-4-24 16:47
用a标签找到了,采下来是a标签的所有数据,怎么用substring-before和substring-after筛选这个数据啊,不 ...

这个网页结构是很规整的,根本不用做自定义xpath,用A节点下的href节点做一个内容映射。因为网页上的A节点太多,容易采集不准确,但是要采集联系方式,再用一个定位标志映射精确选定一下位置就行了。你看,含有联系方式这个A节点的LI节点具有@class='contactinfo-page'这个很好的定位标志。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 21:53