本帖最后由 jianwen_123 于 2016-7-14 12:03 编辑

想获取搜房案例中的房源编号,做内容映射时获得的文本“房源编号:156980686”,现在只想截取冒号之后的数字


C:\Users\dell\Desktop\结果图
C:\Users\dell\Desktop\自定义xpath
用substring-after函数,在自定义抓取规则中依次输入:
抓取内容表达式:
/html/body/div[position()=8]/div[position()=2]/div[position()=3]/div[position()=1]/p/span[last()-1]
定位标志表达式:
substring-after(/html/body/div[position()=8]/div[position()=2]/div[position()=3]/div[position()=1]/p/span[last()-1]/text(),':')
但测试规则时报错“为整理箱生成结果时发生异常”。请问大神错在哪里?是抓取内容表达式有问题吗,还是自定义xpath后进行内容映射的时候出现问题。谢谢!
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-7-14 14:22

沙发
ym 版主 发表于 2016-7-14 14:21:36 | 只看该作者
本帖最后由 ym 于 2016-7-14 14:25 编辑

定位标志表达式是用来定位采集范围的,填的是节点的xpath路径,不能是xpath函数;
想要指定抓定位标志表达式中填的xpath范围内的特定信息,应该是在抓取内容表达式中填该节点的相对xpath路径,或该节点的相对路径的xpath函数;

更多xpath的问题参见http://www.gooseeker.com/doc/thread-701-1-1.html
举报 使用道具
板凳
HJLing 版主 发表于 2016-7-14 14:22:02 | 只看该作者
substring-after后面的括号应该是英文的括号 函数的第二个参数的冒号应该和网页保持一致用中文的  
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 06:07