在跟着第一节课视频做采集。
第二个规则采集产品的标题,价格,和网页标志 QQ图片20160623112222.png
大概就是这种页面
QQ图片20160623112330.png

在对天猫进行网页标志判断的时候,和视频的步骤一样
1,做内容映射
QQ图片20160623112631.png
2,xpath进行高级设置
QQ图片20160623112731.png

xpath为:.//span[@class="mlogo"]/a/@href[contains(.,'tmall')]
测试过可以定位到元素,截图上传了

最后结果报错
QQ图片20160623112838.png


查了一些资料,关于兼做定位和专用定位。
我的感觉是集搜客会先对dom节点进行定位,在对dom节点里面的内容进行定位,在内容定位里面如果字段不是内容而是节点可能会出错,但是我应该并不是这种情况。

求解答!!!!在线等





举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-9-27 17:03

ym 版主 发表于 2016-6-23 12:01:35 | 显示全部楼层
本帖最后由 ym 于 2016-6-23 12:02 编辑

关于你遇到情况,是因为你写的xpath有语法错误,正确的写法是
.//span[@class='mlogo']/a/@href[contains(.,'tmall')]
建议先到MS的xpath搜索框检验一下xpath是否能定位到节点,定位不到的话,都是有问题的。

关于xpath的更多问题咨询请看这里http://www.gooseeker.com/doc/thread-701-1-1.html
举报 使用道具
comboo 新手上路 发表于 2016-6-23 12:19:32 | 显示全部楼层
多谢版主

原来是这样。试了下,集搜客里面的xpath都是单引号啊 !
举报 使用道具
Fuller 管理员 发表于 2016-6-23 22:41:18 | 显示全部楼层
comboo 发表于 2016-6-23 12:19
多谢版主

原来是这样。试了下,集搜客里面的xpath都是单引号啊 !

多谢提醒,根据你的发现,未来版本我们要在MS界面上专门提醒用户
举报 使用道具
Fuller 管理员 发表于 2016-9-27 17:03:29 | 显示全部楼层
V8.0.2版本解决了自定义XPath引起的问题,主要修改两个工作台
1)创建规则工作台:原先版本不允许使用双引号,使用的话就会报异常。V8.0.2版本自动识别双引号,做提示,给用户两个选择:a,一键自动替换;b,用户自己修改,比如,一定需要双引号的情况下,用户可以编辑成转义符"
2)连续动作工作台:这里虽然不存在双引号问题,但是对自定义xpath做了一些检查和提示

V8.0.2版本即将发布,敬请关注首页右边栏的版本号通知
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 06:24