主题名:宝贝-详情页
规则编号:规则_2
整理箱:详细参数
抓取内容表达式:.//ul[@id='J_AttrUL']/li/text()
定位标志表达式:.//ul[@id='J_AttrUL']

写了个自定义xpath,复制近搜索框是没问题的,但是测试就是抓不到数据?

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-1-17 17:24

沙发
gz51837844 管理员 发表于 2017-1-16 20:24:52 | 只看该作者
你测试抓不到数据是指什么?
我在MS谋数台里测试你的规则的4个整理箱, 都可以抓到数据
举报 使用道具
板凳
gz51837844 管理员 发表于 2017-1-16 20:37:09 | 只看该作者
你的规则2的网页结构不一样, 我看你定义了点击动作
可以把目标主题指向一个新的主题名
举报 使用道具
地板
756292075 中级会员 发表于 2017-1-17 15:35:15 | 只看该作者
规则1是能抓到的 规则2详细参数那个整理箱我换成了xpath就抓不到了
因为规则1和规则2网页结构就详细参数那里 一个是直接有多个list 一个是只有1个list 要连续动作点了才能全部显示出来
所以我想通过xpath的./ul[count(./li)>1]或者./ul[count(./li)=1]来区分两个规则
举报 使用道具
5#
HJLing 版主 发表于 2017-1-17 15:58:34 | 只看该作者
规则2那种页面 其实不用做连续动作去点击 在dom里就能找到对应的节点

所以可以找到这些节点后直接做映射

另外 想要区别两个规则的话 可以在规则1,2换一下 在规则1来采集这种有点击的页面 加一个抓取内容用来采集“更多参数”并勾上关键内容
这样采集一开始就先匹配规则1 如果找不到更多参数 再去匹配规则2
举报 使用道具
6#
756292075 中级会员 发表于 2017-1-17 17:20:17 | 只看该作者
谢谢斑竹,完美解决问题!ps:之前看淘宝天猫评论抓取那个视频,以为两个规则都要有另一个规则没有的东西,原来只要规则2有,规则1没有就可以了~

本着求学的态度,我还是想问下,假如两个页面结构都一样,就只有某个ul下面有一个或多个li,那用xpath定位怎么区分?
举报 使用道具
7#
HJLing 版主 发表于 2017-1-17 17:24:03 | 只看该作者
756292075 发表于 2017-1-17 17:20
谢谢斑竹,完美解决问题!ps:之前看淘宝天猫评论抓取那个视频,以为两个规则都要有另一个规则没有的东西, ...

可以给第二个li做个内容映射来区分

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 09:03