这种情况如何处理呢
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-5-20 11:40

沙发
Fuller 管理员 发表于 2017-5-20 11:33:32 | 只看该作者
样本页面上没有的,在自定义xpath的时候,抓取内容表达式和定位标志表达式分别写,采取如下步骤

1,给那些没有的列都创建抓取内容
2,用网页上存在的内容做内容映射给他们
3,自定义xpath,定位表达式xpath写成能定位到网页上总是存在的某个节点;抓取内容表达式写成实际要抓取的位置(样本页面上可能没有)


举报 使用道具
板凳
gooseeker_info 金牌会员 发表于 2017-5-20 11:39:54 | 只看该作者
Fuller 发表于 2017-5-20 11:33
样本页面上没有的,在自定义xpath的时候,抓取内容表达式和定位标志表达式分别写,采取如下步骤

1,给那些 ...

那就是说如果页面没有,那么定位表达式可以补血,内容表达式要写,是这样么
举报 使用道具
地板
Fuller 管理员 发表于 2017-5-20 11:40:35 | 只看该作者
gooseeker_info 发表于 2017-5-20 11:39
那就是说如果页面没有,那么定位表达式可以补血,内容表达式要写,是这样么
...

给不存在的抓取内容也要做内容映射,先自动生成规则,就能看到生成的xpath,把这个xpath拷过来作为定位表达式

内容表达式要纯靠手写
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 01:06