为什么刚刚我试了一下,我把 自定义Xpath取消了,然后就用的系统自动匹配的规则,竟然能正常抓取了。而之前就不行,这是为什么呢?每个页面的适配性不同么?还是每次系统自动匹配出来的规则可能会有变化?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-12-19 22:46

沙发
quyixuan 金牌会员 发表于 2016-12-19 16:14:35 | 只看该作者
自动生成的规则是不会变的,除非你做定位标志或者调整定位选项
举报 使用道具
板凳
Fuller 管理员 发表于 2016-12-19 22:46:41 | 只看该作者
这里有一个自定义xpath的集锦 。一定要注意自定义xpath的基点,也就是相对于某个DOM节点往下写xpath。比如
/html/body/div  这是从最顶上的节点开始写的xpath
//div 也是从最顶上的节点开始写的
.//div 是相对于某个节点开始写的,也就是从某个基点开始的。

集搜客网络爬虫自动生成的规则会确定好基点,那么自定义xpath一定要从这个基点开始写。《怎样设置自定义xpath》写的很详细。


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 05:05