求助,二级爬取京东信息时,经常显示 匹配失败怎么办?


求大神帮忙看下,1级没有问题,但是2级运行,爬取里面的商品信息时候,总是显示匹配失败就卡住不动了


1

1

2

2
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2019-3-15 12:03

Fuller 管理员 发表于 2019-3-15 10:34:49 | 显示全部楼层
我加载了你的二级规则,只采集两个字段,这两个字段都可以在第一级采集全,再做个第二级没有必要,才第二级多慢啊
举报 使用道具
Fuller 管理员 发表于 2019-3-15 10:41:38 | 显示全部楼层
定位20190315103745.png
要用定位标志映射,可以提高规则的适应性,参看《定位标志精确采集范围

注意最下面的箭头,不能用那个class作为定位标志,因为每个商品都有一个独特的编号,如果用上,就只能采集这个网页了。内容映射和定位标志映射都可以用含有@class='p-price'那个节点。


点击测试按钮,可以看到生成的规则都是参照所选的class值,里面没有position()函数,这样就最好的适应性
举报 使用道具
zhaobaitong 新手上路 发表于 2019-3-15 10:49:20 | 显示全部楼层
Fuller 发表于 2019-3-15 10:41
要用定位标志映射,可以提高规则的适应性,参看《定位标志精确采集范围》

注意最下面的箭头,不能用那个c ...

我后来改了下的,原来是想要采集商品评论的,但是经常匹配失败,现在就是想解决这个问题,我的天猫采集也是这个问题,我发给你看看

举报 使用道具
zhaobaitong 新手上路 发表于 2019-3-15 10:53:49 | 显示全部楼层
Fuller 发表于 2019-3-15 10:41
要用定位标志映射,可以提高规则的适应性,参看《定位标志精确采集范围》

注意最下面的箭头,不能用那个c ...

这个

11

11
举报 使用道具
Fuller 管理员 发表于 2019-3-15 12:03:01 | 显示全部楼层

你要定义的规则结构很复杂,很容易规则失效,应该这样处理:
1,最好把网页上不同区域的信息放在不同的整理箱中,比如,基本信息部分,参数部分,评论部分
2,一定要尽量做上定位标志映射,否则规则一定不通用,网页稍微有点变化就受不了了

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 21:54