层级抓取不管是第一级还是第二级都失败
主题名“riyadxbtest1”"riyadxbtest2"
只能抓取前几个,后面就显示匹配失败
这是哪里出了问题呢

举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2018-6-4 10:38

沙发
Fuller 管理员 发表于 2018-6-2 10:04:39 | 只看该作者
亚马逊网页的节点上有很多@id和@class值,id一般是唯一的,爬虫生成规则的时候会优选id,有时候翻页到第二页,这个id值就变了,所以会匹配失败。




向上图那样做定位标志映射,这样就是人工指定选择哪个定位标志,不要爬虫自动选
1,给两个抓取内容做上定位标志映射,选用同一个含有定位标志的节点做映射。具体参看《定位标志精确采集范围
2,给顶层的容器节点也做定位标志映射,而不用样例复制,也是用来采集多个样例的,具体参看《定位标志采集列表数据
3,双击顶层的容器节点,进入到高级设置窗口,勾选class,就能看到选择的定位标志变了,一开始是@id="result0",改成class,因为id是唯一的,无法采集多个样例

另外,亚马逊的网页内容是动态的,所以,应该打开DS打数机的自动滚屏。在DS打数机菜单上设置,配置-》滚屏参数,把滚屏次数设置成>0的数字就打开了自动滚屏

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
aanari 初级会员 发表于 2018-6-4 10:38:55 | 只看该作者
Fuller 发表于 2018-6-2 10:04
亚马逊网页的节点上有很多@id和@class值,id一般是唯一的,爬虫生成规则的时候会优选id,有时候翻页到第二 ...

非常感谢!!!!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 14:55