为什么前面页面和翻页采集都测试没问题了,但是一到层级采集就出错,一旦层级采集出错,会连带着之前的已经测试没问题的规则都出错?是什么原因,有解决办法吗?即使删掉层级采集,前面做的规则都感觉被清空了一样

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-1-15 19:03

沙发
Fuller 管理员 发表于 2020-1-13 16:48:11 | 只看该作者
层级采集中的两级没有直接关联,他们只是通过任务名联系起来,删除任何一级都不影响另一级。

翻页不属于层级采集,翻页的目标任务名就是当前任务名,要检查一下,翻页的目标任务名是不是填错了,如果填的不是当前任务名,这个规则照样可以运行,只是翻到下一页的时候,会企图用另一个规则来采集数据。

你做的规则名是什么?
举报 使用道具
板凳
sayuri199502 初级会员 发表于 2020-1-15 15:35:46 | 只看该作者
你好,谢谢你的回答。
我的规则名是速卖通手表采集第一级,速卖通手表采集第二级
我看了下,每次到了层级采集的时候,之前的样例复制的节点位置(LI和DIV)会自动变化,又得回到之前的样例复制那里进行修正。这是第一个问题。我想问下这是什么原因,是哪里出了问题,有没有解决的办法?
第二个问题是,在我修正第一级规则并且测试没有问题后,我按照教程进行第二级的层级采集,也测试没问题了。
但是在DS打数机爬出来的数据却发生了错乱,而且只采集到了很少的一部分的数据
这是哪个环节出错了

辛苦了
举报 使用道具
地板
Fuller 管理员 发表于 2020-1-15 18:28:12 | 只看该作者
sayuri199502 发表于 2020-1-15 15:35
你好,谢谢你的回答。
我的规则名是速卖通手表采集第一级,速卖通手表采集第二级
我看了下,每次到了层级采 ...

我检查了你的第一级,电商这种动态性很高的页面,不能把定位偏好设置成绝对定位,绝对定位适应性太差了,只能用来采集静态网页。

我改成偏好class,应该很合适
举报 使用道具
5#
Fuller 管理员 发表于 2020-1-15 18:38:35 | 只看该作者
我检查了你的第二级,看起来很好。如果想提高适应性,给容器节点也做上定位标志映射

举报 使用道具
6#
Fuller 管理员 发表于 2020-1-15 18:40:27 | 只看该作者
问题应该就是第一级使用了绝对定位。另外,内容映射以后,看到每个抓取内容都对应上一个DOM节点编号,这个编号其实是临时的,每次加载会变化,因为网页每次加载后,dom节点数量和顺序都会变化。这种变化比较大的网页,就不能用绝对定位
举报 使用道具
7#
Fuller 管理员 发表于 2020-1-15 19:03:33 | 只看该作者
另外,在第一级,“销量”这个抓取内容并不是每个商品都有,所以,不要勾关键内容,否则,抓取到的商品会漏掉没有销量的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 23:23