想要实践模拟动作,所以尝试抓取了京东手机产品的具体信息,有两个问题想要请教,麻烦各位了!
第一个问题:
想要抓取“商品介绍”和“规格与包装”两个页面的数据。因为“商品介绍”的内容也是需要规定连续动作之后才能采集的,所以在运行“商品介绍”的规则前会有一个第一层级的规则。请问这个时候“商品介绍”和“规格与包装”这两个规则还有第一层级规则的关系是什么样的?“规格与包装”的模拟点击动作应该连接在第一层级规则上,还是应该再抓取完“商品介绍的数据后,连接在“商品介绍”的规则上?也就是说,在点击会员中心“管理规则”的关系的时候出现的应该是“第一层级规则”和“商品介绍”是上下级,然后“商品介绍”和“规则与包装”是上下级关系,这样的递进关系呢?还是应该是“第一层级规则”和“商品介绍”是上下级,然后“第一层级规则”和“规则与包装”是上下级关系,这样的并列关系呢?
第二个问题:
在运行“规则与包装”规则抓取数据的时候,出现了数据错乱的问题。因为“规则与包装”页面要抓取的项目较多,我采取的是边测试边继续添加抓取内容的方式。发现一个问题,在刚开始添加抓取内容的时候数据都是正确的,但是添加到接近或者超过一半的时候会出现数据错乱的现象,即添加抓取内容的名称和顺序是对的,但是抓取到的内容一直重复头三个数据项。
之后尝试了建立两个整理箱,第一个整理箱的数据恢复正常了,但是第二个整理箱的数据还是错误的。
整理箱设计(从网页上“存储”部分开始分成两个整理箱)
第一个整理箱数据正常
第二个整理箱数据重复循环第一个整理箱的前三个数据和所有数据项都在一个整理箱里面的情况一样
请问数据错乱的问题应该怎么解决?
十分感谢!
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
|
|
|
共 3 个关于本帖的回复 最后回复于 2017-3-30 09:51