|
先观察你现在的数据规则
这里面有position()函数,这个是根据位置数字进行定位的,所以,容易受网页结构的影响,本来都做了定位标志映射的,其实不应该用position()函数。这是因为你采集的内容跨了两个区域,一个区域是上边的产品基本信息区,一个是下面的评价区。
跨区域大的时候,爬虫生成规则的时候,就可能以上面那个区域为基准,其他的都相对于他进行定位,所以出现了好多following-sibling。这个时候可以人工干预。
人工选择一个更大的区域做定位标志映射,映射给最顶上的节点detail,这个大区域包含了上面和下面两个区域。这样生成的规则就好了,这样适应性就会提高很多。
另外,跨度大的可以分成多个整理箱,一个整理箱负责一块
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|