主题是淘宝A2奶粉0523-商品详情,  下面两个网页结构是一样的,设置好规则后只有一部分线索可以成功抓到数据,麻烦可以帮忙看一下吗?
https://item.taobao.com/item.htm?id=527398268121&ns=1&abbucket=16#detail (抓到数据)
https://item.taobao.com/item.htm ... ;abbucket=16#detail (失败,无法定位容器 No.0)


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-5-27 21:11

沙发
wangyong 版主 发表于 2017-5-27 16:28:22 | 只看该作者
对整理箱顶节点做上定位标志就可以了,参看教程:《定位标志映射》
映射到整理箱的节点需要是包含整理箱中所有抓取内容的节点
定位标志映射的节点需要是要抓取的每个网页都相同,这两个网页中下图节点是两个网页都有的

举报 使用道具
板凳
carmen 中级会员 发表于 2017-5-27 20:17:46 | 只看该作者
wangyong 发表于 2017-5-27 16:28
对整理箱顶节点做上定位标志就可以了,参看教程:《定位标志映射》
映射到整理箱的节点需要是包含整理箱中 ...

ths~~现在整理箱顶节点已经做了定位标志,测试了一部分线索,抓取失败,查看分析,大部分是标题定位不到,还有淘宝价也有问题,做得规则标题跟淘宝价定位不对吗?
举报 使用道具
地板
Fuller 管理员 发表于 2017-5-27 21:11:23 | 只看该作者
carmen 发表于 2017-5-27 20:17
ths~~现在整理箱顶节点已经做了定位标志,测试了一部分线索,抓取失败,查看分析,大部分是标题定位不到 ...



你做了很精准的内容映射,所选择的text在这个代表产品名称的网页区块中的位置很深,所以,生成的xpath很长,很容易受到网页结构变化的影响。采集产品名称的话,完全可以用这个区块的最外层那个DIV做内容映射,或者做直观标注,提高规则的适应性。

价格的映射也是这个道理,但是价格要复杂很多,网页上有促销价格,有平常的价格,他们在网页上的位置都不一样,如果无法用一个规则适应所有情况,那么就要定义多个规则,给他们相同的主题名,而规则编号填写不一样,那么DS打数机运行的时候会选择一个合适的。

你采集失败的网址是哪个?举个例子我们研究一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 01:48