没做样例复制但全部数据都采下来了是怎么回事?

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-12-16 15:35

沙发
wangyong 版主 发表于 2016-12-16 15:35:06 | 只看该作者
本帖最后由 wangyong 于 2016-12-16 15:38 编辑

GooSeeker在抓取整页数据时有两种方法,
第一种方式是样例复制,原理是将同一父节点下所有的1、2、3、4...节点所包含的数据统一获取下来,所以在做样例复制时必须要用同一父节点下的兄弟节点,通常为第一个、第二个节点。
例如,在淘宝商品搜索页面中,@class='grid-container row'的DIV节点就是父节点,@class='grid-item col'的DIV节点就是互为兄弟节点的子节点,这里的每个节点就代表一个商品。

样例复制就会通过物理关系将所有 @class='grid-container row'的DIV下第1、2、3、4..个商品数据获取下来。
第二种方式是定位标志,原理是将所有属性值相同的节点所包含的数据统一获取下来。

淘宝中所有商品对应的DIV的@class='grid-item col',将第一个DIV做定位标志映射到第整理箱顶节点时就会将所有的商品都抓取下来。

下面回到最开始提问的问题,没做样例复制但全部数据都采下来了是怎么回事?
原因就是由于网页较为结构化自动生产的抓取规则就已经有了做完定位标志的效果,所以将所有的数据都采集下来了,这时候也就不需要做样例复制也不需要做定位标志了。
关于样例复制和定位标志可参看:《样例复制》、《定位标志
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-9 09:30