举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-3-29 15:17

沙发
hpmouse 新手上路 发表于 2017-3-29 08:52:34 | 只看该作者
就是说在这种以格为单位显示搜索结果的淘宝界面,样例复制后没有效果,还是只采第一个样例,不能把相同的都采到。

还有一个问题,如何在MS某数台调出之前写的规则进行修改呢? 好像一个规则写完后就不能再修改了。
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2017-3-29 09:08:05 | 只看该作者
举报 使用道具
地板
shenzhenwan10 金牌会员 发表于 2017-3-29 09:09:27 | 只看该作者
hpmouse 发表于 2017-3-29 08:52
就是说在这种以格为单位显示搜索结果的淘宝界面,样例复制后没有效果,还是只采第一个样例,不能把相同的都 ...

规则的修改看这篇教程: 规则怎么查看、修改、另存、删除

举报 使用道具
5#
hpmouse 新手上路 发表于 2017-3-29 12:36:05 | 只看该作者
shenzhenwan10 发表于 2017-3-29 09:09
规则的修改看这篇教程: 规则怎么查看、修改、另存、删除

嵌套确实可以让 次级样本复制 更加灵活,我测试发现实际上只需要把顶层样本复制, 就能够自动输出顶层样本层中包含次级样本结构的所有内容,这时次级样本是没有启用样例复制的。

举报 使用道具
6#
hpmouse 新手上路 发表于 2017-3-29 13:39:18 | 只看该作者

又研读了几篇帖子,做了一些尝试
发现原来之前没法实现复制实际上是这种 淘宝格子显示的搜索结果 在不同列之间有相同的Class,会导致即使样例复制也只采集第一次出现class的值,造成了只有一次结果。(这个时候应该使用绝对ID)
而层级设置设置了顶层样例复制不设次级复制也能够获取所有同结构数据 恰恰也是因为这些次级样例有同样的Class,导致了一次把这些结果都采集出来。阴差阳错的实现了目的。

举报 使用道具
7#
Fuller 管理员 发表于 2017-3-29 14:46:26 | 只看该作者
hpmouse 发表于 2017-3-29 13:39
又研读了几篇帖子,做了一些尝试
发现原来之前没法实现复制实际上是这种 淘宝格子显示的搜索结果 在不同 ...

对于行和列分开的结构,要做嵌套整理箱,但是如果有相同的@class,那么只需要一层整理箱,给顶层容器节点做定位标志映射。


还有一个技巧:如果代表一个产品整体的div没有合适的@class,那么还可以利用内部某个字段的@class,比如,商品名字的class映射给顶层容器节点,很多时候也可以做为整体的定位标志。


有定位标志尽量用定位标志,而不用样例复制
举报 使用道具
8#
hpmouse 新手上路 发表于 2017-3-29 15:17:00 | 只看该作者
Fuller 发表于 2017-3-29 14:46
对于行和列分开的结构,要做嵌套整理箱,但是如果有相同的@class,那么只需要一层整理箱,给顶层容器节点 ...

有定位标志尽量用定位标志,而不用样例复制
这句话太有道理了,只要选取Class优先并且有嵌套多层,爬数时内层就能自动识别同类结构进行抓取。外层只需要指定一个包含所有数据的比较高级别的DIV作为标志就可以了。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 02:02