1.为什么要建多个整理箱 目的是什么?
2.同一任务名下建多个规则,是为了同一类网页不同情况?为了所有网页都抓取到吗?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2019-9-9 17:52

Fuller 管理员 发表于 2019-9-6 10:25:29 | 显示全部楼层
多个整理箱20190906102055.png

举个例子,这是京东网站上一个商品的网页,这个网页还还长,整个内容其实是分成多个区域的,每个区域表达不同方面,不如上面的蓝框
第一个区域是图,你也许想把所有图下载下来,集搜客网络爬虫下载图片是很便捷的。
第二个区域是基本信息

这些区域最好用不同的整理箱来存放,那么就会导出excel的时候放在不同的excel表中,这样才合适,不然的话,会有大量重复内容,比如,把产品名字和图片放在一起,名字只有一个,图片有好几个,图片每行放一条,那么名字就要跟着重复拷贝很多

另外,多个整理箱的规则适应性远远高于一个整理箱。这么大的网页,说不定哪个区域改动一下,如果只有一个整理箱,整个内容就采集不到了
举报 使用道具
Fuller 管理员 发表于 2019-9-6 10:26:55 | 显示全部楼层
同一个任务名下创建多个规则,确实是为了适应多种网页结构的,要用在同一类里面,比如,都是京东商品详情页,而不要把商品搜索结果页和商品详情页的两个规则放在同一个任务下
举报 使用道具
betainfo2019 初级会员 发表于 2019-9-9 17:37:53 | 显示全部楼层
Fuller 发表于 2019-9-6 10:25
举个例子,这是京东网站上一个商品的网页,这个网页还还长,整个内容其实是分成多个区域的,每个区域表达 ...

那整理箱中嵌套一层层的目的是为了什么?如图所示的嵌套
问题.jpg
举报 使用道具
Fuller 管理员 发表于 2019-9-9 17:52:10 | 显示全部楼层
betainfo2019 发表于 2019-9-9 17:37
那整理箱中嵌套一层层的目的是为了什么?如图所示的嵌套

至少有两个场景,需要用嵌套整理箱

1,为了定位更加准确。外面那层用一个定位标志映射,相当于在网页上划定一个区域,而里面那层用样例复制映射才真正循环采集整个列表。

2,网页上的内容本身就有多层循环,比如,采集京东的商品菜单
多层20190909175037.png
外层整理箱负责竖向的大类别循环,内层整理箱负责横向的小类别循环
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 21:57