快捷导航

采网址做层级采集——以大众点评为例

2016-10-19 11:05| 发布者: ym| 查看: 8501| 评论: 7

摘要: 一、操作步骤 前面写过两篇教程,《采集列表数据》是采集大众点评的列表页,《采集网页数据》是采集大众点评的店铺详情页,很多人想把这两个串在一起,这样就能批量采集店铺详情页的数据了。下面我们通过层级采集来 ...

一、操作步骤

前面写过两篇教程,《采集列表数据》是采集大众点评的列表页,《采集网页数据》是采集大众点评的店铺详情页,很多人想把这两个串在一起,这样就能批量采集店铺详情页的数据了。下面我们通过层级采集来实现,它是通过网址关联起两级页面,从而实现批量采集第二级页面。下面还是以大众点评为例,讲解如何设置层级采集。操作步骤如下:


二、案例规则+操作步骤

第一步:定义第一级规则的具体操作可以参考文章《采集列表数据》,如需设置翻页,请参考文章《翻页采集列表》,下面从第二步操作讲起。

第二步:设置下级线索

2.1,网址通常是存在attributes下的@href节点中。在浏览器上直接点击商品的标题定位到网页节点H4,展开它的下层节点,没有找到@href,再找它的上层节点A,找到@href,注意要检验一下是否为对应的下级网址,再右击@href选择“内容映射”->“新建抓取内容”,输入标签名(任意命名),比如,“网址”。


2.2,在整理箱里选中“网址”,打勾“下级线索”。这个只能对映射了网址的标签名进行设置。


2.3,切换到爬虫路线窗口,选择下级线索的路线(定位编号总是info),在目标主题名里填上第二级规则的主题名(自定义的名称,点击“谁在用”查重,没有重复就可以使用)。


2.4,测试没有问题,就可以保存规则。

注意:如下图,抓到的是相对网址,即缺少了域名部分,这是因为很多网站都采用了相对网址的方式,但是爬虫给下级主题生成线索就会自动补全域名,所以,不会影响下级网页的采集。


第三步:定义第二级规则

点击“规则”菜单->“新建”,工作台会被清空,就可以开始做第二级主题的规则,拷贝第二级页面的样例网址到输入框,命名主题里要填第二级主题名前面第一级规则的下级线索里填的目标主题名),然后标注网页上想要的信息。做规则的操作都是差不多的,想要看手把手的操作请看《采集网页数据》教程,这里就不重复讲了。


第四步:抓数据

4.1,层级规则是分开独立运行的,先运行第一级规则,它就会把抓到的下级网址自动导入到第二级规则里。如何采数据的操作见《DS打数机采集数据》

4.2,再运行第二级规则,先统计一下线索数,然后就可以输入统计到的网址数,进行批量采集。如果两级要同时运行,点各自的“集搜”,就能各自运行在集搜窗口。

4.3,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,详情见文章《查看数据结果》,另外,两级规则的数据如果要合并可以参考文章《多层级采集结果合并》



上篇文章:《翻页采集列表》                                                                下篇文章:《定位标志:精确采集范围》


若有疑问可以集搜客爬虫软件
8

鲜花
1

握手

雷人

路过
2

鸡蛋

刚表态过的朋友 (11 人)

相关阅读

发表评论

最新评论

评论 Fuller 2017-11-12 14:43
轻捻馨香: 我也遇到了这个问题,求指教
新版本把这个提示修改了,只显示主题名可用还是不可用,不再提示那么细了,如果可用,那么就可以存规则,但是要小心,要判断这个规则是不是以前建好的,防止新规则覆盖老规则
评论 轻捻馨香 2017-11-12 14:18
bxuecheng: 有时候做层级采集的时候会存在这样的情况   明明保存了规则    但是第二次新建的时候却显示该名称可以用   正常的不应该是该规则名已被占用 且可被编辑吗  又会 ...
我也遇到了这个问题,求指教
评论 bxuecheng 2017-11-8 16:36
有时候做层级采集的时候会存在这样的情况   明明保存了规则    但是第二次新建的时候却显示该名称可以用   正常的不应该是该规则名已被占用 且可被编辑吗  又会的吗   希望能够解答一下   谢谢
评论 umsung 2017-9-19 14:12
火钳留名: “命名主题里要填第二级主题名(前面第一级规则的下级线索里填的目标主题名)”,结果第二个规则保存不了,显示“主题名被占用,请改名” ...
1,GooSeeker的规则主题名都是唯一的,不能和别人用相同的名字,保存前可以先点击“谁在用”,查一下是否和别人的名字重复了 ,提示被占用就换一个名字,通常可以在规则名字后加上自己的会员名
2. 爬虫路线里的主题名是否被占用. 注意: 爬虫路线里如果有多个线索, 要都检查一下
3. 连续动作里定义的目标主题名是否被占用
评论 火钳留名 2017-9-19 13:19
“命名主题里要填第二级主题名(前面第一级规则的下级线索里填的目标主题名)”,结果第二个规则保存不了,显示“主题名被占用,请改名”
评论 Fuller 2017-1-16 20:47
晴时有风阴有时雨: 抓取数据的步骤不是很明确,还是有点搞不懂,分别保存两个规则后该怎么运行,明明在第一个规则里面设置了翻页,抓取数据的时候还是显示的待抓取规则数为1,第二 ...
第一个规则负责采集网址,为第二级生成线索,同时也翻页;第二个规则是一页页采集。这两个规则分开执行。如果想让他们同时运行,设置爬虫群模式,在教程首页搜索“爬虫群”这个关键词,就能看到一些教程。http://www.gooseeker.com/tuto/tutorial.html
评论 晴时有风阴有时雨 2017-1-16 11:13
抓取数据的步骤不是很明确,还是有点搞不懂,分别保存两个规则后该怎么运行,明明在第一个规则里面设置了翻页,抓取数据的时候还是显示的待抓取规则数为1,第二级规则又怎么翻页呢?最后第二级规则爬取的数据只有一条.....有人解答一下吗?谢谢了~

查看全部评论(7)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-11-20 11:51