采集列表数据

2016-9-28 16:53| 发布者: ym| 查看: 69655| 评论: 28

摘要: 一、操作导航图 采集列表网页时,可以看到多条结构相同的信息,我们把这些结构化信息称为样例,例如,表格中的每一行就是样例,搜索结果中的每个结果也是样例。对于具有两个样例以上的网页,做上样例复制映射就能实 ...

配套软件版本:V9及更低 集搜客网络爬虫软件

新版本对应教程:V10及更高 数据管家——增强版网络爬虫 的对应教程是《网络爬虫采集列表数据


注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

一、操作步骤(观看视频)

采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一个样例,例如,表格中的每一行就是一个样例,又如,京东搜索列表中的每个商品也是一个样例。具有两个样例以上的列表网页,做样例复制就能把整个列表都采集下来。下面京东列表页为案例,操作步骤下:


二、案例规则+操作步骤

  • 采集规则:京东商品列表采集(可点击下载)
  • 样本网址:https://search.jd.com/Search?keyword=%E5%B0%8F%E7%B1%B3&enc=utf-8&pvid=6a1e1a162bff4eaba55dfcdef7029257
  • 采集内容:每一个商品的标题,价格,评论数,店铺名称

第一步:打开网页

1.1,打开GS爬虫浏览器,输入上述样本网址并Enter,加载出网页后再点击网址输入栏后面的“定义规则”按钮,可以看到一个浮窗显示出来,称为工作台,在上面定义规则;

1.2,在工作台中输入主题名,可以点击“查重”看看名字是否被占用。


第二步:标注信息

2.1,在浏览器窗口双击要采集的内容,在弹出小窗中输入标签名,打勾确认或Enter,即完成了一个标注操作。首次标注还要输入整理箱名称。这也是标签与网页信息建立映射关系的过程。

2.2,重复上一步骤,对其他信息进行标注。


第三步:样例复制

3.1,点击第一个样例里的任一内容,可以看到,在下面的DOM窗口,光标自动定位到了一个节点,右击这个节点,选择 样例复制映射→第一个。


3.2,然后,点击第二个样例里的任一内容,同样,在下面的DOM窗口,光标自动定位到了一个节点,右击这个节点,选择 样例复制映射→第二个。


这样就完成了样例复制映射。

注意:有时样例复制的操作没有错误,但是测试后,只采集到一条数据。问题多半出在整理箱的定位方式上。整理箱默认的定位方式是“偏ID”,可是京东列表网页的整理箱定位方式一般要选”绝对定位“。


第四步:存规则,抓数据

4.1,规则测试成功后,点击“存规则”;

4.2,点击“爬数据”,弹出DS打数机,开始抓取数据。

4.3,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,详情见文章《查看数据结果》


上篇文章:《采集网页数据》                                                                       下篇文章:《翻页采集》


若有疑问可以集搜客爬虫软件
26

鲜花

握手

雷人
5

路过
5

鸡蛋

刚表态过的朋友 (36 人)

相关阅读

发表评论

最新评论

评论 qauxjp 2020-3-7 20:52
为什么京东的商品价格爬不下来,只有第一个测试时可以,
<jdbook>
        <item>
                <书名>疯传:让你的产品、思想、行为像病毒一样入侵(樊登博士力荐)</书名>
                <评价数量>5.4万+</评价数量>
                <价格>45.60</价格>
                <卖家>电子工业出版社</卖家>
                <出版信息>[美] 乔纳·伯杰(Jonah Berger) 著 | 电子工业出版社 | 2014-01</出版信息>
        </item>
        <item>
                <书名>流量池</书名>
                <评价数量>13万+</评价数量>
                <价格/>
                <卖家>中信出版社</卖家>
                <出版信息>杨飞 著 | 中信出版社,中信出版集团 | 2018-06</出版信息>
        </item>
        <item>


为甚第2个以后的都是<价格/>  .... ,   我定位用的是:偏好class
评论 Fuller 2019-4-17 15:19
Heart2019: 为什么测试时能够显示出来一页的数据,但是爬取不出来呢?
你在使用交流那里起一个帖子,把主题名贴出来,技术人员帮你诊断:https://www.gooseeker.com/doc/forum-54-1.html
评论 Heart2019 2019-4-17 14:09
为什么测试时能够显示出来一页的数据,但是爬取不出来呢?
评论 Fuller 2018-8-13 10:57
temprani: 你好,这个网址的样例复制映射无效,求解答 <a href="http://scjg.tj.gov.cn/gzfw/zhcx/sphsptjjscxkxxsjcx/index.html" target="_blank">http://scjg.tj.gov.cn/gzfw/zhcx/sphsptjjscxkxxsjcx/index.html</a>
在创建规则工作台上有个“定位”按钮,点开以后,选择偏好class,就能避开唯一性的id,有唯一性的id,样例复制就失效了
评论 temprani 2018-8-13 10:05
你好,这个网址的样例复制映射无效,求解答
http://scjg.tj.gov.cn/gzfw/zhcx/sphsptjjscxkxxsjcx/index.html
评论 太极爬虫 2018-7-24 15:37
Xiao_ze: 抓取失败(超时),抓取规则不合适或者超时时间设置太短,出现这个提示该怎么解决
参考这个教程:怎样解决规则采集失败/遗漏的问题https://www.gooseeker.com/doc/article-272-1.html
评论 Xiao_ze 2018-7-24 15:17
抓取失败(超时),抓取规则不合适或者超时时间设置太短,出现这个提示该怎么解决
评论 bowieD 2017-12-20 11:45
eekeepol: 为什么我出来的结果只有一个呢?
检查一下是否样例复制的节点是否选择正确,选择相邻的两个兄弟区块节点做样例复制,点击测试就能看到全部的列表数据
评论 eekeepol 2017-12-20 11:30
为什么我出来的结果只有一个呢?
评论 umsung 2017-11-27 16:37
ssoonzero: 今天第一次看,感觉不是人用的,完全不符合正常思维啊
刚入门从基础教程开始学起 http://www.gooseeker.com/doc/article-266-1.html
评论 ssoonzero 2017-11-27 16:35
今天第一次看,感觉不是人用的,完全不符合正常思维啊
评论 umsung 2017-11-22 14:04
agreas: 为什么我采集到的列表数据是重复的
是全部重复还是部分重复,是全部重复那就要检查规则是否正确,把定位方式改成绝对定位;部分重复的话,采集列表数据最后一页会有三页重复数据,是正常现象,在excel中去重复。
评论 agreas 2017-11-22 12:22
为什么我采集到的列表数据是重复的
评论 wekrior 2017-11-1 21:59
wekrior: 单个测试的时候是好的。  列表就怕不出数据了。结果都是重复的,求解 样例复制后,爬出来结果如下:  <代码>601668</代码>   <名称>中国建筑</名称>   <最新价> ...
自问自答吧。今天刚开始用的新手。

定位 方式改成绝对定位就OK了。
评论 Fuller 2017-11-1 21:55
wekrior: 单个测试的时候是好的。  列表就怕不出数据了。结果都是重复的,求解 样例复制后,爬出来结果如下:  <代码>601668</代码>   <名称>中国建筑</名称>   <最新价> ...
你到使用交流版块去发,可以发图片,文字,链接,这里是受限的。按照这个帖子的方法,可以解决你的问题:http://www.gooseeker.com/doc/article-232-1.html
评论 wekrior 2017-11-1 21:46
单个测试的时候是好的。

列表就怕不出数据了。结果都是重复的,求解
样例复制后,爬出来结果如下:

<代码>601668</代码>
                <名称>中国建筑</名称>
                <最新价>详情</最新价>
                <今日涨跌幅>详情</今日涨跌幅>
                <主力净流入>详情</主力净流入>
                <主力净占比>详情</主力净占比>
                <超大单净流入>详情</超大单净流入>
                <超大单净占比>详情</超大单净占比>
                <大单净流入>-1.40亿</大单净流入>
                <大单净占比>-1.40亿</大单净占比>
                <中单净流入>-1.40亿</中单净流入>
                <中单净占比>-1.40亿</中单净占比>
                <小单净流入>-1.40亿</小单净流入>
                <小单净占比>-1.40亿</小单净占比>


啊啊为什么发不了评论1111
评论 Fuller 2017-10-17 20:27
laughingduan: 如果是一个下拉列表没有文章,怎么能一直往下拉呢,比如<a href="http://www.meipai.com/square/59?single_column=1" target="_blank">http://www.meipai.com/square/59?single_column=1</a>
我试了试这个网页,在GS浏览器中滚轮就能显示更多内容。你可以先用连续动作中的滚屏动作试试,应该可以。如果不行的话就用滚轮动作。这类采集都归为瀑布流网页采集,教程:http://www.gooseeker.com/doc/article-373-1.html
评论 laughingduan 2017-10-17 19:13
如果是一个下拉列表没有文章,怎么能一直往下拉呢,比如http://www.meipai.com/square/59?single_column=1
评论 wfh8520 2017-8-1 14:43
shenzhenwan10: 可以定义自动翻页, 每翻一页, 就采集一次. 整个过程是自动的
你好,请问如何设置自动翻页呢?我也是一次只能采集到一页的数据。
评论 gz51837844 2017-7-15 13:19
大锅方便面: 请教一下问什么设置好了样例,在浏览器里边的输出规则都能看到网页应该采集的信息,但是运行规则采集的结果文件里边只有一条数据。  这是什么原因造成的呢?谢谢 ...
有可能页面还没有加载完全就执行抓取了,你可以把DS打数机的菜单项:配置-》滚屏参数->滚屏次数 设置成正整数,比如2,再试试抓取

查看全部评论(28)

GMT+8, 2024-12-5 06:16