快捷导航

DS打数机采集数据

2016-9-28 11:19| 发布者: ym| 查看: 3668| 评论: 0

摘要: DS打数机负责采集网页数据,根据不同的使用方式分为四种窗口类型,分别是管理窗口、试抓窗口、集搜窗口、爬虫群窗口。各个窗口的分布结构是一样的,只是菜单栏权限上有所不同。简介如下: 顶部是菜单栏,用于设置和 ...


一、两种操作方式

用GS浏览器或者是MS谋数台做好采集规则后,就可以打开DS打数机采数据,下面介绍的是手工运行的两种方式,另外关于自动运行采集的方式可以查阅《DS打数机如何采集数据》的方式三和方式四。


二、操作步骤


方式一:存规则,爬数据

做完采集规则并保存后,点击右上角的“爬数据”按钮,就会自动弹出爬虫窗口,直接采集样本网页,用的是测试窗口,菜单项较少,主要是用来验证抓取规则的正确性

1.1,用MS谋数台做好规则并保存。

1.2,再点击MS谋数台工具栏右上角的“爬数据”按钮,就会弹出DS爬虫窗口采集样本页面的信息。


方式二:DS打数机单搜/集搜

单独把DS打数机运行起来,在左侧就能看到规则列表,每个规则都有“单搜”和“集搜”按钮。单搜和集搜的使用说明与区别参看《集搜客专有名词:单搜和集搜》,简单概括一下,单搜只运行一个爬虫窗口,集搜可以运行多个爬虫窗口。

2.1,打开DS打数机(GS浏览器版爬虫在右上角点击“DS打数机”运行;火狐版爬虫是在工具菜单里点击“DS打数据”运行)。

2.2,搜索主题名,可以用*模糊匹配(前、后、中都可以含有*号)。

2.3,右击主题名,弹出菜单选择“统计线索”,可以看到有多少个线索等待抓取,线索就是网址。

2.4,点击单搜,输入线索数量(<=待抓取线索),右侧的浏览器就开始采集数据,类型是管理窗口。同时点击集搜,就会再多弹出一个DS爬虫窗口,类型是集搜窗口。


2.5,遇到提示“没有线索了,可添加新线索或者激活已有的线索”,说明线索已经采完一遍了。如果要再次采集,右击主题名,选择管理线索->激活所有线索;如果要采集其他相同结构的网页,选择添加,再把多个网址拷贝进去,就可以批量采集了。更多操作见《如何管理规则的线索》


三、DS打数机窗口类型介绍

DS打数机负责采集网页数据,根据不同的使用方式分为四种窗口类型,请注意鉴别使用

  1. 管理窗口:在GS爬虫浏览器的工具条上点击“DS打数机”按钮,或者在火狐浏览器中选择菜单“工具”-〉“DS打数机”,这样启动起来的是管理窗口,有最全的菜单和按钮,所有的配置操作应该在这个窗口下进行;
  2. 试抓窗口:点击MS谋数台上的“爬数据”按钮,或者在GS爬虫浏览器“定义规则”状态下点击工具条上的“爬数据”按钮;
  3. 集搜窗口:点击DS打数机上的“集搜”按钮启动;
  4. 爬虫群窗口:选择DS打数机的菜单“爬虫群”,先“配置”爬虫群以后,再“运行”;

各个窗口的分布结构是一样的,只是对不同部分做了隐藏。简介如下:

  • 顶部是菜单栏,用于设置和控制采集;
  • 左侧是操作窗口,显示主题名和启动采数据,双击右边沿小三角图标可以隐藏or展开;
  • 右侧是内嵌的浏览器,当采集数据的时候,在这里可以看到一页页网页自动显示出来;
  • 底部是日志窗口,会记录采集失败的情况,双击上边沿小三角图标可以隐藏or展开



上篇文章:《采集网页数据》                                                                             下篇文章:《xml转换为excel》



若有疑问可以集搜客爬虫软件

鲜花

握手

雷人

路过

鸡蛋
上一篇:采集网页数据下一篇:查看数据结果

相关阅读

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-22 06:34