快捷导航

文档

DS打数机的窗口类型
DS打数机的窗口类型
DS打数机机有多种窗口类型,他们的功能和使用场景是不一样的,请注意区别使用。1)管理窗口:直接通过Firefox菜单启动,拥有所有窗口控件和功能,是所有抓取活动的操作面板2)试抓窗口:从MS谋数台上启动,用于验证 ...

2015-12-20 18:24

爬虫管理——任务调度
爬虫管理——任务调度
运行在爬虫群模式,可以为一个抓取规则设置调度参数,GooSeeker系统就把这个抓取规则放入任务调度池中自动调度。1,功能入口登录会员中心,选择多层菜单“爬虫管理”-〉“规则管理”,就能看到每个抓取规则的右侧有 ...

2015-12-20 18:05

爬虫管理——任务暂停和运行
爬虫管理——任务暂停和运行
1,功能入口 登录会员中心,选择多层菜单“爬虫管理”-〉“规则管理”,就能看到每个抓取规则的右侧有个灰色三角符号,这表示还没有设置调度参数,没有放入调度池中。2,使用方法 关于怎样设置调度参数,请参看 ...

2015-12-20 17:37

会员中心的功能目录
登录gooseeker官网后,点击右上角可进入个人中心,在这里,您可以管理所有规则的线索网址,运行规则采数据、控制爬虫的运行情况、进行数据管理等等,下面会介绍个人中心的主要功能按钮,点击可查阅每个功能按钮的详 ...

2015-12-17 11:18

DS打数机常见故障
这个列表罗列所有常见故障,点进去后看详细分析

2015-12-16 17:37

MS谋数台故障速查
这个列表罗列所有常见故障,点进去后看详细分析

2015-12-16 17:33

如何运行爬虫群
如何运行爬虫群
1、运行爬虫群 这是一个准备工作,一旦准备好,就可以无人干预地长久运行,这样,您只需专注于抓取规则定义即可。 1.1 配置爬虫群 配置过程主要解决以下几个问题: 在一台计算机上同时运行多少个并发的爬虫窗口? ...

2015-12-16 16:50

DS打数机界面功能目录
本文罗列了所有DS打数机的界面控件,点击进去看详情:1,状态栏2,菜单栏3,操作窗口4,浏览器窗口5,日志窗口

2015-12-16 16:22

爬虫群模式,高效便捷的采集方式
爬虫群模式,高效便捷的采集方式
1 使用场景 场景1:自动调用规则采集数据,免除人工看管——做了好多抓取规则,一个个规则运行太累人了,想安排它们自动采数据吗?做好采集规则后如何实现自动抓取数据 场景2:稳定高效地采集千万级网页——要采很 ...

2015-12-16 16:15

MS谋数台界面功能目录
本文罗列了所有MS谋数台的界面控件,点击进去看详情:1,状态栏2,菜单栏3,工具栏4,网页结构窗口5,工作台窗口6,显示窗口

2015-12-16 16:12

怎样采集同一网站的不同网页结构信息
怎样采集同一网站的不同网页结构信息
在采集网页时,有时候会遇到同一个网站展示同类信息的页面有多种网页结构,采集时只能采集与样本页面结构相同的页面,而采集其他不同结构的页面就会报错。 这时就需要用到规则编号这个功能,在同一主题名下,创建规 ...

2015-12-11 15:33

中国食品农产品证书信息抓取案例
中国食品农产品证书信息抓取案例
中国食品农产品认证信息系统的网址是:http://ffip.cnca.cn/ffip/publicquery/certSearch.jsp ,这个网站最大特点是用了很多iframe,嵌套在一起展示证书信息。无论iframe有多少层,集搜客GooSeeker网络爬虫都一视同 ...

2015-12-5 18:02

定位标志批量采集相同定位信息
定位标志批量采集相同定位信息
定位标志使用巧妙的话,能够有样例复制的效果,把网页上相同定位的信息都采下来,其核心就是通过映射属性节点(具有id/class值)来实现精准定位。 技巧: 只做内容映射的话,一旦网页结构发生细微改变,都会导致规则 ...

2015-11-20 12:16

用集搜客实现自动下载批量文件
用集搜客实现自动下载批量文件
功能描述 1)用Gooseeker抓取网页内容的时候,如果抓取的内容是一个文件链接,通常的做法是抓取这个链接地址。 2)Gooseeker能否把链接对应的文件也自动下载下来?答案是肯定的。 自动下载文件步骤 1、配置火狐浏览 ...

2015-11-19 16:47

为什么集搜客GooSeeker连不上服务器?
为什么集搜客GooSeeker连不上服务器?
最近有人反映说连不上服务器,版主也是惊呆了,毕竟用了8年这个软件,实在是非常少遇到这种情况。对于因为连接不上服务器而感觉糟糕的用户,我们报以深深的歉意,同时,集搜客会吸取经验教训,不断优化软件性能,给 ...

2015-11-19 14:45

热门排行

关注我们

GMT+8, 2022-5-19 19:21