快捷导航

用GooSeeker数据管家能采集微博内容吗?

2020-7-10 09:32| 发布者: Fuller| 查看: 6029| 评论: 4

摘要: 集搜客数据管家是GooSeeker发布的采用新内核的网络爬虫工具,数据管家不仅仅把集搜客网络爬虫软件移植到新内核上,而且整个操作体验更加简洁易用了。下面将讲解用数据管家采集微博的操作过程,请预先下载并安装好集 ...

集搜客数据管家是GooSeeker发布的采用新内核的网络爬虫工具,数据管家不仅仅把集搜客网络爬虫软件移植到新内核上,而且整个操作体验更加简洁易用了。

下面将讲解用数据管家采集微博的操作过程,请预先下载并安装好集搜客数据管家软件。

1,进入微博采集工具管理界面

集搜客数据管家软件看起来就是一个浏览器,用法也跟浏览器一样。要采集微博数据,就要在数据管家上先进入微博采集工具箱页面,页面上有好多微博采集工具,找到想使用的微博工具,进入该工具的管理页面,就可启动采集过程和管理采集过程。下面将详细讲解。

1.1,进入微博工具箱页面

微博采集工具箱页面罗列了所有工具,是gooseeker.com官网上的一个网页。

a)    怎样找到微博工具箱

数据管家刚一运行,就会把GooSeeker网站首页加载出来。另一个进入方法是点击地址栏上的“返回首页”按钮重新把首页显示出来(参看下图箭头指向的按钮)。

在首页顶部选择菜单“产品”->“微博采集”就能进入微博采集工具箱界面。

b)    选择合适的微博采集工具

微博上的不同网页对应不同的采集工具,这些采集工具的关系参看《新浪微博数据采集攻略》,这些工具可以组合在一起使用,前一个工具采集到的数据导成excel格式以后,把网址拷贝出来,添加到下一个工具中。

点击下图中的某个工具,会进入工具介绍页,在那里点击“开始使用”按钮即可进入工具的管理页面。

如下图,每个方块是一个微博采集工具。


下面以关键词搜索结果采集为例,讲解爬虫运行方法。

1.2,进入关键词搜索结果采集界面


虽然微博采集工具不同,但是界面基本上相同,主要的功能按钮有:

a)创建任务

对应上图的“确认添加”和“细分条件”,当输入了要搜索的关键词以后,可以设置细分条件,也可以不设置。确认添加后就创建了采集任务

b)启动采集

对应上图的“启动采集”按钮。如果数据管家还没有运行起来两个爬虫群窗口,那么需要点击“启动采集”,点击后会提示是否需要预先登录微博。如果还没有登录,一定要先登录微博。

c)打包

采集完成了或者在采集中途,都可以点击“打包”按钮,就能看到提示界面,把已经采集到的微博数据下载下来。

d)数据下载

只有新采集的数据可以点击“打包”按钮,如果要重新下载以前打包的数据,点击“数据下载”按钮。

e)其他功能

界面上还有很多管理功能,比如

1,点击“采集状态”按钮,可以看详细的采集进度

2,点击某条采集任务的关键词,界面下部就会显示最新采集结果数据

3,点击“采集状态”按钮以后,在界面上会显示“重采失败线索”按钮,可以把采集失败的网址重新采集一遍。

2,观察采集运行情况

2.1,采集数据的窗口

集搜客数据管家可以同时打开很多页签浏览器,点击“启动采集”的时候会增加两个页签浏览器窗口,他们跟普通窗口不一样,右下角有个进度球,鼠标悬浮在上面可以看到状态不断变化。

有进度球的窗口关闭的时候都会提示,要求确认是“强制关闭”还是“安全关闭”,如果强制关闭,窗口立即就关闭了,如果安全关闭,等待把当前任务采集完成了,就会自动关闭。

2.2,打包数据的窗口

启动微博采集以后,会同时运行起来两个爬虫群窗口,其中一个看起来并不采集数据,但是,最好也不要关闭,因为这个窗口是专门用来打包数据的,如果关闭了,只能等采集数据的窗口做最后一次打包,如果最后这一次打包失败,会丢失掉大量数据。

下面是打包数据窗口的截图,可以看到持续不断地打包数据。这种增量式打包更可靠,即使有丢失也是局部的。

3,注意事项

1. 爬虫正在运行的时候,不要最小化数据管家的界面,也不要缩小,而是应该尽量最大化,否则微博有可能会不加载网页内容。

2. 如果还想用电脑做其他事情,数据管家界面上可以覆盖别的窗口,并不影响爬虫的运行,就是不能最小化。


鲜花

握手

雷人

路过

鸡蛋
发表评论

最新评论

评论 gz51837844 2021-12-5 17:12
哪个工具,采集什么?
Seanna2001: 看到翻页了,但是每次可打包数据都是0条
评论 Seanna2001 2021-12-5 14:22
Fuller: 采集微博关键词搜索?还是评论转发?爬虫运行的时候,有没有看到爬虫浏览器中把微博页面加载出来?有没有看到翻页? ...
看到翻页了,但是每次可打包数据都是0条
评论 Fuller 2020-12-6 22:25
15216043601: 你好,请问同样的操作,爬不下来数据怎么回事
采集微博关键词搜索?还是评论转发?爬虫运行的时候,有没有看到爬虫浏览器中把微博页面加载出来?有没有看到翻页?
评论 15216043601 2020-12-6 16:33
你好,请问同样的操作,爬不下来数据怎么回事

查看全部评论(4)

GMT+8, 2024-3-19 13:36