启动数据采集

2020-12-2 16:55| 发布者: Fuller| 查看: 11044| 评论: 0

摘要: 做好采集规则,并且保存后,怎么启动采集?目前有三种放式。方式一、点击保存后,页面自动弹出操作指引,按指引去任务管理页面,启动采集。1. 点击数据管家侧边栏的任务管理按钮2. 选中任务名,点击任务名后的菜单, ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《DS打数机采集数据


做好采集规则,并且保存后,怎么启动采集?目前有三种放式。

方式一:做好规则保存后,直接点击工作台上的“采数据”按钮,启动采集

方式二:在任务管理页面,启动采集。

方式三:用爬虫群采集数据。

这篇教程只讲解方式一和方式二,和一些常用的采集优化配置。方式三参见《爬虫群采集数据

1. 方式一,直接点击“采数据”按钮,启动采集

做好规则,保存后。直接点击旁边的“采数据”按钮,启动采集。采集过程和方式二相同。


2. 方式二,在任务管理页面,启动采集。

2.1  点击数据管家左侧边栏的任务管理按钮


2.2  选中任务名,进入任务的管理页面

本例中,选中的任务是JD-牛仔裤男

任务管理的下方是线索(网址)管理,可以对这个任务的线索(网址)进行管理,添加,查看,激活等等。详细的操作见《如何管理网络爬虫的线索》

观察网址状态详情,看看有多少个待采集网址,把这个数字记下来。本例中,待采集网址有2条。


2.3 点击任务名后的菜单,启动采集

按提示,输入网址数,和翻页次数。

注意,连续的翻页,算一条网址。(比如,在本例中,爬京东网站上男牛仔裤的列表页,总共有100页,对爬虫来说,这是一条网址。手机的列表页网址是另一条网址。)

在本例中,如果不限制翻页的话,爬虫要一直翻完100页才会结束,爬取时间比较长。有些用户刚开始练习,急于看到数据结果,可以在这里设置爬取少量页数,比如5页。

点击确定后,弹出一个新的窗口,加载要爬取的网页,开始采集,在这个窗口的右下方有一个绿色的圆形标志,表示这是一个采集窗口,及采集的状态。


2.4 采集完成后,按教程《打包下载excel格式的数据》,打包下载数据


3. 采集的优化配置

在数据管家的最左侧的侧边栏,有个设置按钮,点击它,进入采集的设置选项,选择配置。

在采集配置中,用户比较常用到的参数:

延迟抓取:有些网页打开比较慢,延迟抓取要设置的大一些,比如设置10s,表示等网页加载10s后,才开始采集。

超时时长:有些网页加载很慢,要采集的内容一直没有加载出来,爬虫会一遍遍的扫描等待。但是也不能无限等待,设置一个时间,比如60s,60s时间到了,爬虫自动跳到下一个采集网页。

滚屏采集:要打开滚屏,才能采集到完整的内容,一般设置次数2,速度2。 次数越大,采集的越慢。如果要采集的内容,就在网页的最上方,不需要滚屏,可以把滚屏关掉。

重复内容中断:有些网页,比如本例中的京东列表网页,翻页到最后一页的时候,会一直停留在最后一页死循环,设置了重复内容中断,当某一页重复采集了3次后,采集就中断退出了。


上篇文章:《如何管理网络爬虫的线索》                      下篇文章:《用爬虫群采集数据


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-10-4 19:43