启动数据采集

2020-12-2 16:55| 发布者: Fuller| 查看: 13064| 评论: 0

摘要: 做好采集规则，并且保存后，怎么启动采集？目前有三种放式。方式一、点击保存后，页面自动弹出操作指引，按指引去任务管理页面，启动采集。1. 点击数据管家侧边栏的任务管理按钮2. 选中任务名，点击任务名后的菜单， ...

老版本对应教程：V9及更低集搜客网络爬虫的对应教程是《DS打数机采集数据》

做好采集规则，并且保存后，怎么启动采集？目前有三种放式。

方式一：做好规则保存后，直接点击工作台上的“采数据”按钮，启动采集

方式二：在任务管理页面，启动采集。

方式三：用爬虫群采集数据。

这篇教程只讲解方式一和方式二，和一些常用的采集优化配置。方式三参见《爬虫群采集数据》。

1. 方式一，直接点击“采数据”按钮，启动采集

做好规则，保存后。直接点击旁边的“采数据”按钮，启动采集。采集过程和方式二相同。

2. 方式二，在任务管理页面，启动采集。

2.1 点击数据管家左侧边栏的任务管理按钮

2.2 选中任务名，进入任务的管理页面

本例中，选中的任务是JD-牛仔裤男。

任务管理的下方是线索（网址）管理，可以对这个任务的线索（网址）进行管理，添加，查看，激活等等。详细的操作见《如何管理网络爬虫的线索》。

观察网址状态详情，看看有多少个待采集网址，把这个数字记下来。本例中，待采集网址有2条。

2.3 点击任务名后的菜单，启动采集

按提示，输入网址数，和翻页次数。

注意，连续的翻页，算一条网址。（比如，在本例中，爬京东网站上男牛仔裤的列表页，总共有100页，对爬虫来说，这是一条网址。手机的列表页网址是另一条网址。）

在本例中，如果不限制翻页的话，爬虫要一直翻完100页才会结束，爬取时间比较长。有些用户刚开始练习，急于看到数据结果，可以在这里设置爬取少量页数，比如5页。

点击确定后，弹出一个新的窗口，加载要爬取的网页，开始采集，在这个窗口的右下方有一个绿色的圆形标志，表示这是一个采集窗口，及采集的状态。

2.4 采集完成后，按教程《打包下载excel格式的数据》，打包下载数据。

3. 采集的优化配置

在数据管家的最左侧的侧边栏，有个设置按钮，点击它，进入采集的设置选项，选择配置。

在采集配置中，用户比较常用到的参数：

延迟抓取：有些网页打开比较慢，延迟抓取要设置的大一些，比如设置10s，表示等网页加载10s后，才开始采集。

超时时长：有些网页加载很慢，要采集的内容一直没有加载出来，爬虫会一遍遍的扫描等待。但是也不能无限等待，设置一个时间，比如60s，60s时间到了，爬虫自动跳到下一个采集网页。

滚屏采集：要打开滚屏，才能采集到完整的内容，一般设置次数2，速度2。次数越大，采集的越慢。如果要采集的内容，就在网页的最上方，不需要滚屏，可以把滚屏关掉。

重复内容中断：有些网页，比如本例中的京东列表网页，翻页到最后一页的时候，会一直停留在最后一页死循环，设置了重复内容中断，当某一页重复采集了3次后，采集就中断退出了。

上一篇：定位映射提高网页采集精度——以B站视频采集为例下一篇：用爬虫群采集数据

相关分类