爬虫管理——规则罗盘

2016-9-7 17:08| 发布者: ym| 查看: 7494| 评论: 0

摘要: 爬虫群多线程并发,是非常高效的采集模式,但不少人不知道怎么看各个规则的采集情况,规则罗盘就是用来跟踪爬虫群所调用规则的采集状态,它能让您轻松掌握整个爬虫群的采集动态1、功能入口登录集搜客的会员中心,逐 ...

爬虫群多线程并发,是非常高效的采集模式,但不少人不知道怎么看各个规则的采集情况,规则罗盘就是用来跟踪爬虫群所调用规则的采集状态,它能让您轻松掌握整个爬虫群的采集动态

1、功能入口

登录集搜客的会员中心,逐层点击菜单“爬虫管理”->“爬虫首页”,就会看到规则罗盘,如果是空白的,说明您还没有使用过爬虫群,您可以先对规则设置调度,再运行爬虫群采集,操作参见如何开启爬虫群采数据


2、使用方法

想要采集哪个规则,就点击它的调度按钮,设置好爬虫参数后,再启动爬虫群采数据,规则罗盘就会跟踪这个规则的采集情况。操作参见如何开启爬虫群采数据

不想爬虫群再采集某个规则,可以点击罗盘上的移出按钮,或者是在规则管理中点击停止按钮

3、特点

  • 实时监测规则采集进度:根据有线索和无线索两种颜色标记可以知道规则是否完成,另外,失败线索的情况和导出的数据量也是一目了然。
  • 可异地下载最新数据:点击导出数据可以到云存储中输出最新入库的数据,不会重复导出,另外还可以在历史记录中重复下载。
  • 远程管理爬虫群运行:点击调度设置可以对该规则重新设置爬虫参数,实时控制爬虫群调用该规则的采集速度、翻页数量、最大的爬虫数、是否激活线索等等。

若有疑问可以集搜客网络爬虫

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

GMT+8, 2024-3-29 01:39