会员中心添加线索后如何抓取?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2016-10-21 17:04

沙发
xandy 论坛元老 发表于 2016-10-21 12:02:31 | 只看该作者
我们来看下下面这个实际的应用场景——
通过会员中心给“weibo_博主主页”添加了7条线索。

现在“weibo_博主主页”这个规则中有7条线索,都是“待抓取”状态。运行这些线索要在DS打数机启动。
打开DS打数机,搜索出要运行的规则,点击“单搜”或者“集搜”都可以启动DS打数机进行抓取数据。
单搜:在当前DS窗口采集;集搜:弹出新的窗口采集。

点击集搜后,待抓取线索有几条就输入几条,点击确定。

我们看到DS打数机马上在运行抓取了。

如果不知道待抓取线索有多少条,在DS打数机右击统计线索就可以了。

举报 使用道具
板凳
Fuller 管理员 发表于 2016-10-21 17:04:35 | 只看该作者
也可以在会员中心给这个抓取规则设置调度参数,一旦设置了调度参数,这个规则就放入了爬虫罗盘,也就是准备好了爬虫群抓取。然后,你在DS打数机上设置和运行爬虫群,这样爬虫群中的所有爬虫会自动去会员中心拿线索爬数据。具体参看《爬虫群模式,高效便捷的采集方式
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 17:06