11#
bowieD 金牌会员 发表于 2017-9-29 10:52:16 | 只看该作者
如果你两台电脑上的爬虫名一样,那么一共就只会运行6个窗口爬取数据
举报 使用道具
12#
fqzlala 中级会员 发表于 2017-9-29 10:55:57 | 只看该作者
bowieD 发表于 2017-9-29 10:52
如果你两台电脑上的爬虫名一样,那么一共就只会运行6个窗口爬取数据

目前2台机器上,打数机中 ,文件设置的爬虫名不一样,一个是DSEngine1,另一个是DSEngine2,也重启过

举报 使用道具
13#
fqzlala 中级会员 发表于 2017-9-29 10:57:27 | 只看该作者
Fuller 发表于 2017-9-29 10:51
你把一轮线索数量调大一些,比如,100。这个数字也不能太小,如果太小,一轮很快就抓取完了,那时,会员 ...

我明白你的意思,我用的是默认的20个线索,爬取速度没那么快,一般一轮20个线索得几分钟才能结束。
举报 使用道具
14#
Fuller 管理员 发表于 2017-9-29 11:09:11 | 只看该作者
fqzlala 发表于 2017-9-29 10:57
我明白你的意思,我用的是默认的20个线索,爬取速度没那么快,一般一轮20个线索得几分钟才能结束。
...

设置到100试试
举报 使用道具
15#
fqzlala 中级会员 发表于 2017-9-29 11:17:05 | 只看该作者

好,我设置试试,我刚才是把一台停了,只用一台跑这3个规则(每个规则设置的6个爬虫),结果等了好久,爬虫才干活,而且只用2-3个干活,这台开了8个爬虫。

举报 使用道具
16#
bowieD 金牌会员 发表于 2017-9-29 11:23:20 | 只看该作者
先试试把一批线索数量调大,否则还没等调度下一个窗口,前面的爬群窗口就做完了
举报 使用道具
17#
fqzlala 中级会员 发表于 2017-9-29 11:25:09 | 只看该作者
bowieD 发表于 2017-9-29 11:23
先试试把一批线索数量调大,否则还没等调度下一个窗口,前面的爬群窗口就做完了
...

一轮20个线索的时候,得10多分钟才能跑完一轮呢。我刚才调整到100了,干活的爬虫是多了,开了8个爬虫,还有2个没干活,我是3个规则,每个都是设置的6个爬虫

举报 使用道具
18#
bowieD 金牌会员 发表于 2017-9-29 11:27:34 | 只看该作者
fqzlala 发表于 2017-9-29 11:25
一轮20个线索的时候,得10多分钟才能跑完一轮呢。我刚才调整到100了,干活的爬虫是多了,开了8个爬虫,还 ...

那这样设置就对了,把一批线索数量调大,后面的窗口就可以被调度起来使用。
举报 使用道具
19#
fqzlala 中级会员 发表于 2017-9-29 11:30:48 | 只看该作者
bowieD 发表于 2017-9-29 11:27
那这样设置就对了,把一批线索数量调大,后面的窗口就可以被调度起来使用。
...

我现在是4个干活,4个不干活。感觉最近集搜客改了服务器爬虫调用规则了,估计是优化了吧。
我2个月前,用的相同的规则,爬数据,开启的爬虫都干活,默认设置的一轮20个线索,现在这么这样了呢。

举报 使用道具
20#
Fuller 管理员 发表于 2017-9-29 11:37:34 | 只看该作者
fqzlala 发表于 2017-9-29 11:30
我现在是4个干活,4个不干活。感觉最近集搜客改了服务器爬虫调用规则了,估计是优化了吧。
我2个月前,用 ...

你现在了新版爬虫了吗?目前最新是8.3.0,确实改了调度,调度更快了。截止今天,只是把爬虫软件升级到了8.3.0,服务器的调度算法并没有变。正常的效果是:爬虫程序会更快地去取任务,而服务器产生调度任务的周期还没变。按理说分配到的任务不会变少。我查查你所在的调度库是不是负载很重
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-14 21:33