爬虫群爬着爬着,一组还没完,就停一会儿然后下一组了。显示SCTEN和RSCH?
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-3-11 19:55

沙发
Fuller 管理员 发表于 2016-3-11 11:32:36 | 只看该作者
缺省情况下,50个网页一组。组与组之间有个间歇,显示SCTEN和RSCH。

你确定一组没有完吗?根据什么判断的?

如果你修改了会员中心里面的调度参数,你可以设置不是50个一组,那么就是你设置的那个数字。

如果真的是一组没有完(这个可能似乎很小),那也不影响,网址不会失效,下组继续会抓的
举报 使用道具
板凳
csy763 新手上路 发表于 2016-3-11 12:46:05 | 只看该作者
Fuller 发表于 2016-3-11 11:32
缺省情况下,50个网页一组。组与组之间有个间歇,显示SCTEN和RSCH。

你确定一组没有完吗?根据什么判断的 ...

因为有剩余线索数和总线索数啊。。有时候50个 到还剩四十多 甚至49  就下一组了。。
举报 使用道具
地板
Fuller 管理员 发表于 2016-3-11 16:05:06 | 只看该作者
csy763 发表于 2016-3-11 12:46
因为有剩余线索数和总线索数啊。。有时候50个 到还剩四十多 甚至49  就下一组了。。 ...

如果同时运行了好几个爬虫,虽然一开始你看到的这个爬虫分配了50个线索,但是,如果线索被别的爬虫拿去执行了,而且没有剩余的,那么这个爬虫就没有可做的了。主要看抓取结果是否足够
举报 使用道具
5#
csy763 新手上路 发表于 2016-3-11 16:07:29 | 只看该作者
目前即便是两个爬虫,然后线索还剩1000+,一组50个,会出现49剩余就RSCH 。。。
举报 使用道具
6#
csy763 新手上路 发表于 2016-3-11 16:07:46 | 只看该作者
Fuller 发表于 2016-3-11 16:05
如果同时运行了好几个爬虫,虽然一开始你看到的这个爬虫分配了50个线索,但是,如果线索被别的爬虫拿去执 ...

目前即便是两个爬虫,然后线索还剩1000+,一组50个,会出现49剩余就RSCH 。。。
举报 使用道具
7#
Fuller 管理员 发表于 2016-3-11 16:18:13 | 只看该作者
csy763 发表于 2016-3-11 16:07
目前即便是两个爬虫,然后线索还剩1000+,一组50个,会出现49剩余就RSCH 。。。 ...

DS打数机下部的日志窗口显示什么?

除非遇到了很严重的程序问题,可以把.metaseeker/metaseeker.log.txt 文件发到info@gooseeker.com ,我们程序员检查一下
举报 使用道具
8#
csy763 新手上路 发表于 2016-3-11 19:37:40 | 只看该作者
Fuller 发表于 2016-3-11 16:18
DS打数机下部的日志窗口显示什么?

除非遇到了很严重的程序问题,可以把.metaseeker/metaseeker.log.txt ...

日志窗口啥都没有。。。
举报 使用道具
9#
Fuller 管理员 发表于 2016-3-11 19:53:38 | 只看该作者
csy763 发表于 2016-3-11 19:37
日志窗口啥都没有。。。

那就把日志文件发给我看看。这种情况很罕见,这是第一个收到这样的反馈
举报 使用道具
10#
Fuller 管理员 发表于 2016-3-11 19:55:13 | 只看该作者
在DS打数机上,在管理窗口上,选中这个主题名,点击鼠标右键,统计一下等待抓取的线索数量是多少?是不是等待状态的线索是0了。你说的1000+是一开始的数字吧,如果都抓完一遍了,就没有了,除非重新激活。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 12:54