我利用爬虫群爬数据,中间由于换电脑,所以我关闭了所有窗口,中断了一次。再次打开之前,我先激活所有失败线索,将抓取中以及抓取出错的线索,全部激活。
一、爬一段时间之后,结果如上图所示,抓取中的线索数怎么会有这么多?我开的4个窗口,每个窗口最大线索20个。

另外从爬虫首页看,失败线索竟然有884条。

而我进入规则管理页,采集失败的只有2条。
二、激活了所有失败线索,为什么在规则管理页跟爬虫首页中显示的不一样?

举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2016-9-28 11:54

沙发
Fuller 管理员 发表于 2016-9-28 11:03:28 | 只看该作者
DS打数机的版本号是什么?

抓取中 这种状态,根本原因是DS打数机没有把状态信息报上去,那么爬虫调度那里只知道线索被拿走了,但是,不知道下文了。

这个问题,我让技术人员深入查一下原因
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-28 11:06:14 | 只看该作者
在你的硬盘上,与结果文件目录(DataScraperWorks)并行的有个.metaseeker目录(开头有个.号),里面有metaseeker.log.txt文件,打开看看,有没有ERROR类的日志,可以截一段图,我判断一下
举报 使用道具
地板
2445406817 中级会员 发表于 2016-9-28 11:17:40 | 只看该作者
Fuller 发表于 2016-9-28 11:03
DS打数机的版本号是什么?

抓取中 这种状态,根本原因是DS打数机没有把状态信息报上去,那么爬虫调度那里 ...

图一、DS打数机中的线索统计。

图二、爬虫首页中罗盘的线索统计。

图三、规则管理中的线索统计。

这么看好像可以对上,爬虫首页中失败线索数1055,在打数机中抓取中的线索数也是1055。超时2个,对应规则管理中的失败线索数。爬虫首页中,总线索6473条,在DS打数机中将所有线索加起来,也是6473。
利用了爬虫群的调度之后,感觉最后都不知道,到底失败了多少条线索,太混乱了。



举报 使用道具
5#
shenzhenwan10 金牌会员 发表于 2016-9-28 11:23:33 | 只看该作者
我看了你的规则“itjuzi投资详情”, 里面定义了爬虫路线指向下一级规则“itjuzi投资组合详情”
但是这个下一级规则并不存在
这样爬虫在执行每条线索时,都可能是失败的
举报 使用道具
6#
Fuller 管理员 发表于 2016-9-28 11:24:48 | 只看该作者
2445406817 发表于 2016-9-28 11:17
图一、DS打数机中的线索统计。

图二、爬虫首页中罗盘的线索统计。

如果能对上,就不混乱了,有些人喜欢看DS打数机上的统计,有些人通过爬虫罗盘看状态,当爬虫电脑很多的时候,爬虫罗盘就有用了,不用跑到每台电脑上看。

你的DS打数机版本号是什么?是最新的吗?我想知道为什么会处于“抓取中”这个状态
举报 使用道具
7#
shenzhenwan10 金牌会员 发表于 2016-9-28 11:26:27 | 只看该作者
爬虫管理首页和规则管理里的失败线索数不一致,是由于在规则管理里把“失败线索”细分成了2个小状态:1.抓取出错 2.抓取中
在爬虫管理首页里的失败线索数包括这2种状态
举报 使用道具
8#
2445406817 中级会员 发表于 2016-9-28 11:26:28 | 只看该作者
Fuller 发表于 2016-9-28 11:06
在你的硬盘上,与结果文件目录(DataScraperWorks)并行的有个.metaseeker目录(开头有个.号),里面有meta ...

这是DS打数机的版本型号。

至于您说的那个.mataseeker文件,应该是这个吧?



5.png (23.55 KB, 下载次数: 814)

5.png
举报 使用道具
9#
Fuller 管理员 发表于 2016-9-28 11:26:44 | 只看该作者
shenzhenwan10 发表于 2016-9-28 11:23
我看了你的规则“itjuzi投资详情”, 里面定义了爬虫路线指向下一级规则“itjuzi投资组合详情”
但是这个下 ...

明白了,在V8.0.2版本将明确提示规则没有定义的情况,而且状态也会准确设定
举报 使用道具
10#
shenzhenwan10 金牌会员 发表于 2016-9-28 11:28:17 | 只看该作者
shenzhenwan10 发表于 2016-9-28 11:26
爬虫管理首页和规则管理里的失败线索数不一致,是由于在规则管理里把“失败线索”细分成了2个小状态:1.抓 ...

这个显示不一致的情况我们后续会在新版本里修正
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 01:53