集搜客GooSeeker网络爬虫

标题: 在爬虫群中,抓取中的线索指的是? [打印本页]

作者: 2445406817    时间: 2016-9-28 10:31
标题: 在爬虫群中,抓取中的线索指的是?
[attach]1733[/attach]
我利用爬虫群爬数据,中间由于换电脑,所以我关闭了所有窗口,中断了一次。再次打开之前,我先激活所有失败线索,将抓取中以及抓取出错的线索,全部激活。
一、爬一段时间之后,结果如上图所示,抓取中的线索数怎么会有这么多?我开的4个窗口,每个窗口最大线索20个。
[attach]1734[/attach]
另外从爬虫首页看,失败线索竟然有884条。
[attach]1735[/attach]
而我进入规则管理页,采集失败的只有2条。
二、激活了所有失败线索,为什么在规则管理页跟爬虫首页中显示的不一样?


作者: Fuller    时间: 2016-9-28 11:03
DS打数机的版本号是什么?

抓取中 这种状态,根本原因是DS打数机没有把状态信息报上去,那么爬虫调度那里只知道线索被拿走了,但是,不知道下文了。

这个问题,我让技术人员深入查一下原因
作者: Fuller    时间: 2016-9-28 11:06
在你的硬盘上,与结果文件目录(DataScraperWorks)并行的有个.metaseeker目录(开头有个.号),里面有metaseeker.log.txt文件,打开看看,有没有ERROR类的日志,可以截一段图,我判断一下
作者: 2445406817    时间: 2016-9-28 11:17
Fuller 发表于 2016-9-28 11:03
DS打数机的版本号是什么?

抓取中 这种状态,根本原因是DS打数机没有把状态信息报上去,那么爬虫调度那里 ...

图一、DS打数机中的线索统计。
[attach]1736[/attach]
图二、爬虫首页中罗盘的线索统计。
[attach]1737[/attach]
图三、规则管理中的线索统计。
[attach]1738[/attach]
这么看好像可以对上,爬虫首页中失败线索数1055,在打数机中抓取中的线索数也是1055。超时2个,对应规则管理中的失败线索数。爬虫首页中,总线索6473条,在DS打数机中将所有线索加起来,也是6473。
利用了爬虫群的调度之后,感觉最后都不知道,到底失败了多少条线索,太混乱了。




作者: shenzhenwan10    时间: 2016-9-28 11:23
我看了你的规则“itjuzi投资详情”, 里面定义了爬虫路线指向下一级规则“itjuzi投资组合详情”
但是这个下一级规则并不存在
这样爬虫在执行每条线索时,都可能是失败的
作者: Fuller    时间: 2016-9-28 11:24
2445406817 发表于 2016-9-28 11:17
图一、DS打数机中的线索统计。

图二、爬虫首页中罗盘的线索统计。

如果能对上,就不混乱了,有些人喜欢看DS打数机上的统计,有些人通过爬虫罗盘看状态,当爬虫电脑很多的时候,爬虫罗盘就有用了,不用跑到每台电脑上看。

你的DS打数机版本号是什么?是最新的吗?我想知道为什么会处于“抓取中”这个状态
作者: shenzhenwan10    时间: 2016-9-28 11:26
爬虫管理首页和规则管理里的失败线索数不一致,是由于在规则管理里把“失败线索”细分成了2个小状态:1.抓取出错 2.抓取中
在爬虫管理首页里的失败线索数包括这2种状态
作者: 2445406817    时间: 2016-9-28 11:26
Fuller 发表于 2016-9-28 11:06
在你的硬盘上,与结果文件目录(DataScraperWorks)并行的有个.metaseeker目录(开头有个.号),里面有meta ...

这是DS打数机的版本型号。
[attach]1739[/attach]
至于您说的那个.mataseeker文件,应该是这个吧?
[attach]1741[/attach]



作者: Fuller    时间: 2016-9-28 11:26
shenzhenwan10 发表于 2016-9-28 11:23
我看了你的规则“itjuzi投资详情”, 里面定义了爬虫路线指向下一级规则“itjuzi投资组合详情”
但是这个下 ...

明白了,在V8.0.2版本将明确提示规则没有定义的情况,而且状态也会准确设定
作者: shenzhenwan10    时间: 2016-9-28 11:28
shenzhenwan10 发表于 2016-9-28 11:26
爬虫管理首页和规则管理里的失败线索数不一致,是由于在规则管理里把“失败线索”细分成了2个小状态:1.抓 ...

这个显示不一致的情况我们后续会在新版本里修正
作者: Fuller    时间: 2016-9-28 11:31
2445406817 发表于 2016-9-28 11:26
这是DS打数机的版本型号。

至于您说的那个.mataseeker文件,应该是这个吧?

这个版本太旧了,我们版本升级挺快的,不断增加新功能,修改一些bug,现在是8.0.1了,最好升级一下
作者: 2445406817    时间: 2016-9-28 11:33
shenzhenwan10 发表于 2016-9-28 11:28
这个显示不一致的情况我们后续会在新版本里修正

就是说,最后还是有1055条线索失败了。我仅抓取到了5000多条数据。
我如果激活这些失败线索,再次抓取一遍,最后统计中,总的失败线索数不会累加吧?
作者: gz51837844    时间: 2016-9-28 11:54
不会,一条线索只会在1种状态下
你激活1条线索,那这条线索就从失败数里减掉了




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2