集搜客GooSeeker网络爬虫

标题: 层级抓取,线索切换发生的匹配失败 [打印本页]

作者: yuanxiqd    时间: 2018-12-7 16:38
标题: 层级抓取,线索切换发生的匹配失败
问题:制作了一个关于爬取豆瓣评论的规则,分为3级。第一级,抓取电影列表;第二级,抓取当前电影详细信息;第三级,抓取当前电影评论。在抓取完毕当前电影评论指定页数之后,按照所定规则,应当转入下一个线索,进入下一部电影,并相应的抓取指定页数的在线评论。问题是在第三级线索切换时,显示匹配失败。我检查了抓取的数据,发现确实已经抓取了指定页数的数据,这是怎么回事呢?是线索切换过程中出了什么问题吗?规则ID:my_douban_20181207



作者: Fuller    时间: 2018-12-7 23:40
第三级是抓取评论,翻页抓取,我测试了一个线索,翻页很正常,你说的切换是什么意思?
作者: yuanxiqd    时间: 2018-12-8 09:03
Fuller 发表于 2018-12-7 23:40
第三级是抓取评论,翻页抓取,我测试了一个线索,翻页很正常,你说的切换是什么意思? ...

嗯,老师好。一个线索内的翻页没问题,采集10页评论之后,就会切换到下一条线索,继续翻页采集评论。就是两条线索之间切换的时候有问题。


作者: Fuller    时间: 2018-12-8 10:39
yuanxiqd 发表于 2018-12-8 09:03
嗯,老师好。一个线索内的翻页没问题,采集10页评论之后,就会切换到下一条线索,继续翻页采集评论。就是 ...

我正在运行测试,看到有失败的,估计是某个网页用这个规则不合适,要调整规则,方法是:
1,记下来失败的线索数:
把DS打数机窗口中的日志窗口显示出来,记住线索编号
[attach]10358[/attach]

2,运行MS谋数台:只有MS谋数台有加载失败线索功能
[attach]10359[/attach]
3,加载失败线索
[attach]10360[/attach]

不适合的网页会报告失败信息,比如,那个抓取内容无法定位,这样需要观察DOM结构有什么差别。要重新做内容映射。最好给抓取内容映射合适的定位标志,可以提高规则适应性。参看《定位标志精确采集范围

作者: Fuller    时间: 2018-12-8 10:40
有个很大的可能性是翻页到最后一页,网页结构变了,比如,一条评论都没有,但是还显示出来一页,这种必然就失败,不过这样不影响采集结果的完整性
作者: Fuller    时间: 2018-12-8 10:55
[attach]10361[/attach]

翻页到这里后,就出现这个了,可能是豆瓣故意做了限制,可以试试在集搜客浏览器中登录以后再抓取,看看能否抓到更多





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2