问题:制作了一个关于爬取豆瓣评论的规则,分为3级。第一级,抓取电影列表;第二级,抓取当前电影详细信息;第三级,抓取当前电影评论。在抓取完毕当前电影评论指定页数之后,按照所定规则,应当转入下一个线索,进入下一部电影,并相应的抓取指定页数的在线评论。问题是在第三级线索切换时,显示匹配失败。我检查了抓取的数据,发现确实已经抓取了指定页数的数据,这是怎么回事呢?是线索切换过程中出了什么问题吗?规则ID:my_douban_20181207


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-12-8 10:55

沙发
Fuller 管理员 发表于 2018-12-7 23:40:19 | 只看该作者
第三级是抓取评论,翻页抓取,我测试了一个线索,翻页很正常,你说的切换是什么意思?
举报 使用道具
板凳
yuanxiqd 初级会员 发表于 2018-12-8 09:03:15 | 只看该作者
Fuller 发表于 2018-12-7 23:40
第三级是抓取评论,翻页抓取,我测试了一个线索,翻页很正常,你说的切换是什么意思? ...

嗯,老师好。一个线索内的翻页没问题,采集10页评论之后,就会切换到下一条线索,继续翻页采集评论。就是两条线索之间切换的时候有问题。

举报 使用道具
地板
Fuller 管理员 发表于 2018-12-8 10:39:12 | 只看该作者
yuanxiqd 发表于 2018-12-8 09:03
嗯,老师好。一个线索内的翻页没问题,采集10页评论之后,就会切换到下一条线索,继续翻页采集评论。就是 ...

我正在运行测试,看到有失败的,估计是某个网页用这个规则不合适,要调整规则,方法是:
1,记下来失败的线索数:
把DS打数机窗口中的日志窗口显示出来,记住线索编号


2,运行MS谋数台:只有MS谋数台有加载失败线索功能

3,加载失败线索


不适合的网页会报告失败信息,比如,那个抓取内容无法定位,这样需要观察DOM结构有什么差别。要重新做内容映射。最好给抓取内容映射合适的定位标志,可以提高规则适应性。参看《定位标志精确采集范围

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
Fuller 管理员 发表于 2018-12-8 10:40:41 | 只看该作者
有个很大的可能性是翻页到最后一页,网页结构变了,比如,一条评论都没有,但是还显示出来一页,这种必然就失败,不过这样不影响采集结果的完整性
举报 使用道具
6#
Fuller 管理员 发表于 2018-12-8 10:55:02 | 只看该作者


翻页到这里后,就出现这个了,可能是豆瓣故意做了限制,可以试试在集搜客浏览器中登录以后再抓取,看看能否抓到更多

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 23:47