6 8762

爬取评论和回复时出错

mistds 于 2020-11-19 23:58 发表 [复制链接]
您好,请问我使用快捷工具里的 微博评论和回复采集 爬取
https://weibo.com/1988800805/HnWfl9iGN?type=comment
这条微博的评论时,显示如下的错误日志,这是什么情况呀,谢谢!

23:54:48 19/11    4        LoopEnd    无法定位到节点:步骤 1 (编号从1开始)
23:54:54 19/11    4        LoopEnd    无法定位到节点:步骤 1 (编号从1开始)
23:54:59 19/11    4        LoopEnd    因发现重复内容,连续动作将被中断
23:54:59 19/11    4    56575658    PushStack    因发现重复内容,本线索终止运行
23:55:0 19/11    4        CleanWorksBucket    因发现重复内容,连贯抓取将被中断
23:55:3 19/11    2        FetchSpiderClue    没有线索了,可添加新线索或者激活已有的线索


举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-11-21 10:08

Fuller 管理员 发表于 2020-11-20 00:03:32 | 显示全部楼层
明天上班我安排人检查一下这个网址。如果遇到重复内容中断,应该是做了点击动作内容没有看到新加载的内容
举报 使用道具
mistds 初级会员 发表于 2020-11-20 00:07:30 | 显示全部楼层
Fuller 发表于 2020-11-20 00:03
明天上班我安排人检查一下这个网址。如果遇到重复内容中断,应该是做了点击动作内容没有看到新加载的内容
...

谢谢您!
举报 使用道具
Fuller 管理员 发表于 2020-11-20 18:20:46 | 显示全部楼层

这个问题我们测试一天了,遇到过一次网页上根本不显示评论,但是没有遇到过重复内容中断。

在测试过程中发现了一个bug,当点击很多次以后,微博评论的回复信息都展开显示了,结果文件越来越大,超过3M的时候,就无法导入数据库了,这个bug已经修改了,明天会把新版本爬虫软件发布到下载网络爬虫页面,其他问题还在跟踪分析
举报 使用道具
Fuller 管理员 发表于 2020-11-20 18:37:11 | 显示全部楼层
你的这个网址我采集的时候能够正确完成,我设置了只采集一页,没有翻页采集更多评论。因为即使这样,把所有回复展开以后也有很多。会产生很大的结果文件。

最后,由于所有回复都点击开了,采集到的内容就会重复,就会因为重复内容中断本次采集过程。

完成20201120183320.png
举报 使用道具
mistds 初级会员 发表于 2020-11-20 23:34:10 | 显示全部楼层
Fuller 发表于 2020-11-20 18:37
你的这个网址我采集的时候能够正确完成,我设置了只采集一页,没有翻页采集更多评论。因为即使这样,把所有 ...

好的,非常感谢!!!
举报 使用道具
Fuller 管理员 发表于 2020-11-21 10:08:16 | 显示全部楼层
mistds 发表于 2020-11-20 23:34
好的,非常感谢!!!

V10.0.4版数据管家已经发布了,可以安装上试试。针对你提供的网页我测试了,能够采集完,但是,如果电脑比较慢或者网络比较慢,会中途失败。如果正常的话,最后会显示重复内容中断
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 09:51