想请教各位,抓取微博评论时最多只能抓到40几页,中间还有跳页现象该怎么处理?微博评论看网址每页是不同的,但是加入线索后每次都是显示第一页从头开始抓取该怎么破?谢谢!
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-10-14 12:16

沙发
Fuller 管理员 发表于 2016-10-14 09:16:52 | 只看该作者
微博这种设置很慢破,虽然能看到每个分页都有独立的网址,但是这个网址无效。

现在最大的问题是微博本身翻页不稳定,即使手工翻页,有时候会说没有更多评论了,其实是有的,而有时候又能翻页。这种是他网站本身问题,不好破解。

如果抓热评,会有跳页现象,等你翻页的时候,在翻页这几秒钟内有产生很多评论,等你翻到下一页的时候,评论排序就变了,总体往后推了。

另外,也可能是你没有打开DS打数机的滚屏功能,菜单 配置-》滚屏参数,要把滚屏次数设置成>0的数字
举报 使用道具
板凳
bennana 中级会员 发表于 2016-10-14 11:17:33 | 只看该作者
谢谢大神解答!所以如果每个微博想抓几万条评论基本是不可能实现的了?
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-14 12:01:28 | 只看该作者
bennana 发表于 2016-10-14 11:17
谢谢大神解答!所以如果每个微博想抓几万条评论基本是不可能实现的了? ...

单条微博有几万条评论,基本上是抓不全的,除非微博刚发布的时候就开始抓,持续不断地抓取最新评论,这样就能抓全。抓历史内容很难抓全
举报 使用道具
5#
bennana 中级会员 发表于 2016-10-14 12:16:01 | 只看该作者
Fuller 发表于 2016-10-14 12:01
单条微博有几万条评论,基本上是抓不全的,除非微博刚发布的时候就开始抓,持续不断地抓取最新评论,这样 ...

这样~好的,多谢啦!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 18:41