26 35207

自定义采集

数据爬呀爬 于 2019-12-3 20:21 发表 [复制链接]
数据爬呀爬 初级会员 发表于 2019-12-5 19:30:01 | 显示全部楼层
好的,我也尝试了一下,后面最多可以爬取8页,之后就加载不出来了。第二个网页应该是有问题没办法采集,就不打算用了。
还有就是快捷采集过程中采集博主主页详细信息,显示有效网址是好几百条,可是采集之后只出来几十条是怎么回事呢?而且采集过程已经结束了,但是页面那里还是显示采集中是为什么
举报 使用道具
Fuller 管理员 发表于 2019-12-5 19:40:37 | 显示全部楼层
数据爬呀爬 发表于 2019-12-5 19:30
好的,我也尝试了一下,后面最多可以爬取8页,之后就加载不出来了。第二个网页应该是有问题没办法采集,就 ...

应该是好多网址采集失败了
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-5 20:32:46 | 显示全部楼层
那有什么解决办法吗?我一直在重新尝试
举报 使用道具
Fuller 管理员 发表于 2019-12-5 22:04:49 | 显示全部楼层
数据爬呀爬 发表于 2019-12-5 20:32
那有什么解决办法吗?我一直在重新尝试

爬微博一定要网速比较好才行。如果有失败的,只能重采一遍
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-6 12:43:19 | 显示全部楼层
意思是网速的问题吗?我确实发现加载速度特别慢
举报 使用道具
Fuller 管理员 发表于 2019-12-6 14:59:39 | 显示全部楼层
数据爬呀爬 发表于 2019-12-6 12:43
意思是网速的问题吗?我确实发现加载速度特别慢

微博的抓取受网速影响很大,目前我所了解到的情况是:很多校园网的速度太差了,而微博方面的分析由是高校做研究的一个重要方向。有些课题需要数据量比较大的时候,需要委托我们做一些采集
举报 使用道具
数据爬呀爬 初级会员 发表于 2019-12-6 15:37:41 | 显示全部楼层
的确是这样,而且采集的信息很不稳定
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:15