641#
baixiaopang 中级会员 发表于 2018-4-12 17:39:51 | 只看该作者
微博主页采集采集一段时间就停止了,该怎么处理?
举报 使用道具
642#
cluetest21 初级会员 发表于 2018-4-12 18:12:05 | 只看该作者
baixiaopang 发表于 2018-4-12 17:39
微博主页采集采集一段时间就停止了,该怎么处理?

是哪个博主主页, 能否把链接发出来我们测试一下

举报 使用道具
643#
baixiaopang 中级会员 发表于 2018-4-12 18:33:42 | 只看该作者
cluetest21 发表于 2018-4-12 18:12
是哪个博主主页, 能否把链接发出来我们测试一下

我下载的几个企业的官方微博的,试了几个都是下载几条就停了。https://weibo.com/u/5132862451?is_ori=1&is_forward=1&is_text=1&is_pic=1&is_video=1&is_music=1&is_article=1&key_word=&start_time=2014-01-01&end_time=2015-01-13&is_search=1&is_searchadv=1#_0类似这个,我做了时间限制,但是三年的微博2000多条,大概要好几批。

举报 使用道具
644#
cluetest21 初级会员 发表于 2018-4-12 20:58:14 | 只看该作者
baixiaopang 发表于 2018-4-12 18:33
我下载的几个企业的官方微博的,试了几个都是下载几条就停了。https://weibo.com/u/5132862451?is_ori=1& ...

好的, 我们测试一下。
如果可以用网址里的参数来分多个时间段抓取,这样挺好的,因为即使断了,也可以从断点处接着爬

举报 使用道具
645#
baixiaopang 中级会员 发表于 2018-4-12 21:52:19 | 只看该作者
cluetest21 发表于 2018-4-12 20:58
好的, 我们测试一下。
如果可以用网址里的参数来分多个时间段抓取,这样挺好的,因为即使断了,也可以从 ...

嗯,麻烦了。现在可以找到断点连着抓取,但是就是觉得总是断,有点太麻烦了。
举报 使用道具
646#
之之 新手上路 发表于 2018-4-18 10:53:57 | 只看该作者
明明已经采集结束,但是还是显示采集中,有什么办法可以把前期的数据先导出来吗
举报 使用道具
647#
wangyong 版主 发表于 2018-4-18 11:20:29 | 只看该作者
采集中可能是采集失败了,是用的微博哪个工具加的什么链接
举报 使用道具
648#
mmdou123 初级会员 发表于 2018-4-20 12:20:40 | 只看该作者
微博关键词抓取输入的时间是2016年11月1日到到2016年12月31日,为什么抓取的的数据只有12月份几天的?
举报 使用道具
649#
Fuller 管理员 发表于 2018-4-20 13:16:28 | 只看该作者
mmdou123 发表于 2018-4-20 12:20
微博关键词抓取输入的时间是2016年11月1日到到2016年12月31日,为什么抓取的的数据只有12月份几天的?
...

你手工翻一翻,这个时间段的微博有多少页,不要超过30页,超过了,把时间再分一分
举报 使用道具
650#
xiaoxi520 新手上路 发表于 2018-4-20 15:02:35 | 只看该作者
没有登录功能嘛
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 02:48