841#
Susuany 新手上路 发表于 2019-4-17 17:48:59 | 只看该作者
Fuller 发表于 2019-4-17 17:41
是微博搜索结果数据,能看到多少就能采集多少,看不到的全网数据采集不下来
...

就是基于微博搜索这个功能爬的数据是吧。因为微博搜索出来的不是全网数据这个我已经证实了,那是不是时间越久数据越不完整?比如我一下子要爬两年的数据,两年前的微博能搜索出的条数就很少,但是最近几天的是不是会完整一些?
举报 使用道具
842#
Fuller 管理员 发表于 2019-4-17 18:00:44 | 只看该作者
Susuany 发表于 2019-4-17 17:48
就是基于微博搜索这个功能爬的数据是吧。因为微博搜索出来的不是全网数据这个我已经证实了,那是不是时间 ...

确实是这样的,跟时间有关,如果要密切跟踪某个关键词的话,应该至少每天或者隔几个小时采集一次,过几天以后,你会发现密切监视得到的内容远远多于搜索出来的
举报 使用道具
843#
论文让我头秃 新手上路 发表于 2019-4-20 14:03:21 | 只看该作者
第一次有些线索没采上,第二次再采,为什么最后导出的数据有很多重复的?
举报 使用道具
844#
Fuller 管理员 发表于 2019-4-20 15:22:50 | 只看该作者
论文让我头秃 发表于 2019-4-20 14:03
第一次有些线索没采上,第二次再采,为什么最后导出的数据有很多重复的? ...

你一共导出几次?如果只导出了一次,会有重复数据,第一次采集到的会重复。这个重复没有过滤。

如果第一次已经导出了,第二次采集完成后再导出,重复导出了第一次的,那就是我们程序的bug了
举报 使用道具
845#
论文让我头秃 新手上路 发表于 2019-4-20 16:32:36 | 只看该作者
Fuller 发表于 2019-4-20 15:22
你一共导出几次?如果只导出了一次,会有重复数据,第一次采集到的会重复。这个重复没有过滤。

如果第一 ...

上次打包了两次,因为第一次打包几千条之后第二次再点我发现还有几百条我就又打包了,搞到一个excel表里就有重复的
举报 使用道具
846#
论文让我头秃 新手上路 发表于 2019-4-20 16:33:08 | 只看该作者
论文让我头秃 发表于 2019-4-20 16:32
上次打包了两次,因为第一次打包几千条之后第二次再点我发现还有几百条我就又打包了,搞到一个excel表里 ...

然后第三次再点就显示0了
举报 使用道具
847#
论文让我头秃 新手上路 发表于 2019-4-20 16:36:28 | 只看该作者
所以我其实想问的是采集到的数据到底需要打包几次才能打包完呀?
举报 使用道具
848#
Fuller 管理员 发表于 2019-4-20 17:21:32 | 只看该作者
论文让我头秃 发表于 2019-4-20 16:36
所以我其实想问的是采集到的数据到底需要打包几次才能打包完呀?

数据采集下来以后,要转换成excel,因为同时有很多人都在转换数据,所有的转换操作都要排队,那么刚刚采集完,很可能还有好几批数据还在排队,这时候导出就没有导出全部,再过一会排队的都处理完了,才能导出全部
举报 使用道具
849#
Jane243 中级会员 发表于 2019-4-22 09:53:09 | 只看该作者
获取微博博主详细资料,为什么行业总是显示无?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
850#
Susuany 新手上路 发表于 2019-4-22 15:39:55 | 只看该作者
Fuller 发表于 2019-4-17 18:00
确实是这样的,跟时间有关,如果要密切跟踪某个关键词的话,应该至少每天或者隔几个小时采集一次,过几天 ...

那能指定只要原创微博吗

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-7-7 06:45