841#
Fuller 管理员 发表于 2019-4-20 15:22:50 | 只看该作者
论文让我头秃 发表于 2019-4-20 14:03
第一次有些线索没采上,第二次再采,为什么最后导出的数据有很多重复的? ...

你一共导出几次?如果只导出了一次,会有重复数据,第一次采集到的会重复。这个重复没有过滤。

如果第一次已经导出了,第二次采集完成后再导出,重复导出了第一次的,那就是我们程序的bug了
举报 使用道具
842#
论文让我头秃 新手上路 发表于 2019-4-20 16:32:36 | 只看该作者
Fuller 发表于 2019-4-20 15:22
你一共导出几次?如果只导出了一次,会有重复数据,第一次采集到的会重复。这个重复没有过滤。

如果第一 ...

上次打包了两次,因为第一次打包几千条之后第二次再点我发现还有几百条我就又打包了,搞到一个excel表里就有重复的
举报 使用道具
843#
论文让我头秃 新手上路 发表于 2019-4-20 16:33:08 | 只看该作者
论文让我头秃 发表于 2019-4-20 16:32
上次打包了两次,因为第一次打包几千条之后第二次再点我发现还有几百条我就又打包了,搞到一个excel表里 ...

然后第三次再点就显示0了
举报 使用道具
844#
论文让我头秃 新手上路 发表于 2019-4-20 16:36:28 | 只看该作者
所以我其实想问的是采集到的数据到底需要打包几次才能打包完呀?
举报 使用道具
845#
Fuller 管理员 发表于 2019-4-20 17:21:32 | 只看该作者
论文让我头秃 发表于 2019-4-20 16:36
所以我其实想问的是采集到的数据到底需要打包几次才能打包完呀?

数据采集下来以后,要转换成excel,因为同时有很多人都在转换数据,所有的转换操作都要排队,那么刚刚采集完,很可能还有好几批数据还在排队,这时候导出就没有导出全部,再过一会排队的都处理完了,才能导出全部
举报 使用道具
846#
Jane243 中级会员 发表于 2019-4-22 09:53:09 | 只看该作者
获取微博博主详细资料,为什么行业总是显示无?

捕获2.JPG (18.13 KB, 下载次数: 485)

捕获2.JPG

捕获.JPG (31.25 KB, 下载次数: 495)

捕获.JPG
举报 使用道具
847#
Susuany 新手上路 发表于 2019-4-22 15:39:55 | 只看该作者
Fuller 发表于 2019-4-17 18:00
确实是这样的,跟时间有关,如果要密切跟踪某个关键词的话,应该至少每天或者隔几个小时采集一次,过几天 ...

那能指定只要原创微博吗

举报 使用道具
848#
scraper 论坛元老 发表于 2019-4-22 16:21:00 | 只看该作者
Jane243 发表于 2019-4-22 09:53
获取微博博主详细资料,为什么行业总是显示无?

这个问题已经修复了
举报 使用道具
849#
Fuller 管理员 发表于 2019-4-22 16:25:48 | 只看该作者
Susuany 发表于 2019-4-22 15:39
那能指定只要原创微博吗


如果用这个微博博主采集工具,添加网址的时候要注意:如果只想采集原创的微博,那么在这个博主页面上选择原创,得到的网址添加到这里。
如果是在excel中构造网址,那么在url要添加参数 is_ori=1
举报 使用道具
850#
Susuany 新手上路 发表于 2019-4-22 16:54:04 | 只看该作者
Fuller 发表于 2019-4-22 16:25
如果用这个微博博主采集工具,添加网址的时候要注意:如果只想采集原创的微博,那么在这个博主页面上选 ...

谢谢您。我采集的过程中出现了一个错误控制台,一直刷新了 很多条警告,需要做什么吗,还是不用在意
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 09:59