831#
迟南乾 新手上路 发表于 2019-4-3 11:19:13 | 只看该作者
搜索关键字之后没有博文内容,具体显示图片上前几列是DSEngine-+--+-0,DSEngine-+-ds_browser_ds_task_xp1-+-1554260917246之类的,有点疑惑
举报 使用道具
832#
Fuller 管理员 发表于 2019-4-3 11:38:19 | 只看该作者
迟南乾 发表于 2019-4-3 11:19
搜索关键字之后没有博文内容,具体显示图片上前几列是DSEngine-+--+-0,DSEngine-+-ds_browser_ds_task_xp1 ...

前面几列是爬虫生成的,用于做内容匹配或者记录时间的。

你看到的结果文件中有多少条数据?

运行爬虫之前有没有在集搜客浏览器中登录微博?
举报 使用道具
833#
goodbrother 新手上路 发表于 2019-4-11 16:55:34 | 只看该作者
这个是使用一次360积分吗
举报 使用道具
834#
Fuller 管理员 发表于 2019-4-11 17:07:51 | 只看该作者
goodbrother 发表于 2019-4-11 16:55
这个是使用一次360积分吗

跟导出数据条数有关,1积分可以导出20条
举报 使用道具
835#
Fuller 管理员 发表于 2019-4-11 17:08:26 | 只看该作者
如果采集量特别大,可以购买旗舰版,就不限导出数量。https://www.gooseeker.com/about/charge.html
举报 使用道具
836#
Susuany 新手上路 发表于 2019-4-17 17:36:10 | 只看该作者
微博关键词搜索出来的数据是微博全部的数据吗?因为微博上用微博搜索这个功能搜的微博不全面,我不知道这个网站中微博关键词搜索使用的方法是用了微博上微博搜索这个功能搜出来的结果数据,还是微博全网的数据
举报 使用道具
837#
Fuller 管理员 发表于 2019-4-17 17:41:22 | 只看该作者
Susuany 发表于 2019-4-17 17:36
微博关键词搜索出来的数据是微博全部的数据吗?因为微博上用微博搜索这个功能搜的微博不全面,我不知道这个 ...

是微博搜索结果数据,能看到多少就能采集多少,看不到的全网数据采集不下来
举报 使用道具
838#
Susuany 新手上路 发表于 2019-4-17 17:48:59 | 只看该作者
Fuller 发表于 2019-4-17 17:41
是微博搜索结果数据,能看到多少就能采集多少,看不到的全网数据采集不下来
...

就是基于微博搜索这个功能爬的数据是吧。因为微博搜索出来的不是全网数据这个我已经证实了,那是不是时间越久数据越不完整?比如我一下子要爬两年的数据,两年前的微博能搜索出的条数就很少,但是最近几天的是不是会完整一些?
举报 使用道具
839#
Fuller 管理员 发表于 2019-4-17 18:00:44 | 只看该作者
Susuany 发表于 2019-4-17 17:48
就是基于微博搜索这个功能爬的数据是吧。因为微博搜索出来的不是全网数据这个我已经证实了,那是不是时间 ...

确实是这样的,跟时间有关,如果要密切跟踪某个关键词的话,应该至少每天或者隔几个小时采集一次,过几天以后,你会发现密切监视得到的内容远远多于搜索出来的
举报 使用道具
840#
论文让我头秃 新手上路 发表于 2019-4-20 14:03:21 | 只看该作者
第一次有些线索没采上,第二次再采,为什么最后导出的数据有很多重复的?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 13:12