871#
xiangjin 新手上路 发表于 2019-5-9 16:04:33 | 只看该作者
旗舰版是否也限制翻页数量?
举报 使用道具
872#
Fuller 管理员 发表于 2019-5-9 16:36:35 | 只看该作者
xiangjin 发表于 2019-5-9 15:57
怎么设置采集原创微博呢?是不是只能采集50页?50页后就不能采集了?

在博主首页,先手工选择“原创”,得到的网址添加到微博采集工具箱中,就只采集原创

博主首页采集应该没有设置页数限制。如果翻页中断了,你可以在博主首页上选择各个月份,得到的网址就会页数减少。

另外,每个博主设置的可看数量似乎也不同。所以,微博博主采集工具并没有设置翻页限制,翻页到没有就结束。
如下图,选择时间以后,网址就变化了,拷贝这个网址



举报 使用道具
873#
xiangjin 新手上路 发表于 2019-5-11 22:03:57 | 只看该作者
我的意思是  设置关键词后,时间跨度较大,翻页次数到50页后,就不能继续扒取数据了,这个目前能解决吗
举报 使用道具
874#
Fuller 管理员 发表于 2019-5-11 23:29:51 | 只看该作者
xiangjin 发表于 2019-5-11 22:03
我的意思是  设置关键词后,时间跨度较大,翻页次数到50页后,就不能继续扒取数据了,这个目前能解决吗 ...

把时间跨度细化一下,比如,按天,按小时采集。这里有个视频https://www.gooseeker.com/doc/thread-11154-1-1.html
举报 使用道具
875#
Tinayang 初级会员 发表于 2019-5-26 03:33:19 | 只看该作者
想问一下为什么采集到的微博数量和新浪博主主页上显示的数量不一样,我设置的是全部微博。DS一直在运作直到博主的所有页数的微博都被拔取了DS 才停但是始终显示“采集中”,但是可以导出大部分的数据
举报 使用道具
876#
Fuller 管理员 发表于 2019-5-26 08:31:28 | 只看该作者
Tinayang 发表于 2019-5-26 03:33
想问一下为什么采集到的微博数量和新浪博主主页上显示的数量不一样,我设置的是全部微博。DS一直在运作直到 ...

显示采集中是因为最近升级了一次版本,爬虫客户端最好现在最新版的,否则,采集状态容易显示不对。是5月25日中午发布的新客户端软件
举报 使用道具
877#
ffyffy 新手上路 发表于 2019-5-26 08:38:18 | 只看该作者
太好太好
举报 使用道具
878#
13688872251 新手上路 发表于 2019-5-31 18:46:50 | 只看该作者
mac可以用吗?怎么只有exe的版本
举报 使用道具
879#
Fuller 管理员 发表于 2019-5-31 19:53:58 | 只看该作者
13688872251 发表于 2019-5-31 18:46
mac可以用吗?怎么只有exe的版本

mac版在这里下载,一样的方法采集微博数据:https://www.gooseeker.com/pro/product_mac.html
举报 使用道具
880#
zhengxj 初级会员 发表于 2019-6-2 23:56:09 | 只看该作者
请问能采集到博主的性别和所在地等基本信息吗
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 05:28