591#
disiye 新手上路 发表于 2018-1-14 20:12:05 | 只看该作者
采集状态是已采集 为什么无法打包 打包按钮是灰色的
举报 使用道具
592#
数据集 高级会员 发表于 2018-1-15 09:22:08 | 只看该作者
disiye 发表于 2018-1-14 20:12
采集状态是已采集 为什么无法打包 打包按钮是灰色的

采集完成后不要立即关闭采集窗口,如果数据量大的话,数据还在入库,所以需要等待一段时间等数据全部入库之后才能关闭采集窗口,再打包数据。
举报 使用道具
593#
cerulean 新手上路 发表于 2018-1-15 15:38:38 | 只看该作者
这个不能选爬取的页码和数量嘛?
举报 使用道具
594#
数据集 高级会员 发表于 2018-1-15 16:10:43 | 只看该作者
cerulean 发表于 2018-1-15 15:38
这个不能选爬取的页码和数量嘛?

微博工具的参数都是调整好的,暂时不支持主动选择爬取的数量,可以把需要采集的网页页码的独立网址加入到微博工具,把网址上的微博信息全部采集下来,再通过excel筛选出需要的数据。也可以自己制作规则,就可以通过爬虫群控制采集的页数和数量。

举报 使用道具
595#
cerulean 新手上路 发表于 2018-1-15 16:26:15 | 只看该作者
这样啊 ,因为有时候不需要那么多数据,可以还得全部爬下来,多花了一些积分……
举报 使用道具
596#
数据集 高级会员 发表于 2018-1-15 18:29:47 | 只看该作者
cerulean 发表于 2018-1-15 16:26
这样啊 ,因为有时候不需要那么多数据,可以还得全部爬下来,多花了一些积分…… ...

不会多很多,也可以自己制作采集规则。
举报 使用道具
597#
chinafree 新手上路 发表于 2018-1-25 01:54:41 | 只看该作者
第五页之后的数据怎么采?
举报 使用道具
598#
Fuller 管理员 发表于 2018-1-25 09:07:33 | 只看该作者
chinafree 发表于 2018-1-25 01:54
第五页之后的数据怎么采?

粉丝第五页之后的采集不到
举报 使用道具
599#
数据集 高级会员 发表于 2018-1-25 09:08:25 | 只看该作者
本帖最后由 数据集 于 2018-1-25 09:11 编辑
chinafree 发表于 2018-1-25 01:54
第五页之后的数据怎么采?

把第五页的网址添加到微博工具箱启动采集,就会从第五页开始采集。如果微博上只显示前5页,那就只能采集前五页。
举报 使用道具
600#
AMBERRR 初级会员 发表于 2018-2-2 10:51:12 | 只看该作者
微博阅读可以爬取吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:02