maomao 论坛元老 发表于 2018-4-28 23:56:38 | 显示全部楼层
Ellen_gaga 发表于 2018-4-28 23:32
怎么设置导出格式呀?MAC版求教

微博工具箱,导出是EXCEL格式的,不用设置。MAC版也是这样的。你用的哪个微博工具?采集完了,打包,下载导出EXCEL.
举报 使用道具
naspecial 新手上路 发表于 2018-5-2 17:05:08 | 显示全部楼层
Fuller 发表于 2018-4-24 08:46
微博本身会限制翻页,所以就算是手工翻页也是翻不全的,所以能翻多少页就能采集多少页,全部能翻完的话就 ...

那如果需要采到后面页的怎么办呢?谢谢
举报 使用道具
maomaotest4 新手上路 发表于 2018-5-2 17:46:39 | 显示全部楼层
naspecial 发表于 2018-5-2 17:05
那如果需要采到后面页的怎么办呢?谢谢

评论这个好像是没有办法呢。关键词或者微博主页,还可以通过细分时间来爬取更多。评论好像不能设置时间段。
举报 使用道具
MerlinBeard 新手上路 发表于 2018-5-7 05:30:45 | 显示全部楼层
为什么打数器显示“微博话题采集”打包完成,线索数20,剩余0,但是任务那里还是显示“采集中”?还有在打数器状态面板那里,显示采集网页只有1,但是微博话题下的讨论很多页,肯定不止一页,这是为什么?会有遗漏的数据吗?

举报 使用道具
Fuller 管理员 发表于 2018-5-7 09:14:58 | 显示全部楼层
MerlinBeard 发表于 2018-5-7 05:30
为什么打数器显示“微博话题采集”打包完成,线索数20,剩余0,但是任务那里还是显示“采集中”?还有在打 ...

DS打数机面板上的线索数是网址的数量,如果一个网页要翻页很多次,网址数还是算作1。另外,如果你一次添加了很多网址,DS打数机是分批运行的,一批可能是数量很少的网址,比如,只有一个网址。
“采集中”状态有可能是两种原因:
1,实际上采集完成了,但是采集完成上报没有准确发到,这时候可以刷新一下微博话题采集工具箱的网页,看看状态是否会变
2,某个话题翻页过程中中断了,没有采集全
翻页采集没有采集全的可能性是有的,因为微博网站很不稳定,即使手工翻看,也会突然说翻页到底了,没有内容了。遇到这种情况,爬虫也会中断了
举报 使用道具
MerlinBeard 新手上路 发表于 2018-5-8 04:46:04 | 显示全部楼层
有没有专门获取用户之间关系的方法?比如包含用户@谁,以及被谁@这些数据?
举报 使用道具
yangwenge 金牌会员 发表于 2018-5-8 10:23:27 | 显示全部楼层
本帖最后由 yangwenge 于 2018-5-8 10:37 编辑
MerlinBeard 发表于 2018-5-8 04:46
有没有专门获取用户之间关系的方法?比如包含用户@谁,以及被谁@这些数据? ...

可以参考下这篇帖子《微博转发关系》
用户之间的@关系不会像转发关系这样可以通过文章来找到一定的联系,@要先找到一个可以联系上的东西才行,会复杂很多。
举报 使用道具
zza1995 新手上路 发表于 2018-5-13 17:55:12 | 显示全部楼层
要爬的用户比较多,没这么多积分下载数据,可以一次性购买规则吗。那个16年2月份更新的2000积分的规则,和这个是一样的吗,还是那之后就再没更新过
举报 使用道具
离离原上草 初级会员 发表于 2018-5-13 18:58:58 | 显示全部楼层
zza1995 发表于 2018-5-13 17:55
要爬的用户比较多,没这么多积分下载数据,可以一次性购买规则吗。那个16年2月份更新的2000积分的规则,和 ...

这个规则和工具箱的规则,是一个,可以用的。也可以购买旗舰版,299元/月,任意下载数据,不需要积分。
举报 使用道具
874527466 新手上路 发表于 2018-5-16 19:50:12 | 显示全部楼层
使用这个工具的时候怎么预览已经抓取的数据?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-17 00:06