11#
Montgomery 新手上路 发表于 2020-2-22 19:03:41 | 只看该作者
Fuller 发表于 2020-2-17 15:23
在我看来,微博签到网页就像一个景点评论网页一样,采集方法是一样的简单。不知道您想采集什么数据?比如 ...

您好,如果我想采集特定时间段内的签到数据,例如2019年6月某一周内北京市内所有签到数据(含经纬坐标),这样的话应该怎么完成?
举报 使用道具
12#
Fuller 管理员 发表于 2020-2-22 19:13:03 | 只看该作者
Montgomery 发表于 2020-2-22 19:03
您好,如果我想采集特定时间段内的签到数据,例如2019年6月某一周内北京市内所有签到数据(含经纬坐标) ...

已经上线了4个微博签到数据的快捷采集,不用做规则,直接使用:
1,微博签到采集_主页
2,微博签到采集_探索此地
3,微博签到采集_此地热议
4,微博签到采集_来过此地的人

用这些工具把微博数据采集下来以后,可以把里面的地址信息找出来,然后再在百度地图api上翻译成经纬度。

找的过程中,可以手工找,手工去查百度得到经纬度。如果数量很大,那就要写一个程序翻译经纬度,或者委托我们做处理
举报 使用道具
13#
Montgomery 新手上路 发表于 2020-2-23 02:11:05 | 只看该作者
Fuller 发表于 2020-2-22 19:13
已经上线了4个微博签到数据的快捷采集,不用做规则,直接使用:
1,微博签到采集_主页
2,微博签到采集_探 ...

但是这样似乎只能下载前某几十页的数据,并不能下载指定日期的数据
举报 使用道具
14#
Fuller 管理员 发表于 2020-2-23 08:48:23 | 只看该作者
Montgomery 发表于 2020-2-23 02:11
但是这样似乎只能下载前某几十页的数据,并不能下载指定日期的数据

我也在微博网页上找,看看有没有按照日期分别查看的入口。如果微博限制查看更多网页,就没有办法了
举报 使用道具
15#
Montgomery 新手上路 发表于 2020-2-23 18:11:36 | 只看该作者
Fuller 发表于 2020-2-22 19:13
已经上线了4个微博签到数据的快捷采集,不用做规则,直接使用:
1,微博签到采集_主页
2,微博签到采集_探 ...

而且有一个问题,就是我试用之后发现很多都只是粗略显示“北京”,并没有具体的位置数据。以前微博API有一个nearby timeline接口,现在没了,就很难
举报 使用道具
16#
Fuller 管理员 发表于 2020-2-23 20:08:52 | 只看该作者
Montgomery 发表于 2020-2-23 18:11
而且有一个问题,就是我试用之后发现很多都只是粗略显示“北京”,并没有具体的位置数据。以前微博API有 ...

如果看“北京”下面的热议,有些人会发更细的地址的,采集到这个更细的地址。

另外,每个地点都有探索此地,会有相关的更详细的地址,探索此地也有集搜客快捷采集工具


举报 使用道具
17#
bigaamir 新手上路 发表于 2020-2-25 15:28:06 | 只看该作者
Fuller 发表于 2020-2-17 15:23
在我看来,微博签到网页就像一个景点评论网页一样,采集方法是一样的简单。不知道您想采集什么数据?比如 ...

你好,请问如果我想采集在某个地点网页下所有在此地点签到的微博信息(含时间、内容、图片、用户信息),是否可能实现
举报 使用道具
18#
bigaamir 新手上路 发表于 2020-2-25 15:29:21 | 只看该作者
Fuller 发表于 2020-2-23 20:08
如果看“北京”下面的热议,有些人会发更细的地址的,采集到这个更细的地址。

另外,每个地点都有探索此 ...

探索此地选项也有页数限制,第6页往后的都看不到了
举报 使用道具
19#
Fuller 管理员 发表于 2020-2-25 16:53:15 | 只看该作者
bigaamir 发表于 2020-2-25 15:29
探索此地选项也有页数限制,第6页往后的都看不到了

目前确实有限制,微博对翻页数量做了限制,爬虫无法突破,大量的历史数据是采集不到的
举报 使用道具
20#
wangyong 版主 发表于 2021-3-24 16:49:25 | 只看该作者
使用集搜客快捷采集中的微博签到采集_此地热议可以采集到具体地点的签到数据

数据管家左侧工具栏进入快捷采集,选择微博签到采集_此地热议输入签到地点链接
例如要采集青岛的签到数据则输入:https://weibo.com/p/1001018008637020000000000
在微博高级搜索中输入要搜索的地点名称,选择包含短网址条件,可以找到对应签到地的网址


输入要采集的地点网址后,数据管家会同时启动采集任务
待数据采集已完成后,在快捷采集管理页面,即可打包下载Excel格式的数据

如果需要设置定时采集,比如每五分钟采集一次更新数据,可以购买VIP版来设置



要继续采集发博人资料数据可以将博主主页链接添加到:微博博主资料抓取_快捷采集来采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 06:25