本帖最后由 wangyong 于 2021-3-10 11:12 编辑

我想知道怎样能采集到微博的签到数据
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2021-3-10 15:41

来自 2#
wangyong 版主 发表于 2021-3-10 15:41:17 | 只看该作者
使用集搜客快捷采集中的微博签到采集_此地热议可以采集到具体地点的签到数据

数据管家左侧工具栏进入快捷采集,选择微博签到采集_此地热议输入签到地点链接
例如要采集青岛的签到数据则输入:https://weibo.com/p/1001018008637020000000000
在微博高级搜索中输入要搜索的地点名称,选择包含短网址条件,可以找到对应签到地的网址


输入要采集的地点网址后,数据管家会同时启动采集任务
待数据采集已完成后,在快捷采集管理页面,即可打包下载Excel格式的数据

如果需要设置定时采集,比如每五分钟采集一次更新数据,可以购买VIP版来设置

举报 使用道具
板凳
Fuller 管理员 发表于 2019-11-9 20:26:43 | 只看该作者
我查了后台,你的账号状态是好的。输入密码的时候要注意大小写要严格一致。

要采集的网页发一个出来我看看,我测试一下看看是否能采集到你想要的数据
举报 使用道具
地板
数据爬呀爬 初级会员 发表于 2019-11-10 18:13:33 | 只看该作者
不好意思,刚刚才看到您的消息,其实就是一个微博网页https://weibo.com/p/100101B2094653D46CA2FF4592?from=page_100101&mod=home,我需要的是微博签到数据
举报 使用道具
5#
数据爬呀爬 初级会员 发表于 2019-11-10 18:15:10 | 只看该作者
比如说我需要南昌市国庆7天各个旅游景区的签到数据,这样的话怎么才能尽可能准确的采集到所有数据呢
举报 使用道具
6#
Fuller 管理员 发表于 2019-11-10 21:11:44 | 只看该作者
数据爬呀爬 发表于 2019-11-10 18:15
比如说我需要南昌市国庆7天各个旅游景区的签到数据,这样的话怎么才能尽可能准确的采集到所有数据呢 ...

因为这些都是知名景点,这些景点的经纬度可以使用别的方法获得。那么采集微博的主要目的只剩下微博的内容和博文的作者信息。可以先针对签到列表采集所有签到博文内容,然后深入到每个博主的网页,采集他的相关信息。

采集签到列表需要自己定义规则,采集博主信息用现成的规则就行:https://www.gooseeker.com/land/weibo.html

举报 使用道具
7#
数据爬呀爬 初级会员 发表于 2019-11-11 10:29:09 | 只看该作者
Fuller 发表于 2019-11-10 21:11
因为这些都是知名景点,这些景点的经纬度可以使用别的方法获得。那么采集微博的主要目的只剩下微博的内容 ...

好的,谢谢。还有问题就是如果需要的采集的博主网址较多,怎么比较方便采集呢?而且在使用微博采集工具箱的时候,经常出现打印机显示采集成功,但是工具箱那里还显示采集中,并且也打包不了的情况;就算可以打包的话,数据下载之后也找不到是为什么呢
举报 使用道具
8#
Fuller 管理员 发表于 2019-11-11 10:35:30 | 只看该作者
数据爬呀爬 发表于 2019-11-11 10:29
好的,谢谢。还有问题就是如果需要的采集的博主网址较多,怎么比较方便采集呢?而且在使用微博采集工具箱 ...

在采集过程中,会自动启动两个爬虫窗口,一个用于采集数据,一个用于打包,那个用于打包的看起来是空白的内容,但是最好不要关掉。那个用于采集的窗口应该放大到最大。虽然上面也可以覆盖其他窗口,但是它要最大。

打包需要一些时间,一般采集完成后需要几分钟时间,这个时候就会导出不了结果。

另外,爬虫浏览器有个bug,如果创建的采集任务名中含有空格,下载打包结果的时候会出现问题,这时候应该使用其他浏览器下载,比如,chrome
举报 使用道具
9#
数据爬呀爬 初级会员 发表于 2019-11-11 10:56:00 | 只看该作者
Fuller 发表于 2019-11-11 10:35
在采集过程中,会自动启动两个爬虫窗口,一个用于采集数据,一个用于打包,那个用于打包的看起来是空白的 ...

好的,那我再试试看。那关于博主主页信息的采集的话,我需要先把相关博主主页的网址全部整理出来再添加进去采集对吧?我刚才试了一下,采集了四个博主的信息,但是下载之后也不是excel文件,而且我登录集搜客会员中心的话也没有出现这个任务,所以没法导出数据呢
举报 使用道具
10#
Fuller 管理员 发表于 2019-11-11 14:43:33 | 只看该作者
数据爬呀爬 发表于 2019-11-11 10:56
好的,那我再试试看。那关于博主主页信息的采集的话,我需要先把相关博主主页的网址全部整理出来再添加进 ...

微博采集的总的入口在这里:https://www.gooseeker.com/land/weibo.html
从这里进入到某个微博采集系统,可以导出数据:先打包,再下载

举报 使用道具
11#
数据爬呀爬 初级会员 发表于 2019-11-11 15:34:21 | 只看该作者
Fuller 发表于 2019-11-11 14:43
微博采集的总的入口在这里:https://www.gooseeker.com/land/weibo.html
从这里进入到某个微博采集系统, ...

我就是从微博总采集入口进去的,然后使用了微博博主主页内容进行采集,但是采集完了数据还是xml格式,也没办法在数据管理里面找到这一采集任务
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 15:52