我是爬虫新手,如何采集微博数据?求详细的操作步骤
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2021-2-23 18:30

知网期刊 新手上路 发表于 2020-9-29 10:01:18 | 显示全部楼层
本帖最后由 wangyong 于 2021-1-13 16:17 编辑

QQ截图20200929095701.png
https://www.gooseeker.com/land/weibo.html

原来每个微博工具箱进入后都有引导,根据提示就能采到数据了,真的很方便~

微博关键词搜索控制面板.png 微博关键词搜索数据展示.png
这是用微博关键词工具采集到的数据。
举报 使用道具
lan_1985 金牌会员 发表于 2020-4-9 11:10:15 | 显示全部楼层
本帖最后由 lan_1985 于 2020-4-9 11:56 编辑

1、打开官网:https://www.gooseeker.com/,注册集搜客账号
2、你需要先安装集搜客网络爬虫,如未安装,请 登录https://www.gooseeker.com/pro/product.html,下载安装。
3、 打开集搜客浏览器,右上角输入集搜客账号和密码,登录对应的会员中心,确保这两个位置账号一致。如图所示
QQ图片20200409115548.png

4、在集搜客网络爬虫中打开 http://weibo.com/ 登录你的微博
5、 访问https://www.gooseeker.com/land/weibo.html,根据采集的对应板块,新建采集任务
6、点击“启动采集”会弹出两个爬虫窗口
7、当采集状态为“已采集”时,点击“打包”按钮
8、最后在右侧“数据下载”中下载数据


举报 使用道具
lan_1985 金牌会员 发表于 2020-4-9 11:40:59 | 显示全部楼层
需要注意的是,每个板块,要添加对应的网址
比如,要采集某个博主主页的信息,可以先在微博上,找到博主主页的网址,添加到这个版块进行采集 QQ图片20200409113615.png

这个版块采集下来的数据,导出excell表格中,可以选出转发和评论不为0的博文的 ‘博文独立网址’添加到上图的‘微博转发/评论信息’采集对应博文的转发和评论信息。


举报 使用道具
菩提栗子 初级会员 发表于 2020-4-9 11:45:02 | 显示全部楼层
好的,感谢您的回复,我试试看
举报 使用道具
菩提栗子 初级会员 发表于 2020-4-9 12:01:34 | 显示全部楼层
试了好几次,一直显示这个是怎么回事?可是我明明已经下载爬虫了呀!
QQ图片20200409115904.png
举报 使用道具
lan_1985 金牌会员 发表于 2020-4-9 12:06:47 | 显示全部楼层
菩提栗子 发表于 2020-4-9 12:01
试了好几次,一直显示这个是怎么回事?可是我明明已经下载爬虫了呀!

截图显示,不是用集搜客浏览器打开的,一定要在集搜客浏览器官网登录账号和采集,用集搜客官网打开的,右上角显示如下图

QQ图片20200409120529.png
举报 使用道具
Fuller 管理员 发表于 2020-9-29 10:03:07 | 显示全部楼层
知网期刊 发表于 2020-9-29 10:01
https://www.gooseeker.com/land/weibo.html

原来每个微博工具箱进入后都有引导,根据提示就能采到数据了 ...

第一次使用有引导,以后就没有了,所以,大家要仔细看,错过了就看不到了
举报 使用道具
maomao 论坛元老 发表于 2021-2-23 18:30:30 | 显示全部楼层
本帖最后由 maomao 于 2021-2-23 20:40 编辑

现在集搜客发布了增强版爬虫软件,操作更方便,爬取更稳定。下载爬虫软件后,在爬虫浏览器打开微博工具箱,选择合适的工具,爬取微博的关键词搜索,微博的博主博文,微博的博文转发、评论,博主详细信息,微博话题广场等等。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:46