集搜客GooSeeker网络爬虫
标题:
使用数据管家抓取新浪微博关键词搜索结果
[打印本页]
作者:
马涌河畔
时间:
2020-7-28 11:09
标题:
使用数据管家抓取新浪微博关键词搜索结果
今天尝试用数据管家抓取新浪微博关键词搜索结果, 整个过程很流畅,很好用。
这里把步骤记录下来做个分享:
1. 从集搜客官网或技术交流QQ群,下载
数据管家软件
, 然后一键安装。
2. 运行数据管家。如果是第一次运行集搜客爬虫软件或者数据管家,可以按提示输入爬虫账号和密码
[attach]12708[/attach]
3. 进入
微博工具箱关键词工具
(注:第一次会提示登录集搜客官网), 输入关键词和起始日期,点击"确认添加"。
(因为微博翻页限制最大50页。如果本次结果很多而超过50页,可以点击"细分条件", 把时间细分,这样爬虫可以采集很多个50页。参见这个帖子:
微博关键词采集 ,在设置细分条件的地方有分段时间粒度,那个是什么意思?
)
[attach]12709[/attach]
4. 登录微博:在数据管家新打开一个网页tab窗口, 访问新浪微博并登录
5. 点击关键词工具页面的"启动采集"按钮, 数据管家会打开2个新的tab窗口开始采集。
[attach]12710[/attach]
作者:
内容分析应用
时间:
2020-7-28 11:19
那个"细分条件"是什么意思?
作者:
马涌河畔
时间:
2020-7-28 11:27
内容分析应用 发表于 2020-7-28 11:19
那个"细分条件"是什么意思?
我理解是这样的,因为微博的限制, 一个搜索结果最多显示50页,比如你搜索"新冠疫情", 时间段是2020-07-21到2020-07-27, 搜到的结果会有远远超过50页。
如果不设置细分条件, 那么最多只能采集这50页的结果。
设置了细分条件,可以按时间,省市细分, 这样等于是把爬取的网址由1条分成了很多条,每条都可以爬取50页结果。
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)
Powered by Discuz! X3.2