1281#
gz51837844 管理员 发表于 2021-9-2 15:08:06 | 只看该作者
爬取之前,有没有在数据管家上登录微博? 没登录的情况下显示的评论会比较少
你可以把你爬取的那条微博发出来我们测试下
举报 使用道具
1282#
louiselana 初级会员 发表于 2021-9-5 18:53:42 | 只看该作者
50页之后的爬取不到了。按照要求设置了爬取间隔,依然无法爬取50页以后的内容。
举报 使用道具
1283#
gz51837844 管理员 发表于 2021-9-5 19:52:34 | 只看该作者
louiselana 发表于 2021-9-5 18:53
50页之后的爬取不到了。按照要求设置了爬取间隔,依然无法爬取50页以后的内容。 ...

如果不设置时间间隔,那么一个关键词只搜索对应一条网址,最多只能爬取50页。
如果设置了爬取时间间隔,一个关键词搜索任务就自动生成多条网址,每条网址对应一个时间段,每条网址最多都可以爬取50页。
比如某天的微博,按每小时分段,就会爬取24条网址,理论上最大的爬取量是:50页*24=1200页。
举报 使用道具
1284#
aicici 初级会员 发表于 2021-9-12 16:46:33 | 只看该作者
小白,设置了时间段,只能爬取50页,看是要设置时间间隔才能爬取更多,如何设置时间间隔呢
举报 使用道具
1285#
gz51837844 管理员 发表于 2021-9-12 22:49:27 | 只看该作者
aicici 发表于 2021-9-12 16:46
小白,设置了时间段,只能爬取50页,看是要设置时间间隔才能爬取更多,如何设置时间间隔呢 ...

对于微博关键词搜索工具,比如我要采集关键词”新冠“, 9月1日至9月12日, 下图的设置, 会自动按每个小时去采集, 也就是理论上每小时最多可以采集50页



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
1286#
gz51837844 管理员 发表于 2021-9-12 22:51:06 | 只看该作者
举报 使用道具
1287#
陈陈不忧桑 金牌会员 发表于 2021-9-13 14:18:46 | 只看该作者
我想问一下怎么爬取分省的数据呀,微博把分省的功能关闭了
举报 使用道具
1288#
gz51837844 管理员 发表于 2021-9-13 14:55:42 | 只看该作者
陈陈不忧桑 发表于 2021-9-13 14:18
我想问一下怎么爬取分省的数据呀,微博把分省的功能关闭了

以前可以通过高级搜索, 或者在网址里添加省市参数, 来实现按地区爬取。现在微博关闭了这个功能,微博工具箱目前也不支持按省爬取
举报 使用道具
1289#
EstherZzzz 新手上路 发表于 2021-10-27 10:57:01 | 只看该作者
请问多个关键词的爬取怎么总是失败啊?用逗号隔开也没有用,只爬了第一个关键词,如果直接把两个词合在一起也不行
举报 使用道具
1290#
内容分析应用 金牌会员 发表于 2021-10-27 12:01:39 | 只看该作者
理论上讲, 添加多个关键词, 每个关键词会添加1条单独对应的爬取网址, 关键词之间是互不干扰的。
你爬取失败的是哪几个关键词? 发出来我们测试下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法

热门用户

GMT+8, 2025-6-17 06:48