8 2076

急急急爬取连页微博

2794244010 于 2024-2-7 22:23 发表 [复制链接]
爬取连页微博,爬虫页面在正常翻页(一直翻到了最后),但是为什么爬出来的数据只有第一页?
【微博爬取自定义】-【规则_1】
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2024-2-7 23:16

gz51837844 管理员 发表于 2024-2-7 22:43:04 | 显示全部楼层
你这个规则我测试了一下,总共2页:
第1页10条
第2页2条
然后就正常结束

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 22:55:11 | 显示全部楼层
所以是这个规则的样例网站内容太少了,影响了其他网站吗
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 22:57:05 | 显示全部楼层
还有很多采集网站不止这么些页,但是采集出来的微博也都只有几十条
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 22:57:40 | 显示全部楼层
gz51837844 发表于 2024-2-7 22:43
你这个规则我测试了一下,总共2页:
第1页10条
第2页2条

所以是这个规则的样例网站内容太少了,影响了其他网站吗

举报 使用道具
gz51837844 管理员 发表于 2024-2-7 22:58:16 | 显示全部楼层
2794244010 发表于 2024-2-7 22:55
所以是这个规则的样例网站内容太少了,影响了其他网站吗

你这个规则我测试没问题,规则的样例网址是:https://s.weibo.com/weibo?q=%23c ... 1-29-23&Refer=g
你在爬取时碰到其它的网址有问题吗? 有问题的网址是什么?
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 23:00:51 | 显示全部楼层
gz51837844 发表于 2024-2-7 22:58
你这个规则我测试没问题,规则的样例网址是:https://s.weibo.com/weibo?q=%23chatgpt&typeall=1&suball= ...

比如这个https://s.weibo.com/weibo?q=%23chatgpt%23&typeall=1&suball=1&timescope=custom%3A2023-06-28-0%3A2023-06-30-23&Refer=g
爬出来只有8条
举报 使用道具
gz51837844 管理员 发表于 2024-2-7 23:12:31 | 显示全部楼层
2794244010 发表于 2024-2-7 23:00
比如这个https://s.weibo.com/weibo?q=%23chatgpt%23&typeall=1&suball=1&timescope=custom%3A2023-06-28 ...

这个网址我测试也正常,翻了15页,采集了110条

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
2794244010 初级会员 发表于 2024-2-7 23:16:53 | 显示全部楼层
gz51837844 发表于 2024-2-7 23:12
这个网址我测试也正常,翻了15页,采集了110条

感谢,又试了一遍,成功了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结

热门用户

GMT+8, 2024-12-10 10:29