1061#
Fuller 管理员 发表于 2020-3-24 07:28:31 | 只看该作者
yyyojiro 发表于 2020-3-24 00:02
为什么在使用样例url采集微博用户主页内容时,没有该用户微博文本内容,请问哪里出问题了呢 ...

你把网址发出来,我测试一下
举报 使用道具
1062#
937733843 新手上路 发表于 2020-4-4 14:51:25 | 只看该作者
为什么不能抓取所有评论呢?只能爬取到1000多条
举报 使用道具
1063#
maomao 论坛元老 发表于 2020-4-4 14:59:24 | 只看该作者
937733843 发表于 2020-4-4 14:51
为什么不能抓取所有评论呢?只能爬取到1000多条

weibo评论是瀑布流,不是翻页,很难说微博网站能显示多少,能采集多少。要想尽量采集的多,有以下建议:

1. 爬微博之前,一定要在集搜客浏览器登陆微博
2.网速要好,网速好,才能及时加载网页,把评论加载出来
3.计算机处理速度要快,这样才能及时把评论网页加载出来
4.采集量大了,要及时清缓存


按这个帖子一楼的回答清缓存https://www.gooseeker.com/doc/thread-11667-1-1.html

举报 使用道具
1064#
ortonrocks 新手上路 发表于 2020-4-14 09:43:15 | 只看该作者
请问为什么我每次爬博文时,都只能导出46条数据呢?我已经在浏览器上登录微博了,想请问还有什么其他可能性呢?
举报 使用道具
1065#
wangyong 版主 发表于 2020-4-14 09:48:10 | 只看该作者
ortonrocks 发表于 2020-4-14 09:43
请问为什么我每次爬博文时,都只能导出46条数据呢?我已经在浏览器上登录微博了,想请问还有什么其他可能性 ...

用的是微博的什么工具,添加的是什么连接,可以发出来我们测试一下
举报 使用道具
1066#
ortonrocks 新手上路 发表于 2020-4-14 10:08:38 | 只看该作者
wangyong 发表于 2020-4-14 09:48
用的是微博的什么工具,添加的是什么连接,可以发出来我们测试一下

微博博主主页采集工具链接是:

https://www.weibo.com/shanghaicity?is_ori=1&is_forward=1&is_text=1&is_pic=1&is_video=1&is_article=1&key_word=&start_time=2019-11-01&end_time=2020-03-31&is_search=1&is_searchadv=1#_0

我是想搜集2019.11.1-2020.3.31. 上海发布的所有博文链接,谢谢


举报 使用道具
1067#
gz51837844 管理员 发表于 2020-4-14 10:16:47 | 只看该作者
ortonrocks 发表于 2020-4-14 10:08
微博博主主页采集工具链接是:

https://www.weibo.com/shanghaicity?is_ori=1&is_forward=1&is_text=1&i ...

采集的时候在集搜客浏览器里登录微博了吗,我在登录状态下是可以正常采集到数据的
举报 使用道具
1068#
ortonrocks 新手上路 发表于 2020-4-14 10:35:29 | 只看该作者
gz51837844 发表于 2020-4-14 10:16
采集的时候在集搜客浏览器里登录微博了吗,我在登录状态下是可以正常采集到数据的
...

我是点击它提示的{请先登录}然后在集搜客登录的,所以应该不是登录的问题?  是不是因为我现在不在国内?

举报 使用道具
1069#
wangyong 版主 发表于 2020-4-14 10:48:16 | 只看该作者
本帖最后由 wangyong 于 2020-4-14 16:05 编辑
ortonrocks 发表于 2020-4-14 10:35
我是点击它提示的{请先登录}然后在集搜客登录的,所以应该不是登录的问题?  是不是因为我现在不在国内?
...

网络不通畅的话可能会有数据加载不出来的情况,这个链接有二十多页,你可以重新采集,然后观察爬虫群窗口看看是在第几页停止的
举报 使用道具
1070#
ortonrocks 新手上路 发表于 2020-4-14 10:50:57 | 只看该作者
wangyong 发表于 2020-4-14 10:48
网络不通畅的话可能会有数据加载不出来的情况,这个链接医用有二十多页,你可以重新采集,然后观察爬虫群 ...

好的谢谢您,我再看看


举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 07:09