1051#
Fuller 管理员 发表于 2020-3-7 08:25:12 | 只看该作者
pypypy 发表于 2020-3-6 23:51
所说的规范都照做了,包括清缓存、登录微博账号、最大化页面等等,可是每次只能爬取一条微博下的评论数据。 ...

你贴出来几个你添加的链接,我们测试一下。

另外,是否下载和安装了最新爬虫版本?

还有就是观察一下DS打数机窗口,有没有一直停在哪里?如果DS打数机的浏览器内容一直不变,截个图我看看
举报 使用道具
1052#
Fuller 管理员 发表于 2020-3-7 08:30:22 | 只看该作者
pypypy 发表于 2020-3-6 23:51
所说的规范都照做了,包括清缓存、登录微博账号、最大化页面等等,可是每次只能爬取一条微博下的评论数据。 ...

你的电脑上有没有安装360这样的杀毒软件,要关掉,不然会把网络搞得好慢

电脑配置怎样?新浪微博网页上有好多代码要运行,电脑配置比较高,运行速度快,就不容易出现“加载中”这类提示
举报 使用道具
1053#
pypypy 初级会员 发表于 2020-3-7 11:37:44 | 只看该作者
360关掉了
如此条:https://weibo.com/1778181861/IsMYSCXCk?refer_flag=1001030103_ 停留在如图加载状态,之后变停止状态,刚清完缓存添加的三个任务都停了
                                               
另外两条:
https://weibo.com/1686546714/IrUUhpMW8?refer_flag=1001030103_
https://weibo.com/1845864154/IwixuvOGo?refer_flag=1001030103_
电脑配置应该没问题,前几天用集搜客爬2w条微博搜索数据,没像【微博评论】这样需要一直清缓存
求帮忙解决下


举报 使用道具
1054#
xiaonan9579 新手上路 发表于 2020-3-13 17:30:41 | 只看该作者
这个为什么下载完成了在管网上没有找到下载的地方?
举报 使用道具
1055#
Fuller 管理员 发表于 2020-3-13 17:39:44 | 只看该作者
pypypy 发表于 2020-3-7 11:37
360关掉了
如此条:https://weibo.com/1778181861/IsMYSCXCk?refer_flag=1001030103_ 停留在如图加载状态, ...

最近采集新浪微博太多了,这种情况没有好的应对方法,在这个贴子中,我们汇总了一些采集微博的问题应对方法,可以参考一下:https://www.gooseeker.com/doc/thread-17343-1-1.html
举报 使用道具
1056#
Fuller 管理员 发表于 2020-3-13 17:40:41 | 只看该作者
xiaonan9579 发表于 2020-3-13 17:30
这个为什么下载完成了在管网上没有找到下载的地方?

下载采集结果吗?如果是在会员中心网页上点击了打包或者导出,并且点击了下载,下载下来的采集结果放在你的电脑的“下载”目录
举报 使用道具
1057#
yyyojiro 新手上路 发表于 2020-3-24 00:02:23 | 只看该作者
为什么在使用样例url采集微博用户主页内容时,没有该用户微博文本内容,请问哪里出问题了呢
举报 使用道具
1058#
Fuller 管理员 发表于 2020-3-24 07:28:31 | 只看该作者
yyyojiro 发表于 2020-3-24 00:02
为什么在使用样例url采集微博用户主页内容时,没有该用户微博文本内容,请问哪里出问题了呢 ...

你把网址发出来,我测试一下
举报 使用道具
1059#
937733843 新手上路 发表于 2020-4-4 14:51:25 | 只看该作者
为什么不能抓取所有评论呢?只能爬取到1000多条
举报 使用道具
1060#
maomao 论坛元老 发表于 2020-4-4 14:59:24 | 只看该作者
937733843 发表于 2020-4-4 14:51
为什么不能抓取所有评论呢?只能爬取到1000多条

weibo评论是瀑布流,不是翻页,很难说微博网站能显示多少,能采集多少。要想尽量采集的多,有以下建议:

1. 爬微博之前,一定要在集搜客浏览器登陆微博
2.网速要好,网速好,才能及时加载网页,把评论加载出来
3.计算机处理速度要快,这样才能及时把评论网页加载出来
4.采集量大了,要及时清缓存


按这个帖子一楼的回答清缓存https://www.gooseeker.com/doc/thread-11667-1-1.html

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 07:40