421#
gjcjonas 新手上路 发表于 2017-5-17 00:27:13 | 只看该作者
你好,我一直采集途中显示已停止,timeout,我尝试很多网站了,之前都挺好用的,这是为什么呢,该怎么解决呢
举报 使用道具
422#
maomao 论坛元老 发表于 2017-5-17 07:18:32 | 只看该作者
1. 你有没有在GS浏览器登录微博?要登录微博。
2. 是不是爬得太多,出验证码?
3. 微博主页采集的话,可以按分页,或者按时间,分段采,断了,也能接上。
举报 使用道具
423#
maomao 论坛元老 发表于 2017-5-17 07:46:29 | 只看该作者
gjcjonas 发表于 2017-5-17 00:27
你好,我一直采集途中显示已停止,timeout,我尝试很多网站了,之前都挺好用的,这是为什么呢,该怎么解决 ...

比如姚晨的微博比较多,可以按时间打开来采集。

微博博主主页时间.png (722.76 KB, 下载次数: 481)

微博博主主页时间.png
举报 使用道具
424#
gjcjonas 新手上路 发表于 2017-5-17 16:05:36 | 只看该作者
比如我爬的一条微博有w+的评论,怎么设置能让他只爬其中一部分呢
举报 使用道具
425#
Fuller 管理员 发表于 2017-5-17 16:26:42 | 只看该作者
gjcjonas 发表于 2017-5-17 16:05
比如我爬的一条微博有w+的评论,怎么设置能让他只爬其中一部分呢

评论没法控制,而且也不能从中间某个分页开始抓。而且特别容易中断,这么多评论,基本上抓不全,只能抓前面的
举报 使用道具
426#
wyz64213124 新手上路 发表于 2017-5-17 22:59:40 | 只看该作者
微博“展开全文”后的内容抓取不到,麻烦改进一下,谢谢。
举报 使用道具
427#
Fuller 管理员 发表于 2017-5-18 00:02:21 | 只看该作者
wyz64213124 发表于 2017-5-17 22:59
微博“展开全文”后的内容抓取不到,麻烦改进一下,谢谢。

这个的改进方法我们研究一下,用连续动作逐个点开可以抓取,但是速度会比较慢
举报 使用道具
428#
沐雪弦歌 新手上路 发表于 2017-5-21 13:34:57 | 只看该作者
选择了采集博主主页全部信息,采集主页一部分信息后,后面的页面无法加载出来,然后就显示加载完毕了。这个情况是什么原因?
举报 使用道具
429#
Fuller 管理员 发表于 2017-5-21 14:50:54 | 只看该作者
沐雪弦歌 发表于 2017-5-21 13:34
选择了采集博主主页全部信息,采集主页一部分信息后,后面的页面无法加载出来,然后就显示加载完毕了。这个 ...

这个微博网站的速度有关,可以从断掉的地方接上,就是手工翻页到断掉的地方,把网址拷贝下来,创建一个新任务,就能从这里开始抓取
举报 使用道具
430#
lqn326 新手上路 发表于 2017-5-28 11:57:26 | 只看该作者
我想采集一条微博下的评论,但是用这个工具一直不成功,没有反应,我检查了
1服务器连接正常
2也在gooseeker里登录了微博
3链接是该条微博的独立链接
但是弹出来的窗口一直显示的是“等待分配采集任务”
我是第一次用这个软件,还是个小白,看到提问区有人说要运行爬虫群才可以?但是操作指南上没有说这一步,我是漏掉了什么吗……
求高人指点!!!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 21:00