本帖最后由 ym 于 2016-6-17 11:58 编辑

常见问题 > 采集数据—常见问题导航 > 关于日志的报错 > 显示抓取成功,还有爬虫算法需要优化

还有优化空间.jpg
优化速度的方法见http://www.gooseeker.com/doc/thread-714-1-1.html

分析:
当DS打数机的日志显示“需要优化”时,表示数据是能抓下来,但是速度很慢,要等到超时了才抓。

1)最关键是要找出为什么总是超时,总是提示需要优化。如果抓淘宝类电商网站,这种情况很常见,因为网页较大且图片很多,就没有别的好办法了。如果是普通的静态网页,这种问题就可能是规则不合适。

2)超时时长默认是1分钟,如果没有设置超时大于1分钟的话,可以去设会默认值。还有一个设置定时器触发,可以大大加快速度,但是可能会造成遗漏。这两个按钮在配置菜单里设置,并且都会提高采集速度,要根据实际情况来做调整。

注意:如果加载网页时如下图,有这么一个旋转的圈的,采集时就会经常出现那个“需要优化”提示。有些网页,虽然都看到了需要的内容,但是总是旋转,那就要设置定时器触发。
显示抓取成功1.png

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-9-28 09:08

Fuller 管理员 发表于 2016-9-23 12:16:15 | 显示全部楼层
7.x和8.0.0版的出现这个问题可能是一个bug引起的,请尽快升级到V8.0.1
举报 使用道具
快乐小伙 新手上路 发表于 2018-9-28 00:22:46 | 显示全部楼层
Fuller 发表于 2016-9-23 12:16
7.x和8.0.0版的出现这个问题可能是一个bug引起的,请尽快升级到V8.0.1

爬数据太慢了怎么办
举报 使用道具
Fuller 管理员 发表于 2018-9-28 09:08:21 | 显示全部楼层
快乐小伙 发表于 2018-9-28 00:22
爬数据太慢了怎么办

多长时间一个网页?通常是4秒左右,如果嫌慢,可以用爬虫群模式同时运行多个窗口。参看:https://www.gooseeker.com/doc/article-197-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 01:00