我按照教程制作了爬去京东手机列表的网址 和第二级详情页的 标题及价格。
第一级已经跑完了,第二级正在跑,但是发现,仅仅采集商品的标题和价格,打数机要把整个页面都加载完,才能进行第二个商品的采集,速度好慢,我要怎么提高抓取速度?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-8-24 11:58

沙发
xandy 论坛元老 发表于 2017-1-22 10:56:20 | 只看该作者
本帖最后由 xandy 于 2017-1-22 11:02 编辑

如果只要标题和价格,那么可以如下设置:
1,不要打开滚屏
2,DS菜单 配置-〉配置浏览器参数,只勾上js,其他两个不勾
3,用爬虫群,同时开几个爬虫去抓,参考教程:《如何运行爬虫群
另外,要观察DS打数机下部的日志窗口,正常的话什么消息都没有,如果出现日志消息,一般会拖慢速度,那就是抓取规则不太合适,需要微调。
ps:如果只是抓标题和价格,那么完全不用做第二级规则了,第一级就可以抓全。
举报 使用道具
板凳
xandy 论坛元老 发表于 2017-1-22 11:01:05 | 只看该作者
如果抓完后,日志窗口出现如下图的提示:

说明速度可以再优化,参考帖子:《怎么样优化DS打数机/爬虫参数提高抓取速度
举报 使用道具
地板
ZOE1679 金牌会员 发表于 2017-8-24 11:40:24 | 只看该作者
如果要滚屏,但不用滚到页面最底,怎么设置呢?
举报 使用道具
5#
bowieD 金牌会员 发表于 2017-8-24 11:58:58 | 只看该作者
ZOE1679 发表于 2017-8-24 11:40
如果要滚屏,但不用滚到页面最底,怎么设置呢?

1,测试一下不滚屏能否全部抓到你需要的数据,把滚屏次数设置为0就不滚屏
2,可以设置滚屏速度,滚屏速度为0、1和-1都能滚屏,只是速度也不变,但是为2,3,4,5,6,....速度会越来越快。-2,-3,-4,-5,.....速度会越来越慢。可以根据你的需要设置滚屏速度。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-16 06:52