本帖最后由 hehanbo 于 2015-10-29 08:24 编辑



如图所示,下拉到底有新内容产生的网页,如何才能抓取全部数据?
万幸只抓这一页。。。
我没有在教程中找到,所以请大家不吝赐教。

用打数机抓之后,发现瀑布式的网页,只要抓取速度慢于瀑布式新内容的展现速度,似乎还是可以一直抓取,所以存不存在可能性:控制抓取速度(慢一点),然后一点点把这个网页抓取完?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-4-5 09:34

沙发
gooseeker_info 金牌会员 发表于 2015-10-29 09:37:53 | 只看该作者

修改第二个参数 “滚屏速度”,用负数,-2,-4,-6,越来越慢。用正数 2,4,6,8,越来越快。

要用V5.3.1版本才可以。

如果往下滚动,永远没有停止,那么当前版本可能不行,但是,如果能见到网页底部,就能抓。见不到底的要V5.4.0,这周末发布。
举报 使用道具
板凳
流年似水 中级会员 发表于 2015-10-30 12:36:15 | 只看该作者
举报 使用道具
地板
Fuller 管理员 发表于 2018-4-5 09:34:33 | 只看该作者
2018-4-4又做了一次升级,已经发展到V8.6.1了,连续滚屏已经有多个方案了
1,如果是一个长网页,滚屏能滚到底,比如,微博的页面,那么用DS打数机的连续滚屏即可。如果是手工启动的抓取,在DS打数机的菜单上设置滚屏参数即可。如果是爬虫群模式,在会员中心设置这个规则的调度参数
2,如果是滚不到底的瀑布流,要用连续动作的滚屏,滚一次抓一次。具体参看连续滚屏的教程
3,连续滚屏还有一种:滚轮,因为有些网页上能滚动的是某个区域,而不是整个网页,那么滚轮动作就可以把鼠标浮在那个区域,模拟滚轮

如果是按住滑动的那种,那么就要联系我们进行定制
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 00:13