在爬取的时候,我设置了滚屏1000次,可是不知道为什么只拿到了100条信息!!!!! 我觉得不对啊。。。
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-5-8 19:14

沙发
lucas602931977 新手上路 发表于 2017-5-8 17:27:01 | 只看该作者
我爬的是推特网址!!!!
举报 使用道具
板凳
wangyong 版主 发表于 2017-5-8 17:28:14 | 只看该作者
滚屏参数的解释:
1)滚屏次数:>0就打开了滚屏。这个次数并不是准确的次数,而是称为额外滚屏次数,因为滚屏的时候,网页会连续不断地变长,DS打数机会等待变换平稳了才开始计数,再额外滚动几次
2)滚屏速度:-1和1效果相同,没有变速,2,3,4,....越来越快,-2,-3,-4,....越来越慢

两个参数都要适当调整,另外打数机配置里的定时器触发需要不勾选
举报 使用道具
地板
Fuller 管理员 发表于 2017-5-8 19:14:44 | 只看该作者
lucas602931977 发表于 2017-5-8 17:27
我爬的是推特网址!!!!

你抓的这个twitter网址是没有底的瀑布流网页吗?还有能滚到底,看到翻页区?

如果是没有底的瀑布流,那么要用连续动作的连续滚屏模式,滚动一次抓一次。这需要在“连续动作”工作台上定义规则。那么在运行DS打数机的时候,不用开启自动滚屏功能,因为是与连续滚屏冲突的。那么就要用DS打数机的菜单 配置-》滚屏参数,把滚屏次数设置成0,关闭滚屏功能。

如果是有翻页区的,那么可以用DS打数机的自动滚屏功能滚到底,再翻页,就不用定义连续动作规则。而是在“爬虫路线”工作台上定义翻页规则。这样的网页就需要开启DS打数机的自动滚屏功能。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 01:48