集搜客GooSeeker网络爬虫

标题: 爬取内容过少 [打印本页]

作者: lucas602931977    时间: 2017-5-8 17:12
标题: 爬取内容过少
在爬取的时候,我设置了滚屏1000次,可是不知道为什么只拿到了100条信息!!!!! 我觉得不对啊。。。

作者: lucas602931977    时间: 2017-5-8 17:27
我爬的是推特网址!!!!
作者: wangyong    时间: 2017-5-8 17:28
滚屏参数的解释:
1)滚屏次数:>0就打开了滚屏。这个次数并不是准确的次数,而是称为额外滚屏次数,因为滚屏的时候,网页会连续不断地变长,DS打数机会等待变换平稳了才开始计数,再额外滚动几次
2)滚屏速度:-1和1效果相同,没有变速,2,3,4,....越来越快,-2,-3,-4,....越来越慢

两个参数都要适当调整,另外打数机配置里的定时器触发需要不勾选
作者: Fuller    时间: 2017-5-8 19:14
lucas602931977 发表于 2017-5-8 17:27
我爬的是推特网址!!!!

你抓的这个twitter网址是没有底的瀑布流网页吗?还有能滚到底,看到翻页区?

如果是没有底的瀑布流,那么要用连续动作的连续滚屏模式,滚动一次抓一次。这需要在“连续动作”工作台上定义规则。那么在运行DS打数机的时候,不用开启自动滚屏功能,因为是与连续滚屏冲突的。那么就要用DS打数机的菜单 配置-》滚屏参数,把滚屏次数设置成0,关闭滚屏功能。

如果是有翻页区的,那么可以用DS打数机的自动滚屏功能滚到底,再翻页,就不用定义连续动作规则。而是在“爬虫路线”工作台上定义翻页规则。这样的网页就需要开启DS打数机的自动滚屏功能。





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2