快捷导航
是一个很长的网站,需要滚动很多次才能加载完毕
我只能采集到2017.8.10的数据,但数据应该是到2.13的,麻烦帮我看看应该怎么调整

规则名xxt

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2020-2-13 11:47

Fuller 管理员 发表于 2020-2-12 18:41:37 | 显示全部楼层
滚屏动作那里,每次滚屏数设置成1,滚得太快加载不出来数据
举报 使用道具
Fuller 管理员 发表于 2020-2-12 18:42:45 | 显示全部楼层
因为有连续滚屏,所以,不要打开DS打数级的自动滚屏,用菜单进行关闭:配置-》自动滚屏,把滚屏次数设置成0
举报 使用道具
Fuller 管理员 发表于 2020-2-12 18:44:58 | 显示全部楼层
因为是瀑布流的,网页会越来越长,不知道能容纳多少,到2017年以后,如果网页太长了就会因为内存不够造成程序崩溃
举报 使用道具
heronw 新手上路 发表于 2020-2-12 22:03:41 | 显示全部楼层
Fuller 发表于 2020-2-12 18:44
因为是瀑布流的,网页会越来越长,不知道能容纳多少,到2017年以后,如果网页太长了就会因为内存不够造成程 ...

打扰了!你能再帮我看一下吗 按照这样设置之后抓取到的更少了...

举报 使用道具
Fuller 管理员 发表于 2020-2-12 22:36:46 | 显示全部楼层
heronw 发表于 2020-2-12 22:03
打扰了!你能再帮我看一下吗 按照这样设置之后抓取到的更少了...

我现在试试每次滚3屏,能采集到哪一年
举报 使用道具
Fuller 管理员 发表于 2020-2-12 22:39:24 | 显示全部楼层
我能采集到2017年2月13日,往下就没有了
举报 使用道具
heronw 新手上路 发表于 2020-2-13 10:56:17 | 显示全部楼层
Fuller 发表于 2020-2-12 22:39
我能采集到2017年2月13日,往下就没有了

我的打数机所翻的网站可以到2.13,但是导出数据之后只能到12月,这个是怎么回事呢

举报 使用道具
Fuller 管理员 发表于 2020-2-13 11:47:10 | 显示全部楼层
heronw 发表于 2020-2-13 10:56
我的打数机所翻的网站可以到2.13,但是导出数据之后只能到12月,这个是怎么回事呢

...

采集瀑布流网页的时候,采集结果文件会越来越大,后面采集到的文件含有前面采集到的内容,所以,导出的时候会有大量的重复数据。

通常只需导入最后一个文件就行,你在excel中排一下序,看看日期有没有2017-02-13日的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-10-24 09:13