是一个很长的网站,需要滚动很多次才能加载完毕
我只能采集到2017.8.10的数据,但数据应该是到2.13的,麻烦帮我看看应该怎么调整

规则名xxt

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2020-2-13 11:47

沙发
Fuller 管理员 发表于 2020-2-12 18:41:37 | 只看该作者
滚屏动作那里,每次滚屏数设置成1,滚得太快加载不出来数据
举报 使用道具
板凳
Fuller 管理员 发表于 2020-2-12 18:42:45 | 只看该作者
因为有连续滚屏,所以,不要打开DS打数级的自动滚屏,用菜单进行关闭:配置-》自动滚屏,把滚屏次数设置成0
举报 使用道具
地板
Fuller 管理员 发表于 2020-2-12 18:44:58 | 只看该作者
因为是瀑布流的,网页会越来越长,不知道能容纳多少,到2017年以后,如果网页太长了就会因为内存不够造成程序崩溃
举报 使用道具
5#
heronw 新手上路 发表于 2020-2-12 22:03:41 | 只看该作者
Fuller 发表于 2020-2-12 18:44
因为是瀑布流的,网页会越来越长,不知道能容纳多少,到2017年以后,如果网页太长了就会因为内存不够造成程 ...

打扰了!你能再帮我看一下吗 按照这样设置之后抓取到的更少了...

举报 使用道具
6#
Fuller 管理员 发表于 2020-2-12 22:36:46 | 只看该作者
heronw 发表于 2020-2-12 22:03
打扰了!你能再帮我看一下吗 按照这样设置之后抓取到的更少了...

我现在试试每次滚3屏,能采集到哪一年
举报 使用道具
7#
Fuller 管理员 发表于 2020-2-12 22:39:24 | 只看该作者
我能采集到2017年2月13日,往下就没有了
举报 使用道具
8#
heronw 新手上路 发表于 2020-2-13 10:56:17 | 只看该作者
Fuller 发表于 2020-2-12 22:39
我能采集到2017年2月13日,往下就没有了

我的打数机所翻的网站可以到2.13,但是导出数据之后只能到12月,这个是怎么回事呢

举报 使用道具
9#
Fuller 管理员 发表于 2020-2-13 11:47:10 | 只看该作者
heronw 发表于 2020-2-13 10:56
我的打数机所翻的网站可以到2.13,但是导出数据之后只能到12月,这个是怎么回事呢

...

采集瀑布流网页的时候,采集结果文件会越来越大,后面采集到的文件含有前面采集到的内容,所以,导出的时候会有大量的重复数据。

通常只需导入最后一个文件就行,你在excel中排一下序,看看日期有没有2017-02-13日的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 00:43