爬虫路线可不可以设置翻页后等待一段时间再抓取数据?像连续动作里点击以后高级里可以设置延时一样。我发现翻页以后如果页面没刷新出来爬虫找不到关键内容就停止了。
举报 使用道具
| 回复

共 23 个关于本帖的回复 最后回复于 2016-10-9 14:50

沙发
Fuller 管理员 发表于 2016-9-11 08:50:18 | 只看该作者
在会员中心,找到这个主题,设置调度参数,里面有两个参数,等待最短时间和最长时间,两个都要设置,而且最短时间应该小于最长时间,那么会在这两个时间之间找一个随机值进行等待
举报 使用道具
板凳
ray_zhurui 中级会员 发表于 2016-10-5 23:23:50 | 只看该作者
Fuller 发表于 2016-9-11 08:50
在会员中心,找到这个主题,设置调度参数,里面有两个参数,等待最短时间和最长时间,两个都要设置,而且最 ...

这个能不能搞得智能一点?有时候只是一两页刷新比较慢,数据出来得比较晚。不可能为了一两页而让所有网页抓取的时候都等一样的时间或者随机一个时间吧?
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-5 23:39:39 | 只看该作者
ray_zhurui 发表于 2016-10-5 23:23
这个能不能搞得智能一点?有时候只是一两页刷新比较慢,数据出来得比较晚。不可能为了一两页而让所有网页 ...

发个网址出来我测试一下。最近为了提高抓取速度,修改了一些程序,等待功能本来是有的,现在修改以后,可能会过于快了。你发个网址,我测试一下。

想放慢速度的话,可以设置滚屏参数,把滚屏次数设置大一些
举报 使用道具
5#
ray_zhurui 中级会员 发表于 2016-10-6 10:57:57 | 只看该作者
Fuller 发表于 2016-10-5 23:39
发个网址出来我测试一下。最近为了提高抓取速度,修改了一些程序,等待功能本来是有的,现在修改以后,可 ...

你看看我刚测试的规则:“lhbyytlog抓取”这个规则还有个前置的连续动作的规则"lhbyytlog",还要再加3级级规则采集2级规则采集的下级网址内的内容的。3级规则还没写,2级规则卡在一些加载比较慢的页面上了
举报 使用道具
6#
Fuller 管理员 发表于 2016-10-6 11:25:16 | 只看该作者
ray_zhurui 发表于 2016-10-6 10:57
你看看我刚测试的规则:“lhbyytlog抓取”这个规则还有个前置的连续动作的规则"lhbyytlog",还要再加3级级 ...

我加载测试了,确实观察到第二级采集过于快了,我正在想办法解决
举报 使用道具
7#
ray_zhurui 中级会员 发表于 2016-10-6 12:53:16 | 只看该作者
本帖最后由 ray_zhurui 于 2016-10-6 12:57 编辑
Fuller 发表于 2016-10-6 11:25
我加载测试了,确实观察到第二级采集过于快了,我正在想办法解决

判断是否刷新完毕要做得智能一些貌似有点难度,除非指定一个参照参数,比如判断数据前的序列是否更新?其实本来就应该设置一个参照参数来让爬虫能判断数据完整性,不然漏抓了用户又不知道哪里漏了,想手工补全都不知道哪里缺失。
举报 使用道具
8#
Fuller 管理员 发表于 2016-10-6 16:53:20 | 只看该作者
ray_zhurui 发表于 2016-10-6 12:53
判断是否刷新完毕要做得智能一些貌似有点难度,除非指定一个参照参数,比如判断数据前的序列是否更新?其 ...

我测试了,当前版本是能解决这个问题的。在会员中心的调度参数里面,有一项“延迟抓取时间”,目前这个时间计算有错误,假设需要延迟10秒,那就填20秒。这个错误在8.0.2版本进行改正。现在把配置的数字乘2也可以用。

给第一个主题配置调度参数,然后用爬虫群模式采集这个网站,是可以的。

填写了这个参数以后,采集速度会变慢,采集的时候会增加延迟。
举报 使用道具
9#
ray_zhurui 中级会员 发表于 2016-10-7 04:04:48 | 只看该作者
本帖最后由 ray_zhurui 于 2016-10-7 05:10 编辑
Fuller 发表于 2016-10-6 16:53
我测试了,当前版本是能解决这个问题的。在会员中心的调度参数里面,有一项“延迟抓取时间”,目前这个时 ...

如果是固定时常的话总是有局限性。
PS:我把三级规则都写好了 不过第一级规则连续动作没有在二级规则抓取数据前生效;三级规则的翻页好像也没生效,只抓了二级传过来的网页的第一页的数据。不知道什么原因。

lhbyytlog,lhbyytlog抓取,lhbyytlog抓取2   请帮忙看看什么原因

举报 使用道具
10#
Fuller 管理员 发表于 2016-10-7 10:35:48 | 只看该作者
ray_zhurui 发表于 2016-10-7 04:04
如果是固定时常的话总是有局限性。
PS:我把三级规则都写好了 不过第一级规则连续动作没有在二级规则抓取 ...

第三级没有设置“连贯抓取”
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 11:32