Fuller 发表于 2016-9-11 08:50
在会员中心,找到这个主题,设置调度参数,里面有两个参数,等待最短时间和最长时间,两个都要设置,而且最 ...
ray_zhurui 发表于 2016-10-5 23:23
这个能不能搞得智能一点?有时候只是一两页刷新比较慢,数据出来得比较晚。不可能为了一两页而让所有网页 ...
Fuller 发表于 2016-10-5 23:39
发个网址出来我测试一下。最近为了提高抓取速度,修改了一些程序,等待功能本来是有的,现在修改以后,可 ...
ray_zhurui 发表于 2016-10-6 10:57
你看看我刚测试的规则:“lhbyytlog抓取”这个规则还有个前置的连续动作的规则"lhbyytlog",还要再加3级级 ...
Fuller 发表于 2016-10-6 11:25
我加载测试了,确实观察到第二级采集过于快了,我正在想办法解决
ray_zhurui 发表于 2016-10-6 12:53
判断是否刷新完毕要做得智能一些貌似有点难度,除非指定一个参照参数,比如判断数据前的序列是否更新?其 ...
Fuller 发表于 2016-10-6 16:53
我测试了,当前版本是能解决这个问题的。在会员中心的调度参数里面,有一项“延迟抓取时间”,目前这个时 ...
ray_zhurui 发表于 2016-10-7 04:04
如果是固定时常的话总是有局限性。
PS:我把三级规则都写好了 不过第一级规则连续动作没有在二级规则抓取 ...
Fuller 发表于 2016-10-7 10:40
如果不想硬等待,那么就要针对那个“加载中”图片做文章
ray_zhurui 发表于 2016-10-7 14:57
具体需要修改爬虫代码才能实现么?还是现在我在MS能抓取这个loading就ok?
Fuller 发表于 2016-10-7 15:05
在MS中找到这个loading图,研究它的特点,写xpath就行了
ray_zhurui 发表于 2016-10-8 09:07
用xpath定位到这个loading图表后又能怎么样呢?
“想办法用这个图片做为关键内容,这样就可以不用硬等待了 ...
Fuller 发表于 2016-10-8 09:30
不出现loading的时候就是加载完成了。
有loading的时候,应该是css里面的display控制的,可以判断这个值 ...
ray_zhurui 发表于 2016-10-8 11:38
具体有教程讲过么?
另外我已经在连续动作的目标主题名设置为2级规则的主题名了 不知道为什么2级规则集搜 ...
Fuller 发表于 2016-10-8 15:50
1级规则 -》2级规则,是这样的顺序关系,我不明白“2级规则集搜的时候1级规则的连续动作没生效”,2级不 ...
ray_zhurui 发表于 2016-10-8 16:07
1级连续动作不是选了近1年嘛,但是2级动作还是在默认的页面3个月里采集内容 ...
ray_zhurui 发表于 2016-10-8 16:07
1级连续动作不是选了近1年嘛,但是2级动作还是在默认的页面3个月里采集内容 ...
Fuller 发表于 2016-10-8 17:12
主题名 lhbyytlog ,能点击 “一年”,你遇到新问题了?
点击以后要等很久才能出现数据,要用会员中心 ...
Fuller 发表于 2016-10-8 17:12
主题名 lhbyytlog ,能点击 “一年”,你遇到新问题了?
点击以后要等很久才能出现数据,要用会员中心 ...
ray_zhurui 发表于 2016-10-8 23:14
2级规则还是抓太快了 loading图表还在就重复抓了3遍数据了 导致直接停止。你之前说通过判断loading图片来 ...
Fuller 发表于 2016-10-9 09:18
首先网速要比较快
然后设置会员中心的调度参数“延迟抓取时间”,设置长一点,确保等到数据才抓取 ...
欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) | Powered by Discuz! X3.2 |