集搜客GooSeeker网络爬虫

标题: 如何定时采集网页上更新的数据 [打印本页]

作者: For数据    时间: 2015-12-21 21:46
标题: 如何定时采集网页上更新的数据
想要每个几分钟就采集某个网页上的数据,是不是需要重复做规则?
作者: For数据    时间: 2015-12-21 21:48
不需要重复做规则,只需要设置定时采集就可以了,在会员中心——爬虫管理——规则管理中,就可以设置定时采集。
作者: Fuller    时间: 2015-12-21 22:08
截止到回帖时间,会员中心版本号是V4.1,GooSeeker爬虫的版本号是V5.5.2,这个版本的会员中心并不能准确设定调度时间。我们假设有这样的场景:

有10000个网址要采集,而且每天8:30开始采集。

可以采取这样的方案:
1)在会员中心的爬虫管理-〉规则管理 处设置调度参数,比如,一批采集多少个网址,是否入库等。规则管理网址是:http://www.gooseeker.com/secure/ ... Num=1&home=true
2)在DS打数机的“爬虫群”菜单上设置爬虫群,并且启动一个或者多个爬虫窗口
3)手工编辑 crontab.xml文件,增加renewClue线程,保持其他线程不变。这个renewClue线程只负责激活这10000条线索。这个线程的period设置成跨度一天。crontab.xml的用法参看:http://www.gooseeker.com/doc/article-112-1.html
4)所有线程设置成自动启动。请使用DS打数机的菜单进行设置:爬虫群-〉配置
5)那么现在就有了一个混合的crontab.xml,除了renewClue线程以外,其他都是爬虫群自动调度。在早晨8:30启动DS打数机,所有的线程就能自动启动起来

这个方案的最大特点是:爬虫群自动调度和DS打数机的本地调度可以配合使用
作者: 亭子    时间: 2016-12-13 09:50
请问有没有更详细的步骤呢,看的不太懂
作者: HJLing    时间: 2016-12-13 10:10
亭子 发表于 2016-12-13 09:50
请问有没有更详细的步骤呢,看的不太懂

如果你每天需要更新采一次的话 直接用爬虫群的调度就好了
[attach]3595[/attach]


作者: 亭子    时间: 2016-12-13 10:52
这样每天采集,采集的是不是也包括过去的信息啊,怎么设置可以只是采集当天主页更新的信息呢
作者: 亭子    时间: 2016-12-13 10:54
HJLing 发表于 2016-12-13 10:10
如果你每天需要更新采一次的话 直接用爬虫群的调度就好了

如果是采集当天更新的数据呢

作者: HJLing    时间: 2016-12-13 11:56
亭子 发表于 2016-12-13 10:54
如果是采集当天更新的数据呢

你直接发网址看看吧


作者: 亭子    时间: 2016-12-13 14:49
HJLing 发表于 2016-12-13 11:56
你直接发网址看看吧

任意微博主页当天更新的数据

作者: HJLing    时间: 2016-12-13 15:00
亭子 发表于 2016-12-13 14:49
任意微博主页当天更新的数据

不行 因为当天更新的数据跟以前的可能存在同一个页面
针对这种情况 我们都是让它每天自动激活 然后采几页数据 再后续处理


作者: 亭子    时间: 2016-12-13 15:15
HJLing 发表于 2016-12-13 15:00
不行 因为当天更新的数据跟以前的可能存在同一个页面
针对这种情况 我们都是让它每天自动激活 然后采几页 ...

也只有这样了,请问设置成定时采集的数据,它存储会覆盖之前采集的数据吗

作者: HJLing    时间: 2016-12-13 15:29
亭子 发表于 2016-12-13 15:15
也只有这样了,请问设置成定时采集的数据,它存储会覆盖之前采集的数据吗
...

不会覆盖 所以会有一些重复数据


作者: 亭子    时间: 2016-12-13 16:18
HJLing 发表于 2016-12-13 15:29
不会覆盖 所以会有一些重复数据

另一个新的文件夹?自动重命名吗还是什么样啊


作者: HJLing    时间: 2016-12-13 16:27
亭子 发表于 2016-12-13 16:18
另一个新的文件夹?自动重命名吗还是什么样啊

不是新的文件夹 一个主题名只会生成一个文件夹


作者: wangyong    时间: 2021-2-24 09:41
使用集搜客数据管家对目标网站做完采集任务后,进入任务管理,将任务设置调度状态[attach]13787[/attach]

在调度页面的底部可以设置定时采集数据
[attach]13788[/attach]







欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2