集搜客GooSeeker网络爬虫

标题: 数据爬取时间太长了 [打印本页]

作者: 464049578    时间: 2018-12-3 15:42
标题: 数据爬取时间太长了

重庆市数据第一层  首页
重庆市数据第二层  列表页
重庆市数据第三层  详情页


上面是主题名和 规则


http://www.cq.gov.cn/publicity
我爬该网站的数据   我初步估算了下  按照目前的速度   需要19天才能把我需要的部分数据 爬完~   感觉有点不可思议
是不是我用法不对呢? 请麻烦帮解答下?


作者: Fuller    时间: 2018-12-3 15:46
勾上定时器触发可能就好了,有些网页上有一直运行的脚本程序,影响抓取速度,勾上定时器触发会跳过这些程序。DS打数机菜单 配置-》定时器触发
作者: 464049578    时间: 2018-12-4 11:40
Fuller 发表于 2018-12-3 15:46
勾上定时器触发可能就好了,有些网页上有一直运行的脚本程序,影响抓取速度,勾上定时器触发会跳过这些程序 ...

我试了,感觉没有好大的变化,我爬取四万条数据,估计还是要几天时间呢?

还能爬取更快的解决办法吗?

有人回复我说  他爬一个类似集搜客社区的网站 只要几分钟。请问怎么解决呢

作者: Fuller    时间: 2018-12-4 12:50
464049578 发表于 2018-12-4 11:40
我试了,感觉没有好大的变化,我爬取四万条数据,估计还是要几天时间呢?

还能爬取更快的解决办法吗?

有没有用爬虫群模式?爬虫群模式可以多个窗口同时运行。具体参看高级教程中的爬虫群设置:https://www.gooseeker.com/doc/article-197-1.html

如果是爬虫群模式,要在会员中心设置调度参数,这个网站有时候比较慢,你设置一下“定时器触发”,勾上这个选项,可以加快速度

如果是单搜或者集搜这样的手工调度模式,要在DS打数机菜单中设置,菜单是 配置-》定时器触发

还是用爬虫群模式吧,可以同时开4个左右的窗口,都爬这个网站。

另外,我看到你的规则,第三级,高级设置勾上了特殊字体,这个会变慢,特殊字体是指猫眼网站上的加了密的文字。
还有,如果要抓取纯文本,就勾上纯文本,可以把js脚本程序也过滤掉。

作者: 464049578    时间: 2018-12-4 13:11
Fuller 发表于 2018-12-4 12:50
有没有用爬虫群模式?爬虫群模式可以多个窗口同时运行。具体参看高级教程中的爬虫群设置:https://www.go ...

好的 我试试哈 非常感谢~





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2