|
截止今天(2020年3月20日),在集搜客官网上可以看到两个浏览器产品:
1,集搜客网络爬虫浏览器:这是一个高性能的网络爬虫软件,内嵌了火狐的内核
2,集搜客采摘浏览器:除了具有网络爬虫功能,还可以辅助手工摘录零散的内容,目前网络爬虫功能还在不断地增加中,相比第一个产品,网络爬虫功能还不够全。内核是最新版Chrome
由于内核不同,集搜客采摘浏览器的适应性更强,如果用爬虫浏览器打不开网页,就尝试用采摘浏览器打开。
因为采摘浏览器的网络爬虫功能还在逐步增加过程中,首先就没有定义规则的能力,那么就需要将采摘浏览器和网络爬虫浏览器配合在一起使用。
采摘浏览器把网页加载出来以后,点击做边栏最上面的定义规则按钮以后,会自动产生一个网页快照,存在了硬盘上,并自动把网络爬虫浏览器运行起来,显示这个网页快照。那么,原来的爬虫浏览器就可以在网页快照上定义规则了。
可见,网络爬虫浏览器是在快照上定义规则,而不是原网页上,所以,加载分析规则的时候要用“加载(仅规则)”,而不能用“加载”,因为“加载”会把原网页加载到浏览器,会显示不全。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 2 个关于本帖的回复 最后回复于 2020-3-20 16:29