|
是的,这是存网页快照用的,就是把主网页和内部的所有iframe网页,一层层整体都存下来。放在这个文件夹中:DataScraperWorks/PrecrawlerWorks 。他们所在的位置参看:《网络爬虫生成的xml格式结果文件》。
在这个文件夹中,不同采集任务有不同的文件夹。
另外,要注意,虽然你是用老版网络爬虫做的规则,老版网络爬虫是无法生成网页快照的,需要新版的数据管家生成网页快照。
数据管家必须设置一下,才能开启存网页快照的功能:
注意这个功能的使用场景:
1,这个功能不是单纯为了存html和iframe内容,而是新版和老版配合在一起形成一个性能更高的网络爬虫组合。数据管家只负责存html,老版爬虫软件负责从html快照中提取内容,一种分布式采集配置
2,有些网页用老版爬虫软件打不开,所以,需要新版软件做一个前置处理
不是这些场景,就不要使用这个功能
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|
共 3 个关于本帖的回复 最后回复于 2021-1-19 18:06