勾上网页快照选项，能把整个html存下来吗？

发誓学好内容分析

如果网页上有iframe框架，是否也能把框架网页内容也采集下来？形成一整套的html

Fuller · 发表于 2021-1-19 18:00:43

是的，这是存网页快照用的，就是把主网页和内部的所有iframe网页，一层层整体都存下来。放在这个文件夹中：DataScraperWorks/PrecrawlerWorks 。他们所在的位置参看：《网络爬虫生成的xml格式结果文件》。

在这个文件夹中，不同采集任务有不同的文件夹。

另外，要注意，虽然你是用老版网络爬虫做的规则，老版网络爬虫是无法生成网页快照的，需要新版的数据管家生成网页快照。

数据管家必须设置一下，才能开启存网页快照的功能：

注意这个功能的使用场景：
1，这个功能不是单纯为了存html和iframe内容，而是新版和老版配合在一起形成一个性能更高的网络爬虫组合。数据管家只负责存html，老版爬虫软件负责从html快照中提取内容，一种分布式采集配置
2，有些网页用老版爬虫软件打不开，所以，需要新版软件做一个前置处理

不是这些场景，就不要使用这个功能

发誓学好内容分析 · 发表于 2021-1-19 18:01:26

Fuller 发表于 2021-1-19 18:00
是的，这是存网页快照用的，就是把主网页和内部的所有iframe网页，一层层整体都存下来。放在这个文件夹中： ...

但是，我确实需要生成网页快照啊，这怎么做？

Fuller · 发表于 2021-1-19 18:06:58

发誓学好内容分析发表于 2021-1-19 18:01
但是，我确实需要生成网页快照啊，这怎么做？

新版的数据管家叫做增强版网络爬虫，肯定有更多功能，这些都有，看第五个工作台，可以生成的结果更多，而且不用在“设置”那里勾选网页快照，也不用老版本配合：
1，截图：目前只能截可见的部分
2，存PDF：存完整的网页，如果网页很高，会分成多页
3，网页快照：就是你需要的功能，生成html快照文件
4，抓包：这个功能很强大，适合直接存http消息中的JSON，具体参看《网络爬虫抓包功能》

勾上网页快照选项，能把整个html存下来吗？

本帖子中包含更多资源

共 3 个关于本帖的回复最后回复于 2021-1-19 18:06

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

勾上网页快照选项，能把整个html存下来吗？

本帖子中包含更多资源

共 3 个关于本帖的回复 最后回复于 2021-1-19 18:06

本帖子中包含更多资源

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2021-1-19 18:06