如果网页上有iframe框架,是否也能把框架网页内容也采集下来?形成一整套的html



举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-1-19 18:06

沙发
Fuller 管理员 发表于 2021-1-19 18:00:43 | 只看该作者
是的,这是存网页快照用的,就是把主网页和内部的所有iframe网页,一层层整体都存下来。放在这个文件夹中:DataScraperWorks/PrecrawlerWorks 。他们所在的位置参看:《网络爬虫生成的xml格式结果文件》。

在这个文件夹中,不同采集任务有不同的文件夹。

另外,要注意,虽然你是用老版网络爬虫做的规则,老版网络爬虫是无法生成网页快照的,需要新版的数据管家生成网页快照。

数据管家必须设置一下,才能开启存网页快照的功能:



注意这个功能的使用场景
1,这个功能不是单纯为了存html和iframe内容,而是新版和老版配合在一起形成一个性能更高的网络爬虫组合。数据管家只负责存html,老版爬虫软件负责从html快照中提取内容,一种分布式采集配置
2,有些网页用老版爬虫软件打不开,所以,需要新版软件做一个前置处理

不是这些场景,就不要使用这个功能
举报 使用道具
板凳
发誓学好内容分析 金牌会员 发表于 2021-1-19 18:01:26 | 只看该作者
Fuller 发表于 2021-1-19 18:00
是的,这是存网页快照用的,就是把主网页和内部的所有iframe网页,一层层整体都存下来。放在这个文件夹中: ...

但是,我确实需要生成网页快照啊,这怎么做?
举报 使用道具
地板
Fuller 管理员 发表于 2021-1-19 18:06:58 | 只看该作者
发誓学好内容分析 发表于 2021-1-19 18:01
但是,我确实需要生成网页快照啊,这怎么做?

新版的数据管家叫做增强版网络爬虫,肯定有更多功能,这些都有,看第五个工作台,可以生成的结果更多,而且不用在“设置”那里勾选网页快照,也不用老版本配合:
1,截图:目前只能截可见的部分
2,存PDF:存完整的网页,如果网页很高,会分成多页
3,网页快照:就是你需要的功能,生成html快照文件
4,抓包:这个功能很强大,适合直接存http消息中的JSON,具体参看《网络爬虫抓包功能




举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 14:33