爬完后,是否能获取网页快照数据。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-11-30 23:07

沙发
Fuller 管理员 发表于 2016-10-17 18:08:41 | 只看该作者
你指的快照是什么?

你想用网页的完整的html文档吗?这个功能需要专门出一个定制版本,通常我们不存html源码
举报 使用道具
板凳
shenzhenwan10 金牌会员 发表于 2016-10-17 18:15:05 | 只看该作者
如果是想保存html,可以在规则里加个字段,把整个html都映射给这个字段
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-17 18:18:46 | 只看该作者
shenzhenwan10 发表于 2016-10-17 18:15
如果是想保存html,可以在规则里加个字段,把整个html都映射给这个字段

这是个好办法,我竟然没有想到。

用这种方法比存html源码好,因为这种方法还能把动态生成的html内容都存下来,不只是初始的html文档
举报 使用道具
5#
有正事的小青年 初级会员 发表于 2016-11-30 11:39:55 | 只看该作者
shenzhenwan10 发表于 2016-10-17 18:15
如果是想保存html,可以在规则里加个字段,把整个html都映射给这个字段

您的意思是第一幅图那样吗,如果是这样的话,我在MS谋数台里测试了,有很长一段码,和用第二张图的方法弄下来的效果一样吗?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
Fuller 管理员 发表于 2016-11-30 23:07:09 | 只看该作者
有正事的小青年 发表于 2016-11-30 11:39
您的意思是第一幅图那样吗,如果是这样的话,我在MS谋数台里测试了,有很长一段码,和用第二张图的方法弄 ...

效果会有些区别,内容映射后抓取下来的内容是从浏览器中转存出来的,那是解析过的网页再次转换出来,所以,跟原网页会不太一样

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-3 20:34