单击版的网页可以爬取嘛?就是已经保存到本地的html文件
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-9-11 08:52

沙发
ym 版主 发表于 2016-10-20 15:39:59 | 只看该作者
MS谋数台访问到的网页就可以采集
举报 使用道具
板凳
氧分子网 初级会员 发表于 2016-10-20 15:41:30 | 只看该作者
ym 发表于 2016-10-20 15:39
MS谋数台访问到的网页就可以采集

好的,我先试试
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-20 17:36:07 | 只看该作者

本地文件的url是以 file:// 开头的,采集方法跟http:// 的一样
举报 使用道具
5#
houyulin1993 初级会员 发表于 2018-9-10 21:24:12 | 只看该作者
Fuller 发表于 2016-10-20 17:36
本地文件的url是以 file:// 开头的,采集方法跟http:// 的一样

出现乱码这个如何解决哈,本地html文件从普通浏览器打开没有乱码问题,在集搜客里面打开出现乱码,如何解决?
举报 使用道具
6#
Fuller 管理员 发表于 2018-9-11 08:52:18 | 只看该作者
houyulin1993 发表于 2018-9-10 21:24
出现乱码这个如何解决哈,本地html文件从普通浏览器打开没有乱码问题,在集搜客里面打开出现乱码,如何解 ...

发一个样本页面过来看看。

本地html是怎样产生的?文档最前面有没有声明字体?集搜客浏览器只根据头部的声明来决定用什么字体,而不会自动去识别
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 16:11