采集店铺信息的价格和地址的时候只采取到信息的一部分,其余部分是缺失值或者是乱码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报
| 回复

共 3 个关于本帖的回复 最后回复于 2019-5-20 16:39

沙发
Fuller 管理员 发表于 2019-5-20 15:46:35 | 只看该作者
根据这个截图看,大众点评使用了自定义字体,集搜客网络爬虫可以把自定义字体文件和编码下载下来,不过翻译程序没有包含在爬虫功能中,要自己翻译。
举报
板凳
bc19981104 新手上路 发表于 2019-5-20 16:04:29 | 只看该作者
Fuller 发表于 2019-5-20 15:46
根据这个截图看,大众点评使用了自定义字体,集搜客网络爬虫可以把自定义字体文件和编码下载下来,不过翻译 ...

意思是可以先把信息爬取下来,然后再解码吗
举报
地板
Fuller 管理员 发表于 2019-5-20 16:39:47 | 只看该作者
bc19981104 发表于 2019-5-20 16:04
意思是可以先把信息爬取下来,然后再解码吗

这种自定义字体用的字体库与我们看到的常用的字体库不一样,比如,我们用宋体、楷体等等,假设编码 123 对应 “宋”字,那么不论在哪台电脑的哪个浏览器上都会显示成“宋”字。但是自定义字体,“宋”字用的编码可能就不是123了,也可能天天变,所以,网页上当时用的字体库是什么,对应了什么编码,这个要当时就记录下来,然后找个程序把这个对应关系转换成标准的宋体或者楷体。

集搜客网络爬虫就像下载图片一样下载字体库文件,同时把网页上显示的编码也记录下来。采集结果文件中能看到那个字不是乱码,而是一串字母数字。这个字母数字就是用来对应字体库的。

这个翻译过程需要自己写程序实现,目前集搜客没有开放出来这个翻译过程
举报
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么用微软的excel无法打开xls文件?powe
  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 0%

热门用户

GMT+8, 2025-7-6 04:06