采集店铺信息的价格和地址的时候只采取到信息的一部分,其余部分是缺失值或者是乱码
QQ图片20190520153035.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-5-20 16:39

Fuller 管理员 发表于 2019-5-20 15:46:35 | 显示全部楼层
根据这个截图看,大众点评使用了自定义字体,集搜客网络爬虫可以把自定义字体文件和编码下载下来,不过翻译程序没有包含在爬虫功能中,要自己翻译。
举报 使用道具
bc19981104 新手上路 发表于 2019-5-20 16:04:29 | 显示全部楼层
Fuller 发表于 2019-5-20 15:46
根据这个截图看,大众点评使用了自定义字体,集搜客网络爬虫可以把自定义字体文件和编码下载下来,不过翻译 ...

意思是可以先把信息爬取下来,然后再解码吗
举报 使用道具
Fuller 管理员 发表于 2019-5-20 16:39:47 | 显示全部楼层
bc19981104 发表于 2019-5-20 16:04
意思是可以先把信息爬取下来,然后再解码吗

这种自定义字体用的字体库与我们看到的常用的字体库不一样,比如,我们用宋体、楷体等等,假设编码 123 对应 “宋”字,那么不论在哪台电脑的哪个浏览器上都会显示成“宋”字。但是自定义字体,“宋”字用的编码可能就不是123了,也可能天天变,所以,网页上当时用的字体库是什么,对应了什么编码,这个要当时就记录下来,然后找个程序把这个对应关系转换成标准的宋体或者楷体。

集搜客网络爬虫就像下载图片一样下载字体库文件,同时把网页上显示的编码也记录下来。采集结果文件中能看到那个字不是乱码,而是一串字母数字。这个字母数字就是用来对应字体库的。

这个翻译过程需要自己写程序实现,目前集搜客没有开放出来这个翻译过程
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 01:43