大众点评采集店铺信息不全

bc19981104

采集店铺信息的价格和地址的时候只采取到信息的一部分，其余部分是缺失值或者是乱码

Fuller · 发表于 2019-5-20 15:46:35

根据这个截图看，大众点评使用了自定义字体，集搜客网络爬虫可以把自定义字体文件和编码下载下来，不过翻译程序没有包含在爬虫功能中，要自己翻译。

bc19981104 · 发表于 2019-5-20 16:04:29

Fuller 发表于 2019-5-20 15:46
根据这个截图看，大众点评使用了自定义字体，集搜客网络爬虫可以把自定义字体文件和编码下载下来，不过翻译 ...

意思是可以先把信息爬取下来，然后再解码吗

Fuller · 发表于 2019-5-20 16:39:47

bc19981104 发表于 2019-5-20 16:04
意思是可以先把信息爬取下来，然后再解码吗

这种自定义字体用的字体库与我们看到的常用的字体库不一样，比如，我们用宋体、楷体等等，假设编码 123 对应 “宋”字，那么不论在哪台电脑的哪个浏览器上都会显示成“宋”字。但是自定义字体，“宋”字用的编码可能就不是123了，也可能天天变，所以，网页上当时用的字体库是什么，对应了什么编码，这个要当时就记录下来，然后找个程序把这个对应关系转换成标准的宋体或者楷体。

集搜客网络爬虫就像下载图片一样下载字体库文件，同时把网页上显示的编码也记录下来。采集结果文件中能看到那个字不是乱码，而是一串字母数字。这个字母数字就是用来对应字体库的。

这个翻译过程需要自己写程序实现，目前集搜客没有开放出来这个翻译过程

大众点评采集店铺信息不全

本帖子中包含更多资源

共 3 个关于本帖的回复最后回复于 2019-5-20 16:39

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

大众点评采集店铺信息不全

本帖子中包含更多资源

共 3 个关于本帖的回复 最后回复于 2019-5-20 16:39

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2019-5-20 16:39