|
这种自定义字体用的字体库与我们看到的常用的字体库不一样,比如,我们用宋体、楷体等等,假设编码 123 对应 “宋”字,那么不论在哪台电脑的哪个浏览器上都会显示成“宋”字。但是自定义字体,“宋”字用的编码可能就不是123了,也可能天天变,所以,网页上当时用的字体库是什么,对应了什么编码,这个要当时就记录下来,然后找个程序把这个对应关系转换成标准的宋体或者楷体。
集搜客网络爬虫就像下载图片一样下载字体库文件,同时把网页上显示的编码也记录下来。采集结果文件中能看到那个字不是乱码,而是一串字母数字。这个字母数字就是用来对应字体库的。
这个翻译过程需要自己写程序实现,目前集搜客没有开放出来这个翻译过程
|
|
共 3 个关于本帖的回复 最后回复于 2019-5-20 16:39