上一篇解决了但页面的字体反爬, 这篇记录下如何解决动态字体文件, 编码不同, 文字顺序不同的情况
源码在最后
02冷静分析下页面
打开一个页面, 发现字体文件地址是动态的, 这个倒是好说, 写个正则,...不着急, 还是要冷静下来, 再想想哪里还有突破点
同一个页面的字体文件地址是动态的, 但是, 里面的字体编码和顺序是不会变的呀
可以使用某一个页面的字体文件做一个标准的字体映射表呀!...好像发现了新世界的大门, 可门还没开开, 就被自己堵死了, 就想 做出来映射表然后呢!(又要奔腾了)
突然就想到了, 虽然那么多不一样, 但是, 但是, 相同文字的坐标点相同呀!...重组新标准映射表
接下来, 就用坐标点来解决, 以下为思路
使用两点坐标差来判断, 但是这个偏差值拿不准
相同文字, 坐标点几乎一致, 即所有坐标点相差的绝对值的和最小的就为同一个字
来先试试
def..., 和新坐标
(这是想, 找出最相近的坐标, 使用新坐标提取出标准编码, 然后用标准编码提取对应的文字, 在替换成使用本页用的编码映射表)
# 准备替换的编码坐标映射表
{"norm_key": local_unicode