前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >中文起点,Python 字体反爬实战案例,再一篇~

中文起点,Python 字体反爬实战案例,再一篇~

作者头像
梦想橡皮擦
发布2022-05-26 15:33:55
4060
发布2022-05-26 15:33:55
举报

📢📢📢📢📢📢 💗 你正在阅读 【梦想橡皮擦】 的博客 👍 阅读完毕,可以点点小手赞一下 🌻 发现错误,直接评论区中指正吧 📆 橡皮擦的第 665 篇原创博客

⛳️ 起点 实战场景

本次采集的案例是点起中文,你可以随机打开一本目标书籍,检查一下网络请求中是否存在字体文件响应数据。

代码语言:javascript
复制
https://book.qidian.com/info/2952453/#Catalog

字体加密位置呈现的效果如下图所示。

在这里插入图片描述
在这里插入图片描述

编写网页爬取代码,查看其字体位置使用的编码。

代码语言:javascript
复制
import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36",
    "Origin": 'https://book.qidian.com',
    "referer": "https://book.qidian.com"
}

response = requests.get(url='https://book.qidian.com/info/2952453/',headers=headers)
response.encoding = 'utf-8'

print(response.text[:20000])

截取源码部分,查看编码内容。

在这里插入图片描述
在这里插入图片描述

同时下载本页面的字体文件,用工具打开之后,发现字体编码图形顺序没有什么变化,这对于后续我们解决反爬就变得非常简单了。

在这里插入图片描述
在这里插入图片描述

接下来读取和解构一下这个字体文件,在其中找到能用的数据。

代码语言:javascript
复制
from fontTools.ttLib import TTFont

import io

file_woff = './fonts/YOfzYtjr.woff'
with open(file_woff, 'rb') as font_file:
    font = TTFont(io.BytesIO(font_file.read()))  # 转换成字体对象
#字体映射关系
font_cmap = font['cmap'].getBestCmap()
print(font_cmap)

输出的信息为:

代码语言:javascript
复制
{100418: 'two', 100420: 'seven', 100421: 'five', 100422: 'nine', 100423: 'six', 100424: 'three', 100425: 'four', 100426: 'zero', 100427: 'one', 100428: 'period', 100429: 'eight'}

接下来在回头去看一下刚才字体反爬位置的特殊字符与字体编码。 网页特殊字符

代码语言:javascript
复制
𘞱𘞯𘞴𘞲𘞱𘞭

字体编码

代码语言:javascript
复制
{100269: 'nine', 100271: 'five', 100272: 'three', 100273: 'six', 100274: 'period', 100275: 'one', 100276: 'eight', 100277: 'two', 100278: 'four', 100279: 'seven', 100280: 'zero'}

得到最终的结果。

&#100273 -> 6

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ⛳️ 起点 实战场景
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档