前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一个unicode问题

一个unicode问题

作者头像
LA0WAN9
发布2022-02-28 10:26:15
4510
发布2022-02-28 10:26:15
举报
文章被收录于专栏:火丁笔记

最近我在处理从 pdf 转换到 docx 的时候,总会出现丢字问题,让我一度以为是字体的原因,结果方正思源文泉驿换了个遍也没搞定,最终发现是一个 unicode 问题。

我用 javascript 构造了一个测试用例,你可以在 chrome 控制台里运行它:

代码语言:javascript
复制
console.log("网飞" == "⽹⻜") // false

明明两个字符串都是「网飞」,但是却不一样!通常此类问题多半是内容中混入了某些不可见字符导致的问题,不过本例却是个例外。如果你把上面代码复制到一个 Word 文档里,那么会发现后面的内容不见了,也就是丢字了!问题分析到这里,我心想该不会同一个汉字有不同的 unicode 编码吧,于是我在 charbase 里检索了一下:

下面是正常的字,其在 unicode 中属于 CJK Unified Ideographs 部分:

正常的网字

下面是异常的字,其在 unicode 中属于 Kangxi Radicals 部分:

异常的网字

下面是正常的字,其在 unicode 中属于 CJK Unified Ideographs 部分:

正常的飞字

下面是异常的字,其在 unicode 中属于 CJK Radicals Supplement 部分:

异常的飞字

综上所述,我们平常使用的「正常」的汉字属于「CJK Unified Ideographs」,而那些「异常」的汉字属于「Kangxi Radicals」和「CJK Radicals Supplement」,实际上它们是汉字中的「部首」,通常它们不会出现在内容中才对,可是为什么在我的 pdf 文档里会频繁出现呢?因为我的 pdf 文档都是通过 typora 生成的,所以我猜测可能是 typora 出于某种目的有意为之,当然也可能是我以小人之心度君子之腹了。

最后讲一个笑话吧:话说有一个人,他为了玩游戏需要注册一个账号,本来他想叫「雪山飞狐」,但是被人用了,叫「雪山飞狼」也重复,结果他不停的改啊改,最后不得已叫了「雪山飞猪」。如果他看过本文的话, 那么他应该有办法注册自己心仪的账号了。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
访问管理
访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档