专栏首页老马说编程计算机程序的思维逻辑 (第7节更新) - 再谈乱码恢复

计算机程序的思维逻辑 (第7节更新) - 再谈乱码恢复

在第6节和第7节,我们讨论了文本的二进制编码、乱码、以及恢复,第6节受到了很多读者的一致好评,但第7节有读者反馈解说的不太透彻,希望再详细一点,本文就是对第7节内容的扩展。

乱码

第6节说到乱码出现的主要原因,即在进行编码转换的时候,如果将原来的编码识别错了,并进行了转换,就会发生乱码,而且这时候无论怎么切换查看编码的方式,都是不行的。

我们来看一个这种错误转换后的乱码,还是用上节的例子,二进制是(16进制表示):C3 80 C3 8F C3 82 C3 AD,无论按哪种编码解析看上去都是乱码:

UTF-8

ÀÏÂí

Windows-1252

ÀÏÂí

GB18030

脌脧脗铆

Big5

���穩

虽然有这么多形式,但我们看到的乱码形式很可能是"ÀÏÂí",因为在例子中UTF-8是编码转换的目标编码格式,既然转换为了UTF-8,一般也是要按UTF-8查看。

乱码恢复

"乱"主要是因为发生了一次错误的编码转换,恢复是要恢复两个关键信息,一个是原来的二进制编码方式A,另一个是错误解读的编码方式B。

恢复的基本思路是尝试进行逆向操作,假定按一种编码转换方式B获取乱码的二进制格式,然后再假定一种编码解读方式A解读这个二进制,查看其看上去的形式,这个要尝试多种编码,如果能找到看着正常的字符形式,那应该就可以恢复。

这个听上去可能比较模糊,我们举个例子来说明,假定乱码形式是"ÀÏÂí",尝试多种B和A来看字符形式。我们先使用编辑器,以UltraEdit为例,然后使用Java编程来看。

使用UltraEdit

UltraEdit支持编码转换和切换查看编码方式,也支持文件的二进制显示和编辑,所以我们以UltraEdit为例,其他一些编辑器可能也有类似功能。

新建一个UTF-8编码的文件,拷贝"ÀÏÂí"到文件中。使用编码转换,转换到windows-1252编码,功能在 "文件"->"转换到"->"西欧"->WIN-1252。

转换完后,打开十六进制编辑,查看其二进制形式,如下图所示:

可以看出,其形式还是ÀÏÂí,但二进制格式变成了 C0 CF C2 ED。这个过程,相当于假设B是windows-1252。这个时候,再按照多种编码格式查看这个二进制,在UltraEdit中,关闭十六进制编辑,切换查看编码方式为GB18030,功能在 "视图"->"查看方式(文件编码)"->"东亚语言"->GB18030,切换完后,同样的二进制神奇的变为了正确的字符形式 "老马",打开十六进制编辑器,可以看出,二进制还是C0 CF C2 ED,这个GB18030相当于假设A是GB18030。

这个例子我们碰巧第一次就猜对了。实际中,我们可能要做多次尝试,过程是类似的,先进行编码转换(使用B编码),然后使用不同编码方式查看(使用A编码),如果能找到看上去对的形式,就恢复了。下图列出了主要的B编码格式,对应的二进制,按A编码解读的各种形式。

可以看出,第一行是正确的,也就是说原来的编码其实是A即GB18030,但被错误解读成了B即Windows-1252了。

使用Java

关于使用Java我们还有很多知识没有介绍,但一些读者已经有很好的Java知识,所以本文一并列出相关代码,初学者不明白的我们随后会进一步讲解。

Java中处理字符串的类有String,String中有我们需要的两个重要方法:

  • public byte[] getBytes(String charsetName),这个方法可以获取一个字符串的给定编码格式的二进制形式
  • public String(byte bytes[], String charsetName),这个构造方法以给定的二进制数组bytes按照编码格式charsetName解读为一个字符串。

将A看做GB18030,B看做Windows-1252,进行恢复的Java代码如下所示:

先按照B编码(windows-1252)获取字符串的二进制(相当于UltraEdit编码转换),然后按A编码(GB18030)解读这个二进制(相当于UltraEdit切换编码查看方式),得到一个新的字符串,然后输出这个字符串的形式,输出为"老马"。

同样,这个一次碰巧就对了,实际中,我们可以写一个循环,测试不同的A/B编码中的结果形式,代码如下所示:

以上代码使用不同的编码格式进行测试,如果输出有正确的,那么就可以恢复。

恢复的讨论

可以看出,这种尝试需要进行很多次,上面例子尝试了常见编码GB18030/Windows 1252/Big5/UTF-8共十二种组合。这四种编码是常见编码,在大部分实际应用中应该够了,但如果你的情况有其他编码,可以增加一些尝试。

不是所有的乱码形式都是可以恢复的,如果形式中有很多不能识别的字符如�?,则很难恢复,另外,如果乱码是由于进行了多次解析和转换错误造成的,也很难恢复。

小结

相比原来第7节,本节增加了关于使用UltraEdit和Java编程恢复乱码的描述,希望能有帮助,如果仍有疑惑,欢迎后台留言。

下节我们将按照原来的顺序,讨论函数和堆栈,敬请关注。

本文分享自微信公众号 - 老马说编程(laoma_shuo)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-04-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 计算机程序的思维逻辑 (7) - 如何从乱码中恢复 (下)?

    乱码 上节说到乱码出现的主要原因,即在进行编码转换的时候,如果将原来的编码识别错了,并进行了转换,就会发生乱码,而且这时候无论怎么切换查看编码的方式,都是不行...

    swiftma
  • (55) 容器类总结 / 计算机程序的思维逻辑

    从38节到54节,我们介绍了多种容器类,本节进行简要总结,我们主要从三个角度进行总结: 用法和特点 数据结构和算法 设计思维和模式 用法和特点 我们在52节...

    swiftma
  • (73) 并发容器 - 写时拷贝的List和Set / 计算机程序的思维逻辑

    本节以及接下来的几节,我们探讨Java并发包中的容器类。本节先介绍两个简单的类CopyOnWriteArrayList和CopyOnWriteArraySet,...

    swiftma
  • 前端开发中的字符编码

    前端开发过程中会接触各种各样的编码,比较常见的主要是UTF-8和HTML实体编码,但是web前端的世界却不止这两种编码,而且编码的选择也会造成一定的问题,如前后...

    欲休
  • 直播软件开发之Java音视频解决方案:音视频基础知识

    从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即:数据=信息+数据冗余。音频信号在时域和频域上具有相关性,也即存在数据冗余。将音频作为一个信源,音频编...

    云豹kj的晨曦
  • Java基于注解和反射导入导出Excel

    用户2017109
  • R语言第二章数据处理⑤数据框列的转化和计算目录正文

    本篇描述了如何计算R中的数据框并将其添加到数据框中。一般使用dplyr R包中以下R函数:

    用户1359560
  • URL编码和Base64编码

    URL编码是浏览器发送数据给服务器时使用的编码,它是编码算法,而不是加密算法,URL编码的目的是把任意文本数据编码为以%前缀表示的文本,编码后的文本仅包含A~Z...

    木可大大
  • 神速!一域名注册不到两个月就被启用

    有句话这么说人不可貌相,海水不可斗量。域名圈内照样如此。有些域名其貌不扬,但爆发力很强,有一域名,注册一个多月,拍了七万多元,现在被海外终端启用了,...

    躲在树上的域小名
  • 002 C# 写入Excel,Word,Ppt完整攻略

    在项目-添加引用,分别选择Microsoft Excel 16.0 Object Library、

    职场编码

扫码关注云+社区

领取腾讯云代金券