专栏首页云架构修炼手册一段java代码带你认识锟斤拷

一段java代码带你认识锟斤拷

@Test
public void testKunJinKao(){
  String str="我不是锟斤拷";
  try {
    byte[] buff=null;

    //让我们先看看几种错误的转换,let's go

    //1. 正常的GBK字节流,你以为是UTF-8,所以用UTF-8去解码...
    buff=str.getBytes("GBK");//这里只要不抛异常,数据一定不会被破坏
    String str1=new String(buff,"UTF-8");
    System.out.println(str1);//这是一种情形:���

    //2. 正常的UTF-8字节流,你以为是GBK,所以用GBK去解码...
    buff=str.getBytes("UTF-8");//这里只要不抛异常,数据一定不会被破坏
    String str2=new String(buff,"GBK");//这里破坏了
    System.out.println(str2);//这是另外一种情形:

    //说了半天,锟斤拷在哪里呢?come on

    //3. 本来正常的GBK字节码,在你不知道的某个环节已经被错误的使用UTF-8解码了
    String str3=new String(str.getBytes("GBK"),"UTF-8");
    String str4=new String(str3.getBytes("UTF-8"),"GBK");//这里你并不知道数据已经破坏了,这样用是对的。
    System.out.println(str4);//锟斤拷

    /**
     * Got it.How are you,nice to meet you.
     *
     * Why?
     * 如果说情形1、2是开发者自己造成的,
     * 那么情形3往往是开发者被坑了,别人造成的(也可能是容器层),总之你拿到的时候已经乱了。
     */

    /**
     * 细心的你会发现,正是情形1的错误,导致了情形3的发生。之所以表现不同,是因为情形1的程序猿是在UTF-8下打印输出;
     * 而情形3是在GBK下打印输出。
     */

    /**
     * 总结一下,锟斤拷是怎么产生的?
     *
     * 源于GBK字符集和Unicode字符集之间的转换问题。
     * Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,
     * Unicode官方用了一个占位符(REPLACEMENT CHARACTER)来表示这些文字,这就是:U+FFFD
     *
     * U+FFFD的UTF-8编码出来,恰好是 '\xef\xbf\xbd'。
     *
     * 重复多次,例如 '\xef\xbf\xbd\xef\xbf\xbd',
     * 然后放到GBK/CP936/GB2312/GB18030的环境中显示的话,
     * 一个汉字2个字节,最终的结果就是:锟斤拷——锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)。
     */
  } catch (Exception e) {
    e.printStackTrace();
  }


}

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 再谈java乱码:GBK和UTF-8互转尾部乱码问题分析

    一直以为,java中任意unicode字符串,可以使用任意字符集转为byte[]再转回来,只要不抛出异常就不会丢失数据,事实证明这是错的。

    pollyduan
  • 再再谈java乱码:GBK和UTF-8互转尾部乱码问题分析(续)

    在《再谈java乱码:GBK和UTF-8互转尾部乱码问题分析》我们分析了,如果从一个UTF-8 的字节序列,经过 new String(b,"GBK") 的操作...

    pollyduan
  • 大胆预测:docker-app 会是docker-compose的替代者

    Docker 19.03 推出了一个实验特性:app,这是docker的一个指令,就像 image 、run 、exec 、swarm...

    pollyduan
  • 利用腾讯的ip地址库做ip地址定位

    腾讯的这个还是相对比较准确的。因为腾讯每个QQ用户发现自己匹配的地理位置信息不准确都可以提交更正的http://fw.qq.com/ipaddress 调用: ...

    张善友
  • Activiti开发案例之代码生成工作流图片

    小柒2012
  • java学习day17 --排序,时间比较,Ip转换,JSON格式

    2018.6.29 1.读取JSON数据 1)首先需要有 fastjson-1.2.7.jar 包 2)创建一个数据类型的对象,用来封装 ...

    曼路
  • 58无埋点数据采集技术在Android端实践

    作为国内最大分类信息生活服务平台,58集团旗下各个产品都会投入大量人力进行用户行为的分析,来提升运营效率。但是各个产品对用户行为的分析需求基本是相似的。在这样的...

    张磊BARON
  • 谁说ParameterMap只能读不能写?

    开发过javaweb项目的同学,应该都接触过ServeltRequest吧?ServletRequest接口中有一个方法叫做getParameterMap(),...

    zhangheng
  • 支付宝Wap支付你了解多少?

    为了方便开发者生成一对RSA密钥支付宝提供一键生成工具,具体如何生成与配置密钥详见签名专区。

    Javen
  • ofbiz 服务引擎(一) controller中服务的调用解析

    首先根据handler-controller.xml文件中对应handler文件,然后运行RequestHandler中的runEvent方法,方法如下: /*...

    cfs

扫码关注云+社区

领取腾讯云代金券