java 字符串编码转换 字符集/编码的见解 心得 体会(跟之前那个C++编码随笔对应)

!!!Java要转换字符编码:就一个String.getBytes("charsetName")解决,返回的字节数组已经是新编码的了~~至于后边是new String组装还是网络发送,就再处理了。

1      try {
2             String test = "一";
3             System.out.println(System.getProperty("file.encoding"));// java默认编码是UTF-8
4              System.out.println(test);        //getBytes已经是转码操作,不填的就默认用系统规定的
5             System.out.println(new String(test.getBytes(),"GB2312"));
6              System.out.println(new String(test.getBytes("GB2312"),"GB2312"));//用什么拆就用什么组装,否则显示乱码
7          } catch (UnsupportedEncodingException ex) {
8             Logger.getLogger(Main.class.getName()).log(Level.SEVERE, null, ex);
9         }

输出结果:

UTF-8
一
涓�
一
System.out.println(test.getBytes("GB2312").length);
System.out.println(test.getBytes("UTF8").length);
System.out.println(test.getBytes("GBK").length);

分别输出2,3,2,同样是“一”,用不同编码拆成字节数组就占不同的位数。GBK,GB2312都两字节编码。

2010年10月15日新加以下内容:

        //本程序默认在UTF8编码下运行
        String a = "郑高强";
        String b = null;
        b = new String(a.getBytes(),"UTF8");
        System.out.println(b);  //正确显示
        b = new String(a.getBytes("GB2312"),"GB2312");
        System.out.println(b);  //正确显示。虽然a本来默认是三字节编码的,但getBytes("GB2312")
                                //把整个字节数组按双字节形式转换了一次。用GB2312来解释这个新字节数组就对了
        b = new String(a.getBytes("GB2312"),"UTF8");
        System.out.println(b);  //乱码。已经转为双字节,还用UTF8解释就错了。
                                //还没想到怎么把b救回来。好像没办法使得b重新正确显示了。
        
        b = new String(a.getBytes(),"GB2312");
        System.out.println(b);  //乱码。getBytes已经把字符串逐个字符按UTF8格式,拆散为N个字节。
                                //后边硬用GB2312来解释这N个字节,肯定乱码。UTF8三字节,GB2312双字节
        b = new String(a.getBytes("UTF8"),"GB2312");    //同上一句其实一样
        System.out.println(b);  //乱码

结果:

郑高强
郑高强
֣��ǿ
���寮�
���寮�

字符编码转换关键是要理解内在的机理。。。编码的关键是要理解最底层那个字节数组是怎么编码的,例如GB2312用两个字节表示一个汉字,UTF8用三个字节表示一个汉字,可见,底层的字节数组肯定有不同~~~

!!!Java要转换字符编码:就一个String.getBytes("charsetName")解决,这时候已经把原来String的字节数组逐个字符的转化了,此时编码已经变了。例如原来是UTF8三字节编码,转为GB2312,已经变成双字节编码了,这个byte数组已经比原来String内含的数组要短。

而new String只是一个组装String的过程,传入的字节数组是什么编码的,就该用什么编码组装(或者叫解释),不然就悲剧了~~~

!!!虽然程序默认编码是UTF8,这不代表程序中用GB2312编码的字符串就无法正确显示。(这是我个人之前的误解)因为out.println的时候,系统会自动处理。其实默认编码是UTF8,就只是指getBytes或者new InputStreamReader这样的操作的时候,默认用UTF8来解释。

再说说编码和字符集的关系:详细见另外一个文章http://www.cnblogs.com/kenkofox/archive/2010/10/15/1851962.html

最后贴出JDK对String的getBytes和new String(byte[], charsetName)的解释:

public byte[] getBytes() Encodes this String into a sequence of bytes using the platform's default charset, storing the result into a new byte array.

new String(byte[], charsetName) Constructs a new String by decoding the specified array of bytes using the specified charset. The length of the new String is a function of the charset, and hence may not be equal to the length of the byte array.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏青玉伏案

窥探Swift之需要注意的基本运算符和高级运算符

  之前更新了一段时间有关Swift语言的博客,连续更新了有6、7篇的样子。期间间更新了一些iOS开发中SQLite、CollectionViewControl...

1915
来自专栏偏前端工程师的驿站

(cljs/run-at (JSVM. :all) "Metadata就这样哦")

892
来自专栏老马说编程

(92) 函数式数据处理 (上) / 计算机程序的思维逻辑

上节我们介绍了Lambda表达式和函数式接口,本节探讨它们的应用,函数式数据处理,针对常见的集合数据处理,Java 8引入了一套新的类库,位于包java.uti...

1826
来自专栏信数据得永生

JavaScript 编程精解 中文第三版 五、高阶函数

29410
来自专栏Python攻城狮

MySQL中char、varchar和text的区别

它们的存储方式和数据的检索方式都不一样。 数据的检索效率是:char > varchar > text 空间占用方面,就要具体情况具体分析了。

774
来自专栏玄魂工作室

如何学python 第十一课 元组与字典

第十一课 元组与字典 欢迎回来。上一期的如何学python里,我们讨论了函数。我们今天将要学习的是两种类似于列表(list)类型的数据类型。我们先介绍’元组’...

3074
来自专栏维C果糖

编程思想 之「对象漫谈」

在「语言导论」中,我们曾提到过「万物皆对象」,事实上,也确实如此。在面向对象编程的世界中,我们创建对象、操作对象、销毁对象,我们所做的一切动作都离不开对象。在本...

55219
来自专栏Linux驱动

33.QT-UTF8,GBK互转

1374
来自专栏对角另一面

lodash源码分析之获取数据类型

所有的悲伤,总会留下一丝欢乐的线索,所有的遗憾,总会留下一处完美的角落,我在冰峰的深海,寻找希望的缺口,却在惊醒时,瞥见绝美的阳光! ——几米 本文为读...

2723
来自专栏谦谦君子修罗刀

swift4.0语法杂记(精简版)

一、swift简史 1、介绍 swift是苹果公司于2014年推出用于撰写OS和iOS应用程序的语言。它由苹果开发者工具部门总监“克里斯.拉特纳”在2010年...

4189

扫码关注云+社区