[TOC]
中文字符标准编码: GBK,GB2312,GB18030
产生原因:
汉字在UTF-8中采用3字节进行编码
,但是如果有一种只包含中文和ASCII的编码的话,就不需要使用3个字节可能2个字节就够了。
也是出于这样的考虑中国国家标准总局于1981年制定并实施了 GB 2312-80 编码,即中华人民共和国国家标准简体中文字符集。后来厂商微软利用GB2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。
有了标准中文字符集,如果是一个纯中文网站,就可以可以采用这种编码方式,这样可以大大节省一些存储空间的。
常用的中文编码有GBK(常用),GB2312,GB18030:
在Java中开发采用GBK编码中文字符默认占用2B,其中表现形式为-42 -48即第一个为负数(少数为特例)第二个为正数或者负数
;
public static void main(String[] args) {
//中文字符GBK码表
System.out.println('中' + 0); //gbk码表一一对应
System.out.println('文' + 0);
//JAVA表现形式
byte[] arr = "中文".getBytes();
for (Byte b : arr) {
System.out.print( b + " ");
}
//中 : -42 -48
//文 : -50 -60
}