开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

张龙netty学习笔记

共 12 篇文章

1

张龙netty学习笔记 P55

2

张龙netty学习笔记 P10

3

张龙netty学习笔记 P7 P8 P9

4

张龙netty学习笔记 P4 P5 P6

5

张龙netty学习笔记 P25

6

张龙netty学习笔记 P52 executor

7

张龙netty学习笔记 P41 nio网络编程

8

张龙netty学习笔记 P32-P34 java nio 入门

9

张龙netty学习笔记 P49~P51 零拷贝

10

张龙netty学习笔记 P21-P23

11

张龙netty学习笔记 P24 proto代码生成插件

12

张龙netty学习笔记 P45 P46 字符集编码

清单首页张龙netty学习笔记文章详情

清单「张龙netty学习笔记」 12/12

张龙netty学习笔记 P45 P46 字符集编码

平凡的学生族

什么是字符集

字符集分为编码和解码两个操作(decode和encode)。

decode将字节转化为字符，是对字节的一种解释方式。
encode将字符转化为字节，是对字符的一种编码。

各种字符集

ASCII 7个字节表示一个字符。会有位缺失（一个字节里最后一个字节没有用）。能表示英文字母、换行符等常用符号
iso-8859-1 8个字节表示一个字符，表示范围包含了ASCII
中文中华人民共和国为了应对iso-8859-1无法表示数量繁多的汉字而制定的编码规则。用两个字节表示一个字符。
1. GB2312 包含大部分汉字。
2. GBK 表示范围包含了GB2312。包含了一些GB2312没包含的生僻字。
3. GB18030 表示范围包含了GBK。包含了所有汉字。
繁体中国台湾所制定的编码规则。
1. BIG5 包含繁体字。
unicode 收容了世界上所有语言的文字。每个字符包含两个字节。尽管表示范围广泛，但对于欧美等主要用英文字母交流的国家来说，一个英文字母用两个字节表示会造成极大浪费。原本用iso-8859-1编码为1M大小的英文文本，用unicode编码要占据2M。
1. big endian与little endian：在文本开头附加两个字节，如果是0xFE FF，标志该文本为大端存储，如果是0xFF FE，表示该文本为小端存储。比如某个文本为“FF FE 25 4E”，其中“FF FE”表明是小头方式存储，真正的编码是4E25。
utf-8 为了应对unicode对英文存储的极大浪费问题，所制定的不定长编码：英文编码为一个字节，中文大多编码为3个字节，最多可达6个字节。
1. BOM(byte order mask)。在utf-8中的专有名词，作用是标识文本的字节读取顺序，其实就是上文5.1里的big endian与little endian。
2. BOM的遗留问题：其实在文本头添加BOM可以说是windows发明出来的概念，但这引来了兼容性问题：因为utf-8编码在linux中是默认不带有BOM的，而在windows是默认带有BOM的。这使得文本在linux与windows之间拷贝后，无法读取。也正因为如此，额外引申出"utf-8 without BOM"这个编码，显示指定文本编码不带有BOM

char

char在Java中是16位的，因为Java用的是Unicode。

举报