开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >张龙netty学习笔记 P45 P46 字符集编码

张龙netty学习笔记 P45 P46 字符集编码

平凡的学生族

发布于 2019-05-25 09:25:52

5650

发布于 2019-05-25 09:25:52

举报

文章被收录于专栏：后端技术

什么是字符集

字符集分为编码和解码两个操作(decode和encode)。

decode将字节转化为字符，是对字节的一种解释方式。
encode将字符转化为字节，是对字符的一种编码。

各种字符集

ASCII 7个字节表示一个字符。会有位缺失（一个字节里最后一个字节没有用）。能表示英文字母、换行符等常用符号
iso-8859-1 8个字节表示一个字符，表示范围包含了ASCII
中文中华人民共和国为了应对iso-8859-1无法表示数量繁多的汉字而制定的编码规则。用两个字节表示一个字符。
1. GB2312 包含大部分汉字。
2. GBK 表示范围包含了GB2312。包含了一些GB2312没包含的生僻字。
3. GB18030 表示范围包含了GBK。包含了所有汉字。
繁体中国台湾所制定的编码规则。
1. BIG5 包含繁体字。
unicode 收容了世界上所有语言的文字。每个字符包含两个字节。尽管表示范围广泛，但对于欧美等主要用英文字母交流的国家来说，一个英文字母用两个字节表示会造成极大浪费。原本用iso-8859-1编码为1M大小的英文文本，用unicode编码要占据2M。
1. big endian与little endian：在文本开头附加两个字节，如果是0xFE FF，标志该文本为大端存储，如果是0xFF FE，表示该文本为小端存储。比如某个文本为“FF FE 25 4E”，其中“FF FE”表明是小头方式存储，真正的编码是4E25。
utf-8 为了应对unicode对英文存储的极大浪费问题，所制定的不定长编码：英文编码为一个字节，中文大多编码为3个字节，最多可达6个字节。
1. BOM(byte order mask)。在utf-8中的专有名词，作用是标识文本的字节读取顺序，其实就是上文5.1里的big endian与little endian。
2. BOM的遗留问题：其实在文本头添加BOM可以说是windows发明出来的概念，但这引来了兼容性问题：因为utf-8编码在linux中是默认不带有BOM的，而在windows是默认带有BOM的。这使得文本在linux与windows之间拷贝后，无法读取。也正因为如此，额外引申出"utf-8 without BOM"这个编码，显示指定文本编码不带有BOM

char

char在Java中是16位的，因为Java用的是Unicode。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019.03.20 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

什么是字符集
各种字符集
char

相关产品与服务

对象存储

对象存储（Cloud Object Storage，COS）是由腾讯云推出的无目录层次结构、无数据格式限制，可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限，无需分区管理，适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。

产品介绍产品文档

对象存储COS新用户低至1元！