~ U+10FFFF
其中对于第一个U+00 也就是U+0000到U+FFFF ,包含了最常见的字符
被称作 基本多语言平面 Basic Multilingual Plane, BMP...一个字符对应一个二进制序列
基本平面中使用四位十六进制数 在零号平面以外的字符则需要使用五位或六位十六进制数了
编码方式
Unicode 没有规定字符对应的二进制码在计算机中如何存储,只是规定了他的值是多少而已...标准规定:基本多语言平面内,U+D800..U+DFFF的值不对应于任何字符,为代理区 ,其中又分为高代理区和低代理区U+D800 加上10个二进制位的数值的最大值,可以得到高代理区的范围U+D800...,使用2个字节长度,16位表示,这被称之为一个代码单元
对于除了基本平面外的辅助平面,使用4个字节长度来表示,也就是两个代码单元
之前我们提到过,Unicode中的一个字符的值,被称之为一个码点...-16中,虽然我可以根据值确定是否在0号平面内,还是在扩展辅助平面的
但是,如何把一个二进制序列解析为他的值,这是一个问题
比如
0000 0001 0000 0010 假如说这是一个十六进制数