我对编码有点困惑。据我所知,旧的ASCII字符每个字符占用一个字节。Unicode字符需要多少字节?
我假设一个Unicode字符可以包含来自任何语言的所有可能的字符-我说的对吗?那么每个字符需要多少字节呢?
UTF-7、UTF-6、UTF-16等是什么意思?它们是不同版本的Unicode吗?
我读过Wikipedia article about Unicode,但它对我来说很难。我期待着看到一个简单的答案。
发布于 2016-07-13 04:45:31
对于UTF-16,如果字符以0xD800或更大的字符开头,则需要四个字节(两个代码单元);这样的字符称为“代理对”。更具体地说,代理项对的形式如下:
[0xD800 - 0xDBFF] [0xDC00 - 0xDFF]
哪里..。表示给定范围内的双字节代码单元。任何<= 0xD7FF都是一个代码单元(两个字节)。任何>= 0xE000都是无效的(有争议的是,BOM标记除外)。
请参阅http://unicodebook.readthedocs.io/unicode_encodings.html,7.5节。
https://stackoverflow.com/questions/5290182
复制相似问题