我对编码有点困惑。据我所知,旧的ASCII字符每个字符占用一个字节。Unicode字符需要多少字节?
我假设一个Unicode字符可以包含来自任何语言的所有可能的字符-我说的对吗?那么每个字符需要多少字节呢?
UTF-7、UTF-6、UTF-16等是什么意思?它们是不同版本的Unicode吗?
我读过Wikipedia article about Unicode,但它对我来说很难。我期待着看到一个简单的答案。
发布于 2015-10-26 23:38:24
奇怪的是,没有人指出如何计算一个Unicode字符需要多少字节。以下是UTF-8编码字符串的规则:
Binary Hex Comments
0xxxxxxx 0x00..0x7F Only byte of a 1-byte character encoding
10xxxxxx 0x80..0xBF Continuation byte: one of 1-3 bytes following the first
110xxxxx 0xC0..0xDF First byte of a 2-byte character encoding
1110xxxx 0xE0..0xEF First byte of a 3-byte character encoding
11110xxx 0xF0..0xF7 First byte of a 4-byte character encoding
所以快速的答案是:它需要1到4个字节,这取决于第一个字节,它将指示它将占用多少字节。
https://stackoverflow.com/questions/5290182
复制相似问题