我在http://www.joelonsoftware.com/articles/Unicode.html读到了关于unicode的文章。Joel说,UCS-2将所有unicode字符编码为2字节,而UTF-8可能需要6字节来编码某些unicode字符。请举例说明一下,6字节UTF-8编码的unicode字符是如何在UCS-2中编码的?
发布于 2013-11-26 17:05:10
UCS-2是在Unicode的编码点少于65536的情况下创建的,因此它们都可以最大容纳2个字节。一旦Unicode增长到65536多个编码点,UCS-2就过时了,取而代之的是乌特夫-16,它使用2字节编码所有UCS-2兼容的编码点,其余的通过代理对编码4字节。
UTF-8最初是为了编码最多6个字节(U+7FFFFFFF max)而编写的,但后来被限制为4个字节(尽管禁止任何高于U+10FFFF的内容),因此它与UTF-16来回兼容100%,并且不编码任何UTF-16不支持的编码点。UTF-8和UTF-16支持的最大编码点是U+10FFFF.
因此,要回答您的问题,需要5或6字节UTF-8序列( U+200000 to U+7FFFFFFF) 的代码点不能用UCS-2,甚至UTF-16编码。没有足够的位来保存如此大的码点值。
发布于 2013-11-26 14:28:55
UCS-2以两个字节存储它所能存储的所有内容,并且对不适合该空间的代码点不做任何处理。这就是为什么UCS-2今天几乎毫无用处的原因。
相反,我们有UTF-16,它看起来像UCS-2对所有的两个字节序列,但也允许代理对,两字节序列对。使用这些,剩余的代码点可以使用总共4个字节进行编码。
https://stackoverflow.com/questions/20219561
复制相似问题