文章/答案/技术大牛

发布

社区首页 >问答首页 >UCS-2如何显示UTF-8中6个字节的unicode代码点？

问UCS-2如何显示UTF-8中6个字节的unicode代码点？
EN

Stack Overflow用户

提问于 2013-11-26 14:18:26

回答 2查看 1.5K关注 0票数 1

我在http://www.joelonsoftware.com/articles/Unicode.html读到了关于unicode的文章。Joel说，UCS-2将所有unicode字符编码为2字节，而UTF-8可能需要6字节来编码某些unicode字符。请举例说明一下，6字节UTF-8编码的unicode字符是如何在UCS-2中编码的？

utf-8

ucs2

unicode

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-11-26 17:05:10

UCS-2是在Unicode的编码点少于65536的情况下创建的，因此它们都可以最大容纳2个字节。一旦Unicode增长到65536多个编码点，UCS-2就过时了，取而代之的是乌特夫-16，它使用2字节编码所有UCS-2兼容的编码点，其余的通过代理对编码4字节。

UTF-8最初是为了编码最多6个字节(U+7FFFFFFF max)而编写的，但后来被限制为4个字节(尽管禁止任何高于U+10FFFF的内容)，因此它与UTF-16来回兼容100%，并且不编码任何UTF-16不支持的编码点。UTF-8和UTF-16支持的最大编码点是U+10FFFF.

因此，要回答您的问题，需要5或6字节UTF-8序列( U+200000 to U+7FFFFFFF) 的代码点不能用UCS-2，甚至UTF-16编码。没有足够的位来保存如此大的码点值。

票数 5

Stack Overflow用户

发布于 2013-11-26 14:28:55

UCS-2以两个字节存储它所能存储的所有内容，并且对不适合该空间的代码点不做任何处理。这就是为什么UCS-2今天几乎毫无用处的原因。

相反，我们有UTF-16，它看起来像UCS-2对所有的两个字节序列，但也允许代理对，两字节序列对。使用这些，剩余的代码点可以使用总共4个字节进行编码。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/20219561

复制

相似问题

问UCS-2如何显示UTF-8中6个字节的unicode代码点？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问UCS-2如何显示UTF-8中6个字节的unicode代码点？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问UCS-2如何显示UTF-8中6个字节的unicode代码点？
EN