首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >UCS-2如何显示UTF-8中6个字节的unicode代码点?

UCS-2如何显示UTF-8中6个字节的unicode代码点?
EN

Stack Overflow用户
提问于 2013-11-26 14:18:26
回答 2查看 1.5K关注 0票数 1

我在http://www.joelonsoftware.com/articles/Unicode.html读到了关于unicode的文章。Joel说,UCS-2将所有unicode字符编码为2字节,而UTF-8可能需要6字节来编码某些unicode字符。请举例说明一下,6字节UTF-8编码的unicode字符是如何在UCS-2中编码的?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-11-26 17:05:10

UCS-2是在Unicode的编码点少于65536的情况下创建的,因此它们都可以最大容纳2个字节。一旦Unicode增长到65536多个编码点,UCS-2就过时了,取而代之的是乌特夫-16,它使用2字节编码所有UCS-2兼容的编码点,其余的通过代理对编码4字节。

UTF-8最初是为了编码最多6个字节(U+7FFFFFFF max)而编写的,但后来被限制为4个字节(尽管禁止任何高于U+10FFFF的内容),因此它与UTF-16来回兼容100%,并且不编码任何UTF-16不支持的编码点。UTF-8和UTF-16支持的最大编码点是U+10FFFF.

因此,要回答您的问题,需要5或6字节UTF-8序列( U+200000 to U+7FFFFFFF) 的代码点不能用UCS-2,甚至UTF-16编码。没有足够的位来保存如此大的码点值。

票数 5
EN

Stack Overflow用户

发布于 2013-11-26 14:28:55

UCS-2以两个字节存储它所能存储的所有内容,并且对不适合该空间的代码点不做任何处理。这就是为什么UCS-2今天几乎毫无用处的原因。

相反,我们有UTF-16,它看起来像UCS-2对所有的两个字节序列,但也允许代理对,两字节序列对。使用这些,剩余的代码点可以使用总共4个字节进行编码。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20219561

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档