首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ASCII,Unicode和UTF-8

五、UTF-8编码 互联网的普及,强烈要求出现一种统一的编码方式。UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。...UTF-8 的编码规则很简单,只有二条: 1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的。...六、Unicode 与 UTF-8 之间的转换 通过上一节的例子,可以看到严的 Unicode码 是4E25,UTF-8 编码是E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。...4)UTF-8:编码是六个字节EF BB BF E4 B8 A5,前三个字节EF BB BF表示这是UTF-8编码,后三个E4B8A5就是严的具体编码,它的存储顺序与编码顺序是一致的。...-8, a transformation format of ISO 10646(如果实现UTF-8的规定) 文章转载自:阮一峰老师的字符编码笔记:ASCII,Unicode 和 UTF-8

1.1K130

ASCII、 Unicode 和 UTF8

由此也可看出,当待保存文本为纯英文字母时, 采用Unicode的存储效率太低了 UTF8便是为了解决Unicode存储效率低下而产生的。具体的规则就不讲了,先来看一下UTF8能够达到的效果。...对于相同的文本:'abcd',Unicode需要12个字节,而UTF8只需要4个字节(和ASCII一样,达到最优)。 UTF8之所以可以用一个字节存储英文字母,是因此它使用了变长的编码方式。...所以UTF8对于存储英文字母的高效率来源于对之后字符保存效率的牺牲。这里的合理性在于:如果待保存的文本中字符大多数为英文字母,则存储效率能够提高,因为大多数字符都是采用一个字节保存。...总结来说, UTF8是对Unicode在存储效率上的优化 以上便是三者的关系。...Unicode存在存储效率低下的问题,UTF8是在这个方面对Unicode的优化。

1.3K20
您找到你想要的搜索结果了吗?
是的
没有找到

怎么理解Unicode,utf-8ASCII这些编码?

昨天文章发出来后,有几个读者问我,编码这块怎么掌握,感觉总是很模糊,就知道个utf-8编码,到底如何掌握。...A1%A8 ASCII编码一共规定了128个字符的编码,是美国人上世纪60年代制定的,记住只包括128个字符。...另一个常识:英语用上面ASCII编码的128个符号编码就够了,但其他语言,128个符号是不够的!!! 汉字多达10万不同字符。一个字节只能表示256种符号,肯定不够。那怎么办?...UTF-8编码被互联网广泛使用,它是Unicode字符集的一种极佳的存储方法。首先它是变长度,存储ASCII字符时,用1个字节存储它;存储汉字时,使用至少3个字节。...UTF-8有一套设计精良的编码规则,感兴趣的可以去看看。

1.2K20

字符编码笔记:ASCII,Unicode和 UTF-8

5.UTF-8 互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF- 16和UTF-32,不过在互联网上基本不用。...重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。 UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。...UTF-8的编码规则很简单,只有二条: 1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。...Unicode与UTF-8之间的转换 通过上一节的例子,可以看到“严”的Unicode码是4E25,UTF-8编码是E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。...4)UTF-8:编码是六个字节“EF BB BF E4 B8 A5”,前三个字节“EF BB BF”表示这是UTF-8编码,后三个“E4B8A5”就是“严”的具体编码,它的存储顺序与编码顺序是一致的。

1.2K50

字符编码笔记:ASCII,Unicode和UTF-8

5.UTF-8 互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。...UTF-8的编码规则很简单,只有二条: 1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。...下面,还是以汉字"严"为例,演示如何实现UTF-8编码。...Unicode与UTF-8之间的转换 通过上一节的例子,可以看到"严"的Unicode码是4E25,UTF-8编码是E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。...4)UTF-8:编码是六个字节"EF BB BF E4 B8 A5",前三个字节"EF BB BF"表示这是UTF-8编码,后三个"E4B8A5"就是"严"的具体编码,它的存储顺序与编码顺序是一致的。

83810

字符编码笔记:ASCII,Unicode和UTF-8

UTF8就是每次8个位传输数据,而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到UTF时并不是直接的对应,而是要过一些算法和规则来转换。...5.UTF-8 UTF-8就是在互联网上使用最广的一种Unicode的实现方式。...UTF-8的编码规则很简单,只有二条: 1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。...Unicode与UTF-8之间的转换 可以看到"严"的Unicode码是4E25,UTF-8编码是E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。...4)UTF-8:编码是六个字节"EF BB BF E4 B8 A5",前三个字节"EF BB BF"表示这是UTF-8编码,后三个"E4B8A5"就是"严"的具体编码,它的存储顺序与编码顺序是一致的。

1.8K10

简述 ascii、unicode、utf-8、gbk 的关系

这被称为ASCII码。 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。...UTF-8就是在互联网上使用最广的一种Unicode的实现方式。UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。...UTF-8中,英文占一个字节,中文占3个字节。...比如,“李杰”,在  utf-8中,一个英文占一个字节,一个中文占3个字节,此处“李杰”占6个字节。GBK中一个中文占2个字节,此处“李杰”占4个字节。

1.8K10

字符编码笔记:ASCII,Unicode 和 UTF-8

五、UTF-8 互联网的普及,强烈要求出现一种统一的编码方式。UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。...UTF-8 的编码规则很简单,只有二条: 1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的。...下面,还是以汉字严为例,演示如何实现 UTF-8 编码。...六、Unicode 与 UTF-8 之间的转换 通过上一节的例子,可以看到严的 Unicode码 是4E25,UTF-8 编码是E4B8A5,两者是不一样的。它们之间的转换可以通过程序实现。...4)UTF-8:编码是六个字节EF BB BF E4 B8 A5,前三个字节EF BB BF表示这是UTF-8编码,后三个E4B8A5就是严的具体编码,它的存储顺序与编码顺序是一致的。

1K40

ASCII-UTF码解析

总结 ASCII 码 Unicode UTF-8 GBK/GB18030 产生 从文字、图像等到计算机的0/1处理方式的编码 ASCII码支持的字符过少,Unicode产生 解决Unicode的缺陷,...n个码元 utf-8:每读码点的8位代表一个字符 utf-16:每读码点的16位代表一个字符 utf-32:每读码点的32位代表一个字符 UTF-32 每32位去读一个码点。...它的码元是32位,每一个 UTF-32值都可以直接表示对应的码点。 UTF-32(字符用四个字节表示),UTF-8UTF-16同理。...UTF-8 由来 UTF-88-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码 UTF-8用1到4个字节编码Unicode...兼容 ;ASCIIUTF-8的一个子集 Unicode是一种编码方式,而UTF是一种存储方式,UTF-8是Unicode的一种实现方式之一 GBK 由于ASCII编码不支持中文,需要寻求一种编码方式来支持中文

76910

UTF-8编码规则_库德巴码编码规则字符编码笔记:ASCII,Unicode和UTF-8

UTF-8编码规则(UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉 字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-...UTF-8是一种变长字节编码方式。...因此那些基本ASCII字符集中的字符(UNICODE兼容ASCII)只需要一个字节的UTF-8编码(7个二进制位)便可以表示。...字符编码笔记:ASCII,Unicode和UTF-8 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料。...UTF-8的编码规则很简单,只有二条: 1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

1.4K30

Java编码ASCII、GB2312、GBK、Unicode、UTF-8UTF-16 编码方式详解

5 UTF-8 unicode编码是一种概念,实际上真正实现了unicode编码的是被使用次数最多的UTF标准(UCS Transfer Format)。在UTF标准中现今最常用的是UTF-8。...UTF-8是unicode编码的一种实现。 结构 UTF-8灵活性很强,用1~4个字节表示一个字符。 当字符在ASCII中可以被表示时,UTF-8编码方式就用一个字节来表示它。...6 UTF-16 UTF-16不是简单的把UTF-8的范围扩大了一倍,UTF-16和UTF-8是彻底不同的两种编码概念。...相比较UTF-8,在存储中文方面,UTF16更加结合空间。...UTF-16容错情况比UTF-8好,因为UTF-16稳定使用两个字节编码,如果数据错误不会连代其他数据被读错,而UTF-8是变长编码,可能导致后面的字符全部错误。

2.2K10

字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8

因此对于英语字母,UTF-8 编码和 ASCII 码是相同的; 2)对于n字节的符号(n > 1):第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。...以UTF-8为例,UTF-8码完全只针对Unicode来组织的,如果GBK要UTF-8必须先Unicode码,再UTF-8就OK了。...即GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换:  1)GBK、GB2312 --先--> Unicode --再--> UTF8 ...2)UTF8 --先--> Unicode --再--> GBK、GB2312 附录:更多精华文章 《新手入门一篇就够...《字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8》 >> 更多同类文章 …… (本文同步发布于:http://www.52im.net/thread

2.1K20

浅析ASCII、Unicode和UTF-8三种常见字符编码

如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间: 字符 ASCII Unicode UTF-8 A 01000001 00000000 01000001 01000001 中 - 01001110...00101101 11100100 10111000 10101101   从上面的表格可以发现UTF-8编码一个额外的好处,就是ASCII编码实际上可以被看成是UTF-8编码的一部分,所以,大量只支持...ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。   ...谢谢清香白莲素还真的点评,强调一下,unicode是一种编码方式,和ascii是同一个概念,而UTF-8UTF-16等是一种存储方式,在存储和传输上节约空间、提高性能的一种编码形式。...所以很多网页的源码上会有类似的信息,表示该网页正是用的UTF-8编码。

86660
领券