为什么'é‘和'é’编码为不同的字节？

为了回答这个问题，首先需要了解字符编码的概念。字符编码是将字符映射到二进制数据的过程，以便计算机能够处理和存储文本数据。

在计算机中，最常用的字符编码是ASCII码（American Standard Code for Information Interchange），它使用7位二进制数表示128个字符，包括英文字母、数字和一些特殊字符。然而，ASCII码只适用于英语等较为简单的字符集，无法表示其他语言的字符。

为了解决这个问题，出现了Unicode编码，它是一种全球通用的字符编码标准，可以表示几乎所有的字符。Unicode使用不同的编码方案，其中最常见的是UTF-8编码和UTF-16编码。

UTF-8编码是一种变长编码方案，它使用1到4个字节表示一个字符。对于英文字母和数字等ASCII字符，UTF-8编码和ASCII码是兼容的，使用相同的编码。而对于非ASCII字符，UTF-8编码使用多个字节表示，其中包括了汉字、日文假名、韩文等字符。

回到问题本身，为什么'é'和'é'编码为不同的字节呢？这是因为这两个字符属于不同的字符集。'é'是拉丁字母中的一个字符，它的Unicode编码为U+00E9。在UTF-8编码中，'é'使用两个字节表示，具体的编码为0xC3 0xA9。

而'é'是法语中的一个字符，它的Unicode编码为U+00E8。同样在UTF-8编码中，'é'使用两个字节表示，具体的编码为0xC3 0xA8。

总结起来，'é'和'é'编码为不同的字节是因为它们属于不同的字符集，虽然它们在外观上非常相似，但在计算机中被视为不同的字符，因此需要使用不同的编码来表示。

unicode表示的形式是什么？

、、、、

在从服务器返回的JSON 8字符串包含如下unicode对的情况下，我一直在讨论这个问题： 3\u00bc 它被呈现为两个单独的字符。然而，它应该被呈现为一个单一的字符。根据我发现的表，下面是一些更多的例子： 0xc3,0xa0 agrave 0xc3,0xa1 aacute 0xc3,0xa2 acircumflex 0xc3,0xa3 atilde 0xc3,0xa4 adiaeresis 0xc3,0xa5 aring 0xc3,0xa6 ae 0xc3,0xa7 ccedilla 0xc3,0xa8 egrave 0xc3,0xa9 eacute 0xc3,0xaa ecirc

浏览 5提问于2012-05-04得票数 3

回答已采纳

5回答

UTF-8是编码还是字符集？

、、、

我以为字符集的名称是" Unicode“，而" UTF-8”是Unicode字符集的一种特定编码的名称，但在提到UTF-8时，我经常看到术语“编码”和“字符集”互换使用。例如, <meta charset="UTF-8"> vs <?xml version="1.0" encoding="UTF-8" ?>

浏览 1提问于2013-03-05得票数 14

回答已采纳

2回答

用于XSLT转换的XML中e急性的正确UTF-8十六进制表示

、、

网上提供的许多显示拉丁字符的UTF-8编码的图表让我有些困惑。例如，UTF-8的十六进制表示为c3a9： UTF-8 (十六进制) 0xC3 0xA9 (c3a9) 所以我猜，如果它在XML中表示为十六进制，那么它就会变成쎩。这是UTF-8的XML表示标准吗？源系统将其作为'E9‘发送，即使他们说它是UTF-8。无论如何，XMLSpy和Notepad++都表明它是E9。你能帮我把雾弄清楚吗？谢谢。

浏览 23提问于2017-08-19得票数 0

回答已采纳

7回答

日语ASCII代码

、

在哪里可以获得与日文汉字、平假名和片假名字符相对应的ASCII代码列表。我正在做一个java函数和Javascript来确定它是否是日语字符。在ASCII代码中它的范围是多少？

浏览 3提问于2009-11-26得票数 6

回答已采纳

11回答

编码和字符集有什么区别？

、

我对文本编码和字符集感到困惑。由于很多原因，我不得不在接下来的工作中学习非Unicode、非UTF8的东西。我在电子邮件头中找到了单词"charset“，就像在"ISO-2022-JP”中一样，但在文本编辑器中没有这样的编码。(我查看了不同的文本编辑器。) 文本编码和字符集有什么区别？如果你能给我展示一些用例，我将不胜感激。

浏览 0提问于2010-02-17得票数 165

回答已采纳

3回答

Java - UTF8/16是字符集名称还是字符编码？

、

我正在开发的应用程序将被西欧和东欧的人们以及美国人使用。我使用UTF-8字符集对输入进行编码，对输出进行解码。我感到困惑是因为当我使用这个方法String (UTF，String charsetName)时，我提供了byte[]-8作为字符名，而它实际上是一种字符编码。我的默认编码在Eclipse中设置为Cp1252。这是否意味着，如果在美国的Java应用程序中，我使用Cp1252作为字符集编码并使用UTF-8作为字符集名称来创建一个输出文本文件，那么欧洲的人们是否能够在我的Java应用程序中读取该文件，反之亦然？

浏览 1提问于2013-03-12得票数 2

回答已采纳

3回答

如果UTF-8是8位编码，为什么需要1-4个字节？

、、

在Unicode站点上，写着UTF-8可以用1-4个字节表示。我从这个问题中了解到， UTF8是一种8位编码。那么，事实是什么呢？如果是8位编码，那么ASCII和UTF-8有什么区别？如果不是，那么为什么它被称为UTF-8，为什么我们需要UTF-16和其他占用相同内存的代码？

浏览 0提问于2011-06-14得票数 11

回答已采纳

4回答

什么是XML中的编码？

、、、

什么是XML中的编码？通常使用的编码是utf-8。它与其他编码有什么不同？使用它的目的是什么？

浏览 0提问于2011-04-14得票数 6

回答已采纳

2回答

ASCII与Unicode + UTF-8

、、、

在读。据我所知，ASCII是一种码点+编码方案，在现代，我们使用Unicode作为码点方案，使用UTF-8作为编码方案。这是正确的吗？

浏览 3提问于2014-01-23得票数 58

回答已采纳

4回答

返回Unicode字符串还是返回编码为UTF-8的普通字符串？

、、、、

在Django web框架的上，作者解释了为什么添加__unicode__()方法比添加__str__()更好，原因如下： Django模型有一个默认的__str__()方法，它调用__unicode__()并将结果转换为UTF-8字节串。这意味着unicode(p) 将返回Unicode字符串，而 str(p) 将返回一个普通字符串，其字符编码为UTF-8.。我不明白Unicode字符串和以UTF-8编码的字符串之间有什么区别。我以为UTF-8是Unicode的编码之一？

浏览 9提问于2013-08-01得票数 1

4回答

Python UnicodeDecodeError在写德语字母时

、

我已经在这个错误上苦苦思索了一段时间，尽管有类似的问题，但我似乎在任何地方都找不到解决方案。下面是我的代码： f = codecs.open(path, "a", encoding="utf-8") value = "Bitte überprüfen" f.write(("\"%s\" = \"%s\";\n" % ("no_internet", value)).encode("utf-8")) 我得到的错误是： UnicodeDecodeError: 'a

浏览 0提问于2015-03-04得票数 8

1回答

为什么我不能使用utf-8解码任何字节？

、

不是编码专家，试着学习。我得到了一个拉丁文编码的文件，当我试图读取它并使用'utf-8‘进行解码时，我会得到以下错误： UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 0: invalid start byte 为什么utf-8 (每个字符使用1-4字节)不能解码latin1 (每个字符1字节)。 latin1是utf-8的子集吗？我对此很迷茫，所以什么都能帮上忙。

浏览 1提问于2022-01-11得票数 -1

回答已采纳

3回答

UTF-8编码如何识别单字节和双字节字符？

、、、

最近我遇到了一个关于字符编码的问题，当我深入研究字符集和字符编码时，这个疑问出现在我的脑海中。UTF-8编码是最流行的，因为它与ASCII.Since UTF-8向后兼容UTF-8是可变长度编码格式，它如何区分单字节和双字节characters.For例如，"Aݔ“存储为"410754”(A的Unicode是41，阿拉伯字符的Unicode是0754 )如何识别41是一个字符，0754是另一个双字节字符?为什么不认为4107是一个双字节字符，54是单字节字符？

浏览 0提问于2017-06-15得票数 26

回答已采纳

2回答

两个字节的unicode字母是神话吗？

、

我读过一篇关于文本编码的文章。它指的是说一个unicode字母是两个字节是一个神话。它解释了这一点，但我的英语还不够好，不能理解原因。亲切地，在座的任何人都能解释这个事实，如果它是真的，原因是什么？请尽量保持简单的英语。

浏览 4提问于2011-11-09得票数 1

回答已采纳

4回答

当我使用Cipher和Base64Encoder加密字符串时，目标字符集是什么？

、、、

我正在尝试在我正在设计的DSL中容纳加密令牌(即，我需要一个字符作为分隔符)。encoder.encodeToString(...)文档说它使用字符集。但是当我加密一个文本样本时，它看起来并没有使用所有的ISO-8859-1字符集，而是使用了大写/小写和一些符号，而不是某些标点符号和重音字符。关于这个encodeToString()调用，我遗漏了什么?最终的字符域是什么？ //import java.util.Base64; //import javax.crypto.Cipher; //import javax.crypto.SecretKey; static Cipher cipher;

浏览 0提问于2015-10-14得票数 3

2回答

在UTF-8编码标准中，第一位(即二进制0)是什么意思？

、、、、

我是一个专业的开发人员。考虑下面的示例：我想使用UTF-8编码对单词"hello"进行编码。所以, 单词“”的每个字母的等效代码点如下： h = 104 e = 101 l = 108 o = 111 因此，我们可以说十进制数列表表示字符串“”： 104 101 108 108 111 UTF-8编码将像这样存储"hello" (二进制)： 01101000 01100101 01101100 01101100 01101111 如果你仔细观察上面的二进制编码值，你就会知道每个十进制数的二进制等价物前面都有二进制位值0。我的问题是，为什么每个可存储字符

浏览 152提问于2018-06-07得票数 1

回答已采纳

2回答

Java字符集，它支持使用每个字符范围内的每个符号8位[0-255]的所有符号。

、、、、

我试图传递一个字节数组，它包含从每个元素的0 to 255到任何类型的数据。我必须将它传递到Javascript中，以便将其转换为字符串，但是有些字符会丢失，并被0x3F Question Mark替换。支持传输到Javascript的所有8位符号的正确字符集是什么？ public String base64Decode(String s) { //... lots of stuff transforming String into byte array. //Some example bytes shown here. byte[] destArray = {(byte)0

浏览 1提问于2014-03-15得票数 0

回答已采纳

1回答

JavaScript字符编码+ Internet Explorer9编码

、、

在执行测试时，我注意到了一些奇怪的事情。 “奇怪的事情”涉及字符编码。对于每个测试，我都会在Internet Explorer9 web浏览器中加载一个HTML页面。我的HTML页面用UTF-8编码。下面是我的HTML页面的代码： <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>Insert title here</title>

浏览 0提问于2012-03-25得票数 0

回答已采纳

7回答

如何在delphi 7中将unicode字符转换为ascii代码？

、、

是的，我们说的是ASCII码。抱歉，我不是这里的Delphi开发人员。

浏览 4提问于2008-11-20得票数 4

回答已采纳

1回答

UTF-8 -相互矛盾的定义

、、、

我对UTF-8编码的理解是，UTF-8字符的第一个字节包含较低7位(0-6)的数据，高位(7)为单字节ASCII范围编码点清晰。数据在较低的5位(0-4)中，高位数7-5 = 110，表示2字节字符。数据在较低的4位(0-3)中，高位数7-4 = 1110，以指示3字节字符。数据在较低的5位(0-2)中，高位数7-3 = 11110，表示一个4字节的字符。注意到位7总是被设置，这告诉utf-8解析器这是一个多字节字符。这意味着，在128-255范围内的任何unicode代码点必须以2个或更多字节编码，因为如果要将它们编码为一个字节，则所需的高比特是在UTF-

浏览 0提问于2020-07-08得票数 0

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么'é‘和'é’编码为不同的字节？

相关·内容

unicode表示的形式是什么？

UTF-8是编码还是字符集？

用于XSLT转换的XML中e急性的正确UTF-8十六进制表示

日语ASCII代码

编码和字符集有什么区别？

Java - UTF8/16是字符集名称还是字符编码？

如果UTF-8是8位编码，为什么需要1-4个字节？

什么是XML中的编码？

ASCII与Unicode + UTF-8

返回Unicode字符串还是返回编码为UTF-8的普通字符串？

Python UnicodeDecodeError在写德语字母时

为什么我不能使用utf-8解码任何字节？

UTF-8编码如何识别单字节和双字节字符？

两个字节的unicode字母是神话吗？

当我使用Cipher和Base64Encoder加密字符串时，目标字符集是什么？

在UTF-8编码标准中，第一位(即二进制0)是什么意思？

Java字符集，它支持使用每个字符范围内的每个符号8位[0-255]的所有符号。

JavaScript字符编码+ Internet Explorer9编码

如何在delphi 7中将unicode字符转换为ascii代码？

UTF-8 -相互矛盾的定义

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐