我对文本编码和字符集感到困惑。由于很多原因,我不得不在接下来的工作中学习非Unicode、非UTF8的东西。
我在电子邮件头中找到了单词"charset“,就像在"ISO-2022-JP”中一样,但在文本编辑器中没有这样的编码。(我查看了不同的文本编辑器。)
文本编码和字符集有什么区别?如果你能给我展示一些用例,我将不胜感激。
发布于 2010-02-17 22:59:29
发布于 2010-02-17 23:01:25
字符集或字符表只是一组字符(一个无序集合)。编码字符集为指令集中的每个字符分配一个整数(“代码点”)。编码是将代码点明确表示为字节流的一种方式。
发布于 2010-02-17 23:16:00
我用谷歌搜索过了。http://en.wikipedia.org/wiki/Character_encoding
区别似乎是微妙的。术语charset实际上并不适用于Unicode。Unicode经历了一系列抽象。抽象字符->代码点->编码将代码点转换为字节。
字符集实际上跳过了这一步,直接从字符跳到字节。字节序列<->字符序列
简而言之,编码:代码点->字节字符集:字符->字节
https://stackoverflow.com/questions/2281646
复制相似问题