前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【计算机基础】常用编码格式

【计算机基础】常用编码格式

作者头像
韩旭051
发布2020-07-08 15:04:25
9030
发布2020-07-08 15:04:25
举报
文章被收录于专栏:刷题笔记刷题笔记

【计算机基础】常用编码格式

ASCII 格式

美国信息交换标准代码(American Standard Code for Information Interchange,ASCII)是基于拉丁字母的一套计算机编码系统,主要用于显示现代英语和其他西欧语言。ASCII 是现今最通用的单字节编码系统,并等同于国际标准 ISO/IEC 646。

一个英文字母(不分大小写)占 1 字节的空间,一个中文汉字占 2 字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为 8 位二进制数,换算为十进制后,最小值为 0,最大值为 255。例如,一个 ASCII 码就是 1 字节。

Unicode 格式

Unicode(又称统一码、万国码或单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限性而产生的,它为每种语言中的每个字符设定统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

最初的 Unicode 编码采用固定长度的 16 位,也就是 2 字节代表一个字符,这样一共可以表示 65536 个字符。显然,要表示各种语言中所有的字符,这是远远不够的。Unicode 4.0 规范考虑到了这种情况,定义了一组附加字符编码,附加字符编码采用两个 16 位来表示,这样最多可以定义 1048576 个附加字符,在 Unicode 4.0 规范中只定义了 45960 个附加字符,在 Unicode 5.0 版本中已定义的字符有 238605 个。

Unicode 只是一种编码规范,目前实际实现的 Unicode 编码只有 3 种——UTF-8、UCS-2 和 UTF-16。这 3 种 Unicode 字符集之间可以按照规范进行转换。

UTF-8 格式

UTF-8(8-bit Unicode Transformation Format)是一种针对 Unicode 的可变长度字符编码,又称万国码。UTF-8 由 Ken Thompson 于 1992 年创建,现在已经标准化为 RFC 3629。UTF-8 用 1 ~ 6 字节编码 Unicode 字符,用在网页上,可以统一页面显示的中文简体及其他语言(如英文、日文、韩文)。一个 UTF-8 英文字符等于 1 字节。一个 UTF-8 中文(含繁体)字符,少数占用 3 字节,多数占用 4 字节。一个 UTF-8 数字占用 1 字节。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-07-07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【计算机基础】常用编码格式
    • ASCII 格式
      • Unicode 格式
        • UTF-8 格式
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档