首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

字符,字符集,字符编码

字符,字符集,字符编码  简书郭文圣 现在Unicode已然一统天下,我想很多年轻的程序员可能都没遇到过编码问题,更不用说了解编码的发展了。...字符集是字符组成的集合,通常以二维表的形式存在,二维表的内容和大小是由使用者的语言而定,是英语,是汉语,还是阿拉伯语。 字符编码是把字符集中的字符编码为特定的二进制数,以便在计算机中存储。...字符集和字符编码一般都是成对出现的,如ASCII、IOS-8859-1、GB2312、GBK,都是即表示了字符集又表示了对应的字符编码,以后统称为编码。...要彻底解决这个问题,替代原先基于语言的编码系统,就需要一个通用的字符集UCS(Universal Character Set)和一个通用的字符编码Unicode。...参考:关于常用的字符集编码     (一个好看的故事)

1.6K30
您找到你想要的搜索结果了吗?
是的
没有找到

字符集和字符编码

但是需要注意,不是所有软件或者程序都能正确处理BOM标记,例如PHP就不会检测BOM标记,直接把它当普通字节流解析了。...因此如果你的PHP文件是采用带BOM标记的UTF-8进行编码的,那么有可能会出现问题。 6.8 Unicode编码和以前的字符集编码有什么区别? 早期字符编码字符集和代码页等概念都是表达同一个意思。...例如GB2312字符集、GB2312编码,936代码页,实际上说的是同个东西。...7、总结 字符集定义了一组字符,编码定义了如何来表示字符集中的字符(是不是有点类似抽象类与实现类的关系呢?)。...比如 Unicode 是一个「字符集」,而 UTF-8 是一种「编码方式」,其他的编码方式还有 UTF-16 和 UTF-32.

1K40

Confluence 6 新安装配置数据库字符集编码

Confluence 和你的数据库必须配置使用相同的字符集。...Confluence 使用 UTF-8 字符集编码,所以你的数据库也必须配置为使用 UTF-8 (或者与 UTF-8 相同的编码,例如在 Oracle 中使用的 AL32UTF8 编码)。...当你在第一次安装 Confluence 的时候,你需要考虑下面的的几个位置配置使用不同的字符集: 当你创建数据库的时候。...这个能够保证让你在后续的配置和运行中不会出现问题,相对后期进行调整,现在就把问题解决要容易得多,当你有数据在数据库中进行存储的时候再进行字符集调整就会比较麻烦了。...针对 Confluence 支持的每一个数据库如何进行字符集调整的指南如下,当你在创建数据库的时候请参考下面的指南: Database Setup for PostgreSQL Database Setup

65030

字符集与字符编码总结

字符集和字符编码的概念字符集:一个系统所支持的所有字符的集合。...字符集 vs 字符编码:从上述对两者的描述中可以看出,我们这里讨论的字符集和字符编码是两个完全不同的概念。...常见字符集简介以下将按照出现时间从早到晚,简单介绍几个常见的字符集:(1) ASCII字符集 & 字符编码ASCII是最早的一种字符集及字符编码,计算机出现之初,使用的就是ASCII,也是现行最通用的单字节编码系统...(3) BIG***字符集 & 字符编码常见的有BIG5字符集编码。BIG5是使用繁体中文社区中最常用的电脑汉字字符集标准,普及于港澳台等繁体中文通行区。...(4) Unicode字符集及其字符编码像中文使用的GB2312、BIG5字符集和字符编码一样,很多其他非英文国家和地区,也创造了自己的一套字符集和字符编码

87211

编码解码乱码字符集

编码EnCode:将字符转化为字节 解码DeCode:将字节转化为字符 乱码:打个比方—比较多人知道的联通 用字符集GBK的时候出现这样的情况:��ͨ,这就是乱码 常见的中文字符集有:GBK 和 UTF...-8 国际上常用的字符集:Unicode(大字典)、ANSI UTF-8,中文占三个字节,英文占一个字节(变长),还有定长占两个字节(耗费空间多) GBK,中文占两个zijie 下面模拟编码: 我的默认的编码字符集为...: import java.io.UnsupportedEncodingException; /** * 编码:将字符转化为字节 * @author Administrator * */ public...static void main(String[] args) throws UnsupportedEncodingException { String msg = "性命生命使命a"; //默认字符集编码...,这里默认为GBK byte[] datas = msg.getBytes(); System.out.println(datas.length); //使用不同字符集编码,如UTF-

84720

字符集和字符编码(Charset & Encoding)

2常用字符集和字符编码 常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。...ASCII编码:将ASCII字符集转换为计算机可以接受的数字系统的数的规则。...上述编码规则就是GB2312。GB2312或GB2312-80是中国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,又称GB0,由中国国家标准总局发布,1981年5月1日实施。...GB 18030,全称:国家标准GB 18030-2005《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充...Sets and Encoding for Web Designers - UCS/UNICODE. http://www.uninetnews.com/other_standards/charset.php

1.7K30

python 语法基础之字符集编码

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 0-1: invalid continuation byte 1、百度的时候,大家都建议在代码文件头加上字符集定义...sys.getdefaultencoding() 可以用下面的方式修改: reload(sys) sys.setdefaultencoding('utf-8') sys.getdefaultencoding() 所以,代码文件第一行加 字符集定义...,解决Python解释器读取Python代码文件时的字符集识别问题 2、在print的时候出现异常,或者写文件,或者解析网络报文,或者做str对象处理的时候出现乱码。...是byte处理,所以读写前后需要使用同样的字符编码方式。 2)、print、str对象的处理涉及到终端的编码格式。...、数字、标点符号、键盘上的特殊字符;国际编码unicode,支持ascII的字符集外,又支持中文,韩语,日语等。

1.5K50

Confluence 6 已经存在的安装配置数据库字符集编码

如果你的数据库当前没有被配置使用 UTF-8 编码(或者与 UTF-8 相同的编码,例如在 Oracle 中使用的 AL32UTF8 编码): 当你在使用 Confluence 的时候你可能会看到健康检查的警告...你可能在升级 Confluence 后不能启动 Confluence 如果这个问题出现了,你需要修改你已经存在数据库使用的字符集为 UTF-8,有关字符集的修改针对不同的数据修改方法不同。...你需要确定的字符集是正确的。...请参考 Database Setup for PostgreSQL 页面中的内容来如何创建的数据库,并且使用正确的字符集。...请参考 Database Setup for Oracle 页面中的内容来如何创建的数据库,并且使用正确的字符集

62240

理清字符集和字符编码关系

根据映射方向的不同,又可以分为编码和解码。文字、数字等转换成二进制数被称为编码,而二进制数转化为文字、数字和图形符号等称为解码。...常见的字符集包括ASCII字符集、GB2312字符集(简体字符集)、GBK字符集(简繁字符集)和通用字符集(UCS)和Unicode字符集。...ASCII字符集包含128个字符,它用8bit表示,其中,第一位用0表示。ASCII编码则是一种将ASCII字符集中的字符映射到二进制数的关系,譬如:A -> 65。...根据Huffman编码的思想(最常出现的字符编码尽量的短),以及不同符号使用不同的字节长度表示,因此UTF-8采用了1-4个字节表示一个符号,这种变长的编码方式。...它的编码规则如下: 1.对于单字节的符号,字节的第一位置0,后面7位为这个符号的Unicode码。因此,对于英语字母,UTF-8编码和ASCII码是相同的。

1.7K70

WEB开发中的字符集编码

引言 我相信很多人在初接触编程时,都被字符集狠狠地虐过,特别是数据库的中文乱码问题,那么乱码是怎么产生的呢? 我们都知道计算机是以二进制存储和运行的,那么它是怎么把二进制数据转换为各种文字的呢?...还有我们常用的各种字符集,常用的编码转换,都是怎么进行的呢? 本博文所写的内容不是技术干货,只是对我们常用的字符集编码的一个小总结,小科普。...我相信读完本文,您应该对 字符集和常见编码方式 有个差不多的认识了。...标准的 GBK 编码数据库中使用 Unicode 的不同的编码方式存储,网页浏览器又以不同编码来解析,统一为 UTF-8 进行数据编码即可解决这类问题。...由于 utf8mb4 为 utf8 的超集,所以 utf8 编码的 mysql 数据库可以平滑过渡到 utf8mb4。 Url编码 url 编码是 web 开发中最常用的编码了。

1.9K50

PHP 编码规范

原文出处: http://www.cnblogs.com/yjf512/p/9021495.html 这是给小组制定的php编码规范 该 PHP 编码规范基本上是同 PSR 规范的。...有一部分的编码规范 PSR 中是建议,此编码规范会强制要求。 此编码规范 是以 PSR-1 / PSR-2 / PSR-2扩展 为蓝本,并增加了相应的细节说明。...通则 基本编码 PHP代码必须使用 长标签 或 短输出标签;一定不可使用其它自定义标签。...PHP代码必须且只可使用不带BOM的UTF-8编码 一份PHP文件中应该要不就只定义新的声明,如类、函数或常量等不产生从属效应的操作,要不就只有会产生从属效应的逻辑操作,但不该同时具有两者“从属效应”(...所有PHP文件必须以一个空白行作为结束。 纯PHP代码文件必须省略最后的 ?> 结束标签。 行 行的长度一定不能有硬性的约束。

3.6K20

WEB:字符集编码、乱码 —— 看这篇就够了

字符集与字符编码 字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。...常见字符集有:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。 字符编码(Character Encoding):是一套规则。...字符编码就是将字符转换成计算机能识别的二进制串的法则。例如:GBK 字符集可通过查表来完成字符到二进制串的转换。...双字节编码,共收录了21003个汉字。 GB18030 GBK编码的扩充,兼容GBK和GB2312字符集,覆盖中文、日文、朝鲜语和中国少数民族文字。...例如: Oracle使用ZHS16GBK字符集存储字符“䶮”,但AIX系统从数据库中读出后,展示为问号 (?)。

4K20

从零开始学Mysql - 字符集编码(下)

,比较特殊的是采用了「变长编码规则」,变长编码规则值得是根据字符串的内容进行不同的字符集进行编码,比如'啊A'中‘啊’使用两个字节编码,'A'因为可以使用ASCII 字符集表示所以可以只使用一个字节进行编码...数据库级别:如果没有指定数据库级别比较规则或者字符集,则默认使用服务器的。 表级别:表级别在默认的情况下使用数据库级别的字符集和比较规则。...」字符集 Collation_database:****「当前数据库」比较规则 alter database 数据库名 [[DEFAULT] CHARACTER SET 字符集名称] [[DEFAULT...navicat创建一个在数据库,并且创建的时候指定字符集和比较规则。...,见名知义,可以分为连连接级别,数据库级别和server服务器级别,关于比较规则使用规律在 从零开始学Mysql - 字符集编码(上) 进行了讨论,这里就不展开了: mysql> show variables

2.2K20
领券