前言: 在MySQL中,比较常用的字符集是utf8和utf8mb4。...这两个字符集是类似的,utf8是utf8mb3的别名,所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符,如果大家有使用4字节编码一个字符的情况,比如存储一些emoji表情啥的,需要使用...1.utf8下比较规则概览 我们先查看下utf8字符集下支持的所有比较规则: mysql> SHOW COLLATION LIKE 'utf8\_%'; +----------------------...每种字符集都有一种默认的比较规则,SHOW COLLATION的返回结果中的Default列的值为YES的就是该字符集的默认比较规则,比方说utf8字符集默认的比较规则就是utf8_general_ci...表名 MODIFY 列名 字符串类型 [CHARACTER SET 字符集名称] [COLLATE 比较规则名称]; 2.几种比较规则对比 utf8字符集下默认的比较规则是utf8_general_ci
所有在使用“utf8”的MySQL和MariaDB用户都应该改用“utf8mb4”,永远都不要再使用“utf8”。 MySQL的“utf8”不是真正的UTF-8。...“utf8”只支持每个字符最多三个字节,而真正的UTF-8是每个字符最多四个字节。 MySQL一直没有修复这个bug,他们在2010年发布了一个叫作“utf8mb4”的字符集,绕过这个问题。 ?...几乎所有的网络应用都使用了Unicode字符集。Unicode字符集包含了上百万个字符。最简单的编码是UTF-32,每个字符使用32位。...但是MySQL的“utf8”字符集与其他程序还不兼容! MySQL从4.1版本开始支持UTF-8,也就是2003年,而今天使用的UTF-8标准(RFC 3629)是随后才出现的。...同年9月,他们对MySQL源代码进行了一次调整:“UTF8现在最多只支持3个字节的序列”。 utfmb4字符集 支持BMP和补充字符。 每个多字节字符最多需要四个字节。
是MySQL存储Unicode数据的一种可选方法 utf8 MySQL中实现了UTF-8编码的unicode 字符集 MySQL中utf8是utf8mb3的别名 utf8中,一个符号使用1~3个节点表示...对UTF-8支持不彻底,可采用utf8mb4字符集 utf8与utf8mb4的关系 都是实现了UTF-8编码的unicode 字符集 utf8仅支持基本多语言平面Basic Multilingual...个字节存储 对于BMP字符,utf8和utf8mb4具有相同的编码,相同的长度 对于非BMP字符,utf8mb4使用4个字节来存储,utf8不能存储非BMP字符 innodb中默认最大可对767个字节建立索引...使用utf8 的列最多可对255个字符建立索引 使用utf8mb4 的列最多可对191个字符建立索引 超集 字符集A,B ,B支持的所有字符A都支持,A 是B超集 比如 GBK字符集是GB2312字符集的超集...,它们又都是ASCII字符集的超集 utf8mb4是utf8的超集 字符集设置 set names x 等价于 set character_set_client=x; set character_set_connection
昨天在CentOS 7上遇到MySQL 5.6遇到乱码问题,特此总结一下: 一、登录MySQL,用SHOW VARIABLES LIKE ‘character%’;查看下字符集,显示如下: +-----...-----------------+ character_set_database和character_set_server的默认字符集还是latin1。...二、最简单的完美修改方法,修改mysql的my.cnf文件中的字符集键值(注意配置的字段细节): 1、在[client]字段里加入default-character-set=utf8,如下: [client...=utf8,如下: [mysqld] port = 3306 socket = /var/lib/mysql/mysql.sock character-set-server=utf8 3、在[mysql...binary | | character_set_results | utf8 | | character_set_server | utf8 | | character_set_system | utf8
查看当前字符集编码 [root@localhost ~]# mysql -uroot -p123qqq...A ... mysql> show variables like '%char%'; +---...-------------------------------+----------------------------+ 9 rows in set (0.03 sec) 可以看到目前一部分默认的字符集编码为...修改字符集为utf8 [root@localhost ~]# cp /etc/my.cnf /etc/my.cnf.bak //备份mysql配置文件my.cnf [root@localhost...-------------------------------------+----------------------------+ 9 rows in set (0.00 sec) 可以看到现在字符集编码已经被修改为...utf8了。
安装软件提示 UnicodeDecodeError: 'utf-8' codec can't decode byte 提示字符集错误 使用 echo $LANG zh_CN.GB18030 所以需要修改字符集
思路 找出目录下的所有文件类型 遍历要转码的文件类型,如.php 利用vim的set fileencoding=utf8进行转码 具体实现 设置~/.vimrc set fileencodings=utf...bin/bash for i in `find -name \*.php` do vim -s gbk_utf8.vi $i done gbk_utf8.vi :set fileencoding=utf8
操作系统字符集 # 查看操作系统支持的所有字符集 $ locale -a # 查看操作系统支持的中文字符集 $ locale -a | grep zh # 查看当前系统字符集 $ locale 或...$ echo $LANG 或 $ env |grep LANG 或 # Centos7 字符集配置文件,Centos6 为:cat /etc/sysconfig/i18n $ cat /etc/locale.conf...# 临时设置字符集 $ LANG=zh_CN.UTF-8 # Centos7 设置字符集永久生效 ,Centos6 为:echo "LANG=zh_CN.UTF-8" > /etc/sysconfig.../i18n $ echo "LANG=zh_CN.UTF-8" > /etc/locale.conf 文件字符集 # 查看文件字符集 $ file testString.sh testString.sh.../bin/bash # 字符串操作符实例 # 使用 iconv 转换文件字符集,iconv -f 原编码 -t 转换后的编码 inputfile -o outputfile $ iconv -f utf
脚本时遇到输出中文乱码的问题,如下图: 起初我也是很迷茫,以为是PHP的问题,检查了脚本(客户端和服务端都是utf-8)编码已经统一了,为何还是乱码呢,卡壳很久之后突然反应过来会不会是Windows的问题,于是把脚本拿到linux...简体中文,也就是GB2312(或者GBK等)字符集,在我们平时的使用CMD时也没什么问题,因为系统内字符集是统一的,但是当我们使用命令行执行一些外部脚本的时候就有可能出现中文乱码(因为大多数脚本为了支持更多语言
前言 mysql最初的免费战略已经深入人心,感觉自己一直都在用mysql。今天在centos7下装mysql。发现原来centos下默认没有mysql,因为开始...
摘要: 本文主要讲解字符集和字符编码的一些概念,通常我们所说的字符集其实指的包含了字符编码集+字符编码。...字符集(Charset):包括字符编码集和字符编码,如 ASCII 字符集、ISO-8859-X、GB2312 字符集(简中)、BIG5 字符集(繁中)、GB18030 字符集、Shift-JIS 等,...即下文中提到的字符集。...常见字符集和对应编码方式 字符集编码详解ASCII ASCII 编码ASCII字符集:主要包括控制字符(回车键、退格、换行键等);可显示字符(英文大小写字符、阿拉伯数字和西文符号。...UCS(Universal Character Set):称作通用字符集,是由 ISO 制定的 ISO 10646(或称 ISO/IEC 10646)标准所定义的标准字符集。包括了其他所有字符集。
由此也可看出,当待保存文本为纯英文字母时, 采用Unicode的存储效率太低了 UTF8便是为了解决Unicode存储效率低下而产生的。具体的规则就不讲了,先来看一下UTF8能够达到的效果。...对于相同的文本:'abcd',Unicode需要12个字节,而UTF8只需要4个字节(和ASCII一样,达到最优)。 UTF8之所以可以用一个字节存储英文字母,是因此它使用了变长的编码方式。...所以UTF8对于存储英文字母的高效率来源于对之后字符保存效率的牺牲。这里的合理性在于:如果待保存的文本中字符大多数为英文字母,则存储效率能够提高,因为大多数字符都是采用一个字节保存。...总结来说, UTF8是对Unicode在存储效率上的优化 以上便是三者的关系。...Unicode存在存储效率低下的问题,UTF8是在这个方面对Unicode的优化。
在中文平台下,如果指定的字符集编码是ISO-8859-1,由于此字符集是单字节编码,所以使用getBytes("ISO-8859-1")时,每个字符只取一个字节,每个汉字只取到了一半的字符。...由于这一半的字符在字符集中找不到对应的字符,所以默认使用编码63代替,也就是?。...在中文平台下,默认的字符集编码是GBK,于是content.getBytes()得到的是什么呢?...这些字节数组有可能是正确的(只要该字符集支持中文),也可能是完全错误的(该字符集不支持中文)。...FileWriter是字符流输出流,而OutputStreamWriter是字节流输出流在中文平台下,如果使用FileWriter,不论你如何设置字符集都不会起作用。因为它采用的是默认的系统字符集。
UTF8变长编码可以解决。有的文字是1个字节存储的,有的文字是2个字节存储的,还有3个字节存储的,还有4个字节存储的。 最后集合起来就是一共有一到四字节四种变长的编码。...还有一点要说明,就是一个UTF8格式的文件,它要表明它的身份,以让人用UTF8的读法来读它。...可能我们仔细的看一下这个文件的内容,看一下字节出现个格式,和我们上面所说的是否一样,也就知道它是不是UTF8编码了。...不过还有一种保险一点的方法,就是在文件的最开头加上三个字节的信息,这三个字节比较少见,所以一见到它们三个开头,我们就知道是UTF8格式的文件了,使用这种方式可以让我们快速判断出来文件是不是UTF8格式的...,有助于提高性能,不过这不是必须的,我们没有这三个字节也可以判断文件的格式是不是UTF8编码方式。
big5_chinese_ci | 2| ... utf32 |UTF-32 Unicode |utf32_general_ci | 4| utf8...-------------------------+-------------------------------------------+ | character_set_client | utf8...character_set_filesystem | binary | | character_set_results | utf8...character_set_server | latin1 | | character_set_system | utf8...系统变量 character_set_system 是服务器存储元数据(Metadata)使用的字符集,总是设置为 utf8。
MySql高级部分 Linux下安装mysql的步骤 首先查看当前linux系统是否安装过mysql的rpm包 去mysql官网下载对应版本的rpm包 将下载的mysql文件,上传到linux的/opt...----中文乱码 查看字符集 修改默认字符集---修改配置文件 修改完默认字符集后,重启mysql,重启成功说明配置文件修改的没问题 打开mysql,测试插入中文数据,如果是修改字符集之前创建的数据库...,所以会乱码 ---- 修改默认字符集—修改配置文件 来到/etc目录下面,编辑my.cnf配置文件 ---- 首先将客户端的字符集设置为utf8 default-character-set=utf8...---- 修改服务端的字符集 character_set_server=utf8 character_set_client=utf8 collation-server=utf8_general_ci...---- 在mysql下面再设置一个默认字符集: default-character-set=utf8 ---- 修改完默认字符集后,重启mysql,重启成功说明配置文件修改的没问题 ---- 打开
是gb18030的子集,gb2312仅能存储简体中文字符 gbk包括中日韩字符的大字符集 通常使用gbk字符集足够 国际通用性比utf8差,不过utf8占用的数据库比gbk大(utf8是三字节字符集)...utf8/utf8mb4 UTF全称(Unicode Transformation Format),是Unicode的一种存储方式,可变长度字符编码,又称万国码 数据库字符集尽量使用utf8(...latin1的扩展,增加了亚洲、非洲常规语言支持,但仍不支持全部语言,且ASCII用unidoce来表示效率不高(小字符集转换成大字符集,往往便随的就是字符的丢失) utf8是unicode的扩展 gbk...存储空间:char(N)类型的存储空间和字符集有关系,结合刚才字符集的知识点,一个中文在utf8字符集中占用3个bytes、gbk占用2个bytes、数字和字符统一用一个字符表示。...存储空间:varchar(N)类型的存储空间和字符集有关系,结合刚才字符集的知识点,一个中文在utf8字符集中占用3个bytes、gbk统一占用2个bytes、数字和字符一个字符表示。
可以通过以下方法打印所有的字符集 public void test(){ Map map = Charset.availableCharsets...System.out.println(entry.getKey() + "=" + entry.getValue()); } } } 得到所支持的所有字符集如下
1.linux/ubuntu下设置mysql设置UTF-8字符集 1.1编辑 my.cnf 文件 root@server1:~# vim /etc/mysql/my.cnf ?...1.2添加内容后如下 [mysqld] character-set-server=utf8 [client] default-character-set=utf8 ?...1.4拓展,查看支持哪些字符集 root@server1:~# vim /usr/share/mysql/charsets/Index.xml ?...2.windows下设置mysql UTF-8字符集 编辑my.ini增加 [mysqld] character-set-server=big5 [client] default-character-set...=big5 [windows下安装mysql及设置字符集]http://blog.csdn.net/dream_an/article/details/51058710 3.官方设置文档
为例,生产中多数时linux,在linux里面除了latin1之外都是utf8的字符集): mysql> show variables like "%char%"; +--------...(COLLATION),当然一个字符集也可能相应多个校对规则,可是两个不同的字符集不能相应同一个规则。...,则导出的文件名称为UTF8编码....比如:linux系统的终端编码是UTF8,系统默认语言和编码为zh_CN.UTF8.我们有一个数据库名为test,test中有个表名为t1,编码为latin1,另外,我们在mysqlclient运行了SET...这三个变量的设定.能够简单的通过set names utf8或者charset utf8命令来一次设置这三个參数.
领取专属 10元无门槛券
手把手带您无忧上云