首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

utf8字符集下的比较规则

前言: 在MySQL中,比较常用的字符集是utf8和utf8mb4。...这两个字符集是类似的,utf8是utf8mb3的别名,所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符,如果大家有使用4字节编码一个字符的情况,比如存储一些emoji表情啥的,需要使用...1.utf8下比较规则概览 我们先查看下utf8字符集下支持的所有比较规则: mysql> SHOW COLLATION LIKE 'utf8\_%'; +----------------------...每种字符集都有一种默认的比较规则,SHOW COLLATION的返回结果中的Default列的值为YES的就是该字符集的默认比较规则,比方说utf8字符集默认的比较规则就是utf8_general_ci...表名 MODIFY 列名 字符串类型 [CHARACTER SET 字符集名称] [COLLATE 比较规则名称]; 2.几种比较规则对比 utf8字符集下默认的比较规则是utf8_general_ci

1.3K21

MySQL字符utf8和utf-8的关系

utf8 MySQL中实现了UTF-8编码的unicode 字符集 MySQL中utf8是utf8mb3的别名 utf8中,一个符号使用1~3个节点表示 对UTF-8支持不彻底,可采用utf8mb4字符集...utf8与utf8mb4的关系 都是实现了UTF-8编码的unicode 字符utf8仅支持基本多语言平面Basic Multilingual Plane (BMP) utf8mb4支持BMP之外的补充字符...(如emoji,emoji 是一种特殊的 Unicode 编码) utf8 一个字符最多使用3个字节存储,utf8mb4 一个字符最多使用4个字节存储 对于BMP字符utf8和utf8mb4具有相同的编码...,相同的长度 对于非BMP字符,utf8mb4使用4个字节来存储,utf8不能存储非BMP字符 innodb中默认最大可对767个字节建立索引 使用utf8 的列最多可对255个字符建立索引 使用utf8mb4...的列最多可对191个字符建立索引 超集 字符集A,B ,B支持的所有字符A都支持,A 是B超集 比如 GBK字符集是GB2312字符集的超集,它们又都是ASCII字符集的超集 utf8mb4是utf8

77510
您找到你想要的搜索结果了吗?
是的
没有找到

MySQL字符集你还在使用错误的utf8

所有在使用“utf8”的MySQL和MariaDB用户都应该改用“utf8mb4”,永远都不要再使用“utf8”。 MySQL的“utf8”不是真正的UTF-8。...“utf8”只支持每个字符最多三个字节,而真正的UTF-8是每个字符最多四个字节。 MySQL一直没有修复这个bug,他们在2010年发布了一个叫作“utf8mb4”的字符集,绕过这个问题。 ?...同年9月,他们对MySQL源代码进行了一次调整:“UTF8现在最多只支持3个字节的序列”。 utfmb4字符集 支持BMP和补充字符。 每个多字节字符最多需要四个字节。...纯拉丁字符能表示的内容,没必要选择latin1之外编码,因为这会节省大量的存储空间 如果我们可以确定不需要存放多种语言,就没必要非得使用UTF8或者其他UNICODE字符类型,这回造成大量的存储空间浪费...这里是引用 总结 如果你在使用MySQL或MariaDB,不要再用“utf8”编码,而用“utf8mb4”。 推荐阅读 将现有数据库的字符编码从“utf8”转成“utf8mb4”。

1.2K10

python encoding=utf-8_python以utf8打印字符

一、字符编码问题 先介绍一下字符编码问题 1.ASCLL与GB2312 由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII...Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。...line: break else: try: # print(line) # print(line.decode('utf8...')) line.decode('utf8') #为了暴露出错误,最好此处不print except: print...然后使用line.decode(‘gbk’)解码,其中的errors参数: 修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。

66610

ASCII、 Unicode 和 UTF8

由此也可看出,当待保存文本为纯英文字母时, 采用Unicode的存储效率太低了 UTF8便是为了解决Unicode存储效率低下而产生的。具体的规则就不讲了,先来看一下UTF8能够达到的效果。...对于相同的文本:'abcd',Unicode需要12个字节,而UTF8只需要4个字节(和ASCII一样,达到最优)。 UTF8之所以可以用一个字节存储英文字母,是因此它使用了变长的编码方式。...所以UTF8对于存储英文字母的高效率来源于对之后字符保存效率的牺牲。这里的合理性在于:如果待保存的文本中字符大多数为英文字母,则存储效率能够提高,因为大多数字符都是采用一个字节保存。...总结来说, UTF8是对Unicode在存储效率上的优化 以上便是三者的关系。...Unicode存在存储效率低下的问题,UTF8是在这个方面对Unicode的优化。

1.3K20

关于 MySQL UTF8 编码下生僻字符插入失败假死问题的分析

也就是说,任何不在基本多文本平面的 Unicode字符,都无法使用 Mysql 的 utf8 字符集存储。...当使用 utf8 字符集时,需要保留的长度就是 utf8 最长字符长度乘以字符串长度,所以这里理所当然的限制了 utf8 最大长度为 3,比如 CHAR(100)  Mysql 会保留 300字节长度。...最后顺便总结下4字节utf8字符的系统支持情况: windows xp: 我所测试的xp系统都不支持4字节utf8字符, 浏览器用占位符显示 windows 7: 支持4字节utf8字符...mac os x: 支持4字节utf8字符 iPhone/iPad: 支持4字节utf8字符 许多的数据库软件或者shell终端都不支持4字节utf8字符, 比如 Navicat、SecureCRT...utf8字符的支持还是有必要的.

3.1K90

linux 字符设备驱动

Linux下设备可以分为三种: 字符设备:数据的传输是以字节流的形式传输,如键盘、鼠标、触摸屏、摄像头,LCD显示屏等等。 块设备:数据是以块为单位传输的。如硬盘、U盘等存储设备。...Linux系统中,应用程序访问外设是通过文件的形式来进行的,Linux将所有的外设都看做文件,统一存放在/dev目录下。...linux如何管理文件 Linux把设备纳入文件系统的范畴来管理。 每个设备在Linux系统上看起来都像一个文件,它们存放在/dev目录中,称为"设备节点"。...Linux下设备的属性 设备的类型:字符设备、块设备、网络设备; 主设备号:标识设备对应的驱动程序。...从系统中卸载字符设备的函数:undefinedint unregister_chrdev(unsigned int major, const char *name); 驱动程序是以内核模块的形式表现的,

9.6K45

linux字符设备驱动

Linux下设备可以分为三种: 字符设备:数据的传输是以字节流的形式传输,如键盘、鼠标、触摸屏、摄像头,LCD显示屏等等。 块设备:数据是以块为单位传输的。如硬盘、U盘等存储设备。...Linux系统中,应用程序访问外设是通过文件的形式来进行的,Linux将所有的外设都看做文件,统一存放在/dev目录下。...linux如何管理文件 Linux把设备纳入文件系统的范畴来管理。 每个设备在Linux系统上看起来都像一个文件,它们存放在/dev目录中,称为"设备节点"。...Linux下设备的属性 设备的类型:字符设备、块设备、网络设备; 主设备号:标识设备对应的驱动程序。...从系统中卸载字符设备的函数:undefinedint unregister_chrdev(unsigned int major, const char *name); 驱动程序是以内核模块的形式表现的,

10.6K65

UTF8变长编码

UTF8变长编码可以解决。有的文字是1个字节存储的,有的文字是2个字节存储的,还有3个字节存储的,还有4个字节存储的。 最后集合起来就是一共有一到四字节四种变长的编码。...把10这个比特用来连接多字节字符之间的多个字节。 还有一点要说明,就是一个UTF8格式的文件,它要表明它的身份,以让人用UTF8的读法来读它。...可能我们仔细的看一下这个文件的内容,看一下字节出现个格式,和我们上面所说的是否一样,也就知道它是不是UTF8编码了。...不过还有一种保险一点的方法,就是在文件的最开头加上三个字节的信息,这三个字节比较少见,所以一见到它们三个开头,我们就知道是UTF8格式的文件了,使用这种方式可以让我们快速判断出来文件是不是UTF8格式的...,有助于提高性能,不过这不是必须的,我们没有这三个字节也可以判断文件的格式是不是UTF8编码方式。

2.8K20

utf8中文字符串的多模式匹配算法的优化

OS是tlinux2(腾讯自研的Linux发行版)。该业务目前载入11万3千条规则。..., P2, ..., Pn},输入一个utf8编码的字符串string,输出有哪些模式Px在string中出现。...而我们的业务处理的字符多是utf8编码的中文,一个中文字有3个bytes,当处理中文时,显然步长可以放心地提到3bytes。...一般地,utf8编码的首字节记载了当前“字”的长度3,这个长度即可以作为“跳字符”的步长。在中文字占绝对多数的情况下,平均步长应该非常接近3,而旧算法只有1。...扫描utf8字符串时,每次取一个Bigram,虽然跳节符跳字符步长仍然是一个utf8字符,但因为每次取出两个utf8字组成Bigram增加了上下文信息,匹配效率将大大增加,大量地减少了因为单个utf8字匹配到模式第一个

3.7K30

MySQL不要再用utf8

INSERT INTO user_info ( user_id, user_name, emoji ) VALUES ( 1, '蔡坨坨', '' ); 原因分析 在MySQL数据库中,utf8编码只支持每个字符最多...但是,他们并没有对新的字符集utf8mb4广而告之,可能是因为这个Bug让他们很尴尬,以至于很多人都还默认使用utf8,并且现在网络仍然建议开发者使用utf8,这些建议其实是错误的。...utf8mb4才是真正的UTF-8 没错,MySQL中的utf8mb4才是真正的UTF-8,MySQL中的utf8其实是一种专属的编码,它能编码的Unicode字符并不多。...所有还在使用utf8编码格式的MySQL和MariaDB用户都应该改成utf8mb4,且不再使用utf8,避免出现类似的问题。...不过很显然,在这个不合法的字符集发布之后,MySQL就无法修复它,因为这样需要要求所有的用户重构他们的数据库,所以MySQL中utf8还是最多支持3个字节,最终,MySQL在2010年发布了utf8mb4

2K20
领券