前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MySQL如何存储Emoji表情,UTF-8和UTF-8MB4字符编码有何区别

MySQL如何存储Emoji表情,UTF-8和UTF-8MB4字符编码有何区别

作者头像
宁在春
发布2022-10-31 15:24:39
1.7K0
发布2022-10-31 15:24:39
举报
文章被收录于专栏:关于Java学习@宁在春
在这里插入图片描述
在这里插入图片描述

不知道为什么深秋的到来,让人变的有些许抑郁和不安

🏆前言

这篇应该算个小知识吧。平时习惯在写文章的时候都喜欢用 windowsemoji表情(win+.)即可弹出,就如👨‍💻🏂🛌🛀🤽‍♂️⛹️‍♂️🤸‍♂️,还有、🏎🚠🛫💺🚀🛰⛵,这种🍟🍔🍿🌭🥞🥙🍰🥤🍸

之前开发的项目,没有存储过这种小表情,都是使用mysql的默认字符设置UTF-8,但是今天测试发现是行不通,然后就有了这篇小文章,希望能够让你有所收获。

📚一、UTF-8 为什么不支持Emoji表情

在一个utf-8表中所做测试,不支持插入数据中包含emoji表情的数据。

image-20211030005429060
image-20211030005429060

原因:MySQL数据库的 “utf8”并不是真正概念里的 UTF-8。目前可见字符集都只需要3个字节,包含了所有字符。但是问题出在unicode6系列编码上,它们需要4个字节,这部分就是有名的emoji。所以,如果我们的数据库使用默认字符设置,是无法存储emoji表情的。

📑二、UTF-8 与 UTF-8MB4 的区别

2.1、UTF-8 (Unicode)

我们先谈谈UTF-8,最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。

因此,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。现代操作系统和大多数编程语言都直接支持Unicode。

📦

所以在UTF-8编码中,一个英文字符占用一个字节的存储空间,一个中文(含繁体)占用三个字节的存储空间。

📊

目前基本上可见字符集都只需要三个字节,包含了所有字符,但是目前问题出在了unicode6系列编码上,它们需要4个字节,这部分就是有名的emoji。所以,你只要不是特种编码还是unicode,且不存emoji,保证不出问题。

另外在此处,我有一点需要补充的是:

MySQL数据库的 “utf8”并不是真正概念里的 UTF-8,原因上面是一点,还有一点是MySQL中的“utf8”编码只支持最大3字节每字符。真正的大家正在使用的UTF-8编码是应该能支持4字节每个字符。

但其实MYSQL的开发者,并没有修饰这个bug,而是推出了新的字符集,就是UTF-8MB4字符编码。如👇

2.2、UTF-8MB4

UTF8MB4:MySQL在5.5.3之后增加了utf8mb4的编码,mb4就是most bytes 4的意思,专门用来兼容四字节的unicode。因此可以用来存储emoji表情。

从8.0后,MySQL也将会在某个版本中开始使用UTF-8MB4作为默认的字符编码。

所以简单说即是:UTF-8MB4才是MySQL中真正的UTF-8编码

那么如何让MySQL存储Emoji表情勒。

📰三、如何让MySQL存储Emoji表情

我们在创建数据库的时候,就需要选定utf-8mb4字符集,而不是utf-8。

image-20211030010203407
image-20211030010203407

我们在设置字段字符集的时候,也需要设置为utf-8mb4字符集。

image-20211030010302392
image-20211030010302392

这样我在Navicat 中测试是可以的。

image-20211030010359460
image-20211030010359460

但是,我之前在网上查询相关资料的时候,说是需要修改一下my.ini配置文件,

[mysqld]下面添加:character_set_server=utf8mb4,保存,重启mysql,应该就可以解决了。

⌛四、自言自语

注意下次再有人问起设置什么样的编码,记得直接推荐设置utf-8mb4哦,这个才是MySQL真正的UTF-8编码哦。

开始想11月更文写什么,掘金大佬们,你说我现在开始学前端还有救吗。

大家也可以说说想看什么,我会就写写会,不会就去学学,给大家推推文。👨‍💻

咱们后端这阶段真的是处于一个是人是鬼都在卷的时期,困难重重啊

大家好,我是博主宁在春主页 一名喜欢文艺却踏上编程这条道路的小青年。 希望:我们,待别日相见时,都已有所成

参考:

Mysql中“utf-8”和"utf8mb4"的区别与使用场景

补充:CSDN终于开始规范标题了,虽路遥且阻,我想这也是一个转变吧,希望一切会有所变化吧

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-10-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🏆前言
  • 📚一、UTF-8 为什么不支持Emoji表情
  • 📑二、UTF-8 与 UTF-8MB4 的区别
    • 2.1、UTF-8 (Unicode)
      • 2.2、UTF-8MB4
      • 📰三、如何让MySQL存储Emoji表情
      • ⌛四、自言自语
      相关产品与服务
      对象存储
      对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档