史上最简单的 MySQL 教程(七)「中文数据问题」

温馨提示:本系列博文已经同步到 GitHub,地址为「mysql-tutorial」,欢迎感兴趣的童鞋StarFork,纠错。

中文数据问题

中文数据问题的本质就是字符集的问题。

由于计算机仅识别二进制数据,而且人类则更倾向于识别字符(符号),因此就需要一个二进制与字符的对应关系,也就是字符集

在咱们通过 MySQL 数据库的客户端向服务器插入中文数据的时候,有可能失败,原因则可能是客户端和服务器的字符集设置不同导致的,例如:

  • 客户端的字符集为gbk,则一个中文字符,对应两个字节;
  • 服务器的字符集为utf8,则一个中文字符,对应三个字节。

这样显然会在编码转换的过程中出现问题,从而导致插入中文数据失败。

由于所有的数据库服务器表现的一些特性都是通过服务器端的变量来保持的,因此系统会先读取自己的变量,看看具体的表现形式。这样的话,咱们就可以通过以下语句查看服务器到底识别哪些字符集:

-- 查看服务器识别的全部字符集
show character set;
1

通过以上查询,咱们会发现:服务器是万能的,其支持所有字符集。

既然服务器支持这么多字符集,总会有一种是服务器默认的和客户端打交道的字符集。因此,咱们可以通过以下语句查看服务器默认的对外处理的字符集:

-- 查看服务器默认的对外处理的字符集
show variables like 'character_set%'; 
5
  • 标注1:服务器默认的客户端传来的数据字符集为utf8
  • 标注2:连接层字符集为utf8
  • 标注3:当前数据库的字符集为utf8
  • 标注4:服务器默认的对外处理的字符集utf8.

通过以上查询,咱们会发现:服务器默认的对外处理的字符集是utf8.

那么反过来,咱们在通过客户端的属性查看客户端支持的字符集:

3

显然,咱们已经找到了问题的根源,确实是:客户端支持的字符集为gbk,而服务器默认的对外处理的字符集为utf8,因此产生矛盾。

既然问题已经找到了,那么解决方案就是:修改服务器默认接收的字符集为gbk.

-- 修改服务器默认接收的字符集为 GBK(不区分大小写)
set character_set_client = gbk;

这样的话,咱们再插入中文数据的时候,就会插入成功啦!But,在咱们查看数据的时候,又发现了一个问题,就是之前咱们插入的中文数据显示乱码啦!不过这也正常,因为查询的时候,数据的来源是服务器(utf8),解析数据的是客户端,而客户端仅识别gbk格式的数据,显示乱码也就在意料之中啦!

因此,解决方案就是:修改服务器给客户端的数据字符集为gbk.

-- 修改服务器给客户端的数据字符集为 GBK(不区分大小写)
set character_set_results = gbk;
4

如上图所示,向服务器插入中文数据的问题已经解决啦!


此外,咱们之前使用的 SQL 语句:

-- 修改的只是会话级别,即当前客户端当次连接有效,关闭后失效
set 变量 = 值;

这样的话,每当咱们重启客户端的时候,都要依次重新进行设置,比较麻烦,因此咱们可以使用快捷的设置方式,即:

set names 字符集;

例如,

/**
* 恒等于 set character_set_client = gbk;
* 恒等于 set character_set_results = gbk;
* 恒等于 set character_set_connection = gbk;
*/
set names gbk;

表示上述一条语句,将同时改变三个变量的值。其中,connection为连接层,是字符集转换的中间者,如果其和clientresults的字符集一致,则效率更高,不一致也没有关系。


———— ☆☆☆ —— 返回 -> 史上最简单的 MySQL 教程 <- 目录 —— ☆☆☆ ————

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 zhuanlan_guanli@qq.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏学一学大数据

全文搜索引擎 Elasticsearch 入门教程

2077
来自专栏编程

很全很全的 前端 本地存储方式讲解

程序员宝库关注即可习得新技能! cookie前言 网络早期最大的问题之一是如何管理状态。简而言之,服务器无法知道两个请求是否来自同一个浏览器。当时最简单的方法是...

1895
来自专栏菩提树下的杨过

基于webmagic的爬虫项目经验小结

大概在1个月前,利用webmagic做了一个爬虫项目,下面是该项目的一些个人心得,贴在这里备份: 一、为什么选择webmagic? 说实话,开源的爬虫框架已经很...

3008
来自专栏JetpropelledSnake

Django学习笔记之Ajax与文件上传

AJAX(Asynchronous Javascript And XML)翻译成中文就是“异步Javascript和XML”。即使用Javascript语言与服...

551
来自专栏九彩拼盘的叨叨叨

写爬小说的爬虫的一些心得

小说网站的页面内容编码用的 GBK,如果不做处理,中文内容会是乱码。解决方案是用 iconv-lite 来对内容用 GBK 的方式来解码。大概的写法:

773
来自专栏GreenLeaves

Spring.Net学习系列一

废话不多说,如果在看本文之前,你还不知道spring.net是什么,还不知道什么是控制反转、IOC容器、依赖注入、面向切面编程那么请你先去了解这些概念,再来看本...

1916
来自专栏Python攻城狮

Python操作redis1.python操作redis2.实例3.Redis缓存Mysql模拟用户登录,Python实现实例

1 .用户登录首先判断是否在redis缓存中,如果在redis缓存中,直接登录成功; 2 .若用户未在redis缓存,则访问Mysql,判...

743
来自专栏mySoul

node web模块 (服务器端和客户端)

web服务器指网站服务器,指驻留在因特网上的某种程序,web浏览器的基本功能,提供信息浏览服务

1117
来自专栏木子昭的博客

百度贴吧 | 通用抓图脚本搞专业爬虫的话,先保证网速够好,再考虑多进程还是多线程~

多进程优势:单个进程的崩溃,不会影响其它进程 随之而来的问题是,进程之间,资源不共享,信息不共享,所以进程通讯的问题,是实现多进程协作,必须解决的问题 ...

33412
来自专栏网络

Nginx 教程(1):基本概念

英文:netguru,翻译:开源中国 www.oschina.net/translate/nginx-tutorial-basics-concepts 简介 嗨...

17510

扫描关注云+社区