专栏首页微光点亮星辰Oracle 与 MySQL 的差异分析(10):字符集

Oracle 与 MySQL 的差异分析(10):字符集

Oracle 与 MySQL 的差异分析(10):字符集

1 数据库支持的字符集

1.1Oracle

Oracle创建数据库时指定字符集,一般不能修改,整个数据库都是一个字符集。虽然还支持指定国家字符集,用于nvarchar2类型,不过很少用到。常用的字符集:AL32UTF8和ZHS16GBK,其中AL32UTF8与UTF8几乎是等价的。一个汉字在AL32UTF8中占三个字节,而在ZHS16GBK中占用两个字节。

1.2 MySQL

MySQL的字符集比较灵活,可以指定数据库、表和列的字符集,并且很容易修改数据库的字符集,不过修改字符集时已有的数据不会更新。

(1)支持的字符集:

查询支持的字符集:showcharacter set;

其中,defaultcollation表示默认的数据比较规则,_ci表示大小写不敏感。

(2)数据库的默认字符集:

show variables like ‘character_set_server’;

查询当前数据库的字符集:

show variables like ‘character_set_database’;

2 如何分析数据的字符集

在遇到数据乱码问题时,需要分析数据的编码,而不能仅仅根据看到的表象来判断,因为数据展示出来可能已经发生了转换,所以看到的乱码也许实际数据是正确的。

2.1Oracle

在Oracle中,可以用dump查询数据的编码,使用lengthb查询字节的长度。

eg:select name, dump(name, 16),length(name), lengthb(name) from t_test;

结果: 好 Typ=1 Len=3:e5,a5,bd 1 3

2.2 MySQL

hex函数可以查询数据编码,length查询字节长度,char_length查询字符长度。

eg:select name, hex(name),char_length(name), length(name) from t_test;

结果:好 E5A5BD 1 1

3 客户端字符集

客户端字符集很重要,输入数据时,包括文本输入和屏幕输入等,客户端会以这个字符集来解析输入的文本,如果实际输入的字符集与客户端字符集不一致,那么就可能导致录入数据库的数据出现乱码;输出数据时,如果客户端字符集设置的不合适,就会导致展示或导出的数据是乱码。

3.1Oracle

通过环境变量NLS_LANG配置客户端字符集。

Linux下会话级设置方法:export NLS_LANG =AMERICAN_AMERICA.AL32UTF8

Windows下会话级设置方法:set NLS_LANG =AMERICAN_AMERICA.AL32UTF8

特别要注意一点,用SQLPLUS执行脚本时,NLS_LANG需要跟脚本文件的字符集保持一致。如果是UTF8,脚本需要保存为UTF8无BOM格式。

在用SQLLDR导入数据时,可以在控制文件中指定数据文件的字符集,如果不指定,那么就需要配置NLS_LANG:

load datacharacterset zhs16gbkinfile ‘data/Toneinfo.txt’truncateinto table toneinfofields terminated by ‘1’trailing nullcols(MUSICID, TONEID, ISRC, SPNAME, SPID, TONENAME, TONENAMELETTER)

3.2 MySQL

MySQL的客户端字符集参数有三个:

character_set_client:客户端来源数据使用的字符集

character_set_connection:连接层字符集

character_set_results:查询结果字符集

可以用set names ** 统一设置(会话级)。

set names utf8; 它相当于下面的三句指令:

set character_set_client = utf8;

set character_set_connection = utf8;

set character_set_results = utf8;

执行脚本文件时,客户端的字符集也要求和脚本文件字符集一致,而不是和数据库一致。经测试,utf8脚本有没有BOM都可以。

例如:创建一个脚本文件 f:\test.sql :

set names utf8;

truncate table t_test;

insert into t_test values(‘好’, 14);

commit;

如果脚本文件是UTF8的,那么客户端字符集就应该设置为UTF8。

本文分享自微信公众号 - 微光点亮星辰(SandTower),作者:铁杆粉丝

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Github_版本控制

    -Git是目前世界上最先进的分布式版本控制系统(没有之一)(*@ο@*) 哇~。

    聚沙成塔
  • Git 常用指令

    1. >> git config --global user.name <Your name>

    聚沙成塔
  • 《Head First 设计模式》 - 工厂方法模式

    设计模式在代码层级中,是让你在某种业务场景刚开始设计时,能让未来的相关需求扩展极为方便的一个思想。 简单的说,在一开始设计好,扩展是很方便的,设计模式就是这个功...

    聚沙成塔
  • MySQL连接字符集和校对规则

    实际的应用访问来说,存在着客户端和服务器之间交互的字符集和校对规则的设置。 对于客户端和服务器的交互操作,MySQL提供了3个不同的参数:character...

    秋白
  • Column count doesn't match value count at row 1

    数据库是mysql 向数据库insert数据的时候,一直显示这个错误,在网上查找了许多相关,大致的问题是: 1:所存储的数据与数据库表的字段类型定义...

    traffic
  • MySQL从删库到跑路(二)——MySQL字符集与乱码解析

    字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。 字符集(Character set)是多个字符的集合,字符集种类...

    良月柒
  • 2018-09-25 如何取得wap和web用户的真实IP

    https://blog.csdn.net/rogerjava/article/details/9418211

    Albert陈凯
  • 马化腾:腾讯只做去中心化赋能者

    构建货币未来,解密虚拟经济 专业玩家学习交流切磋未来 视频:马化腾谈微信QQ的创新与竞争,时长约27分6秒 12月6日,在广州举办的财富全球论坛上,腾讯公司创始...

    企鹅号小编
  • 从零开始学C++之从C到C++(二):引用、数组引用与指针引用、内联函数inline、四种类型转换运算符

    一、引用 (1)、引用是给一个变量起别名 定义引用的一般格式:类型  &引用名 = 变量名; 例如:int a=1;  int  &b=a;// b是a的别...

    s1mba
  • for循环异步操作问题小结

    在实际开发中,异步总是不可逃避的一个问题,尤其是Node.js端对于数据库的操作涉及大量的异步,同时循环又是不可避免的,想象一下一次一个数据组的存储数据库就是一...

    用户1515472

扫码关注云+社区

领取腾讯云代金券