1 数据库支持的字符集
1.1Oracle
Oracle创建数据库时指定字符集,一般不能修改,整个数据库都是一个字符集。虽然还支持指定国家字符集,用于nvarchar2类型,不过很少用到。常用的字符集:AL32UTF8和ZHS16GBK,其中AL32UTF8与UTF8几乎是等价的。一个汉字在AL32UTF8中占三个字节,而在ZHS16GBK中占用两个字节。
1.2 MySQL
MySQL的字符集比较灵活,可以指定数据库、表和列的字符集,并且很容易修改数据库的字符集,不过修改字符集时已有的数据不会更新。
(1)支持的字符集:
查询支持的字符集:showcharacter set;
其中,defaultcollation表示默认的数据比较规则,_ci表示大小写不敏感。
(2)数据库的默认字符集:
show variables like ‘character_set_server’;
查询当前数据库的字符集:
show variables like ‘character_set_database’;
2 如何分析数据的字符集
在遇到数据乱码问题时,需要分析数据的编码,而不能仅仅根据看到的表象来判断,因为数据展示出来可能已经发生了转换,所以看到的乱码也许实际数据是正确的。
2.1Oracle
在Oracle中,可以用dump查询数据的编码,使用lengthb查询字节的长度。
eg:select name, dump(name, 16),length(name), lengthb(name) from t_test;
结果: 好 Typ=1 Len=3:e5,a5,bd 1 3
2.2 MySQL
hex函数可以查询数据编码,length查询字节长度,char_length查询字符长度。
eg:select name, hex(name),char_length(name), length(name) from t_test;
结果:好 E5A5BD 1 1
3 客户端字符集
客户端字符集很重要,输入数据时,包括文本输入和屏幕输入等,客户端会以这个字符集来解析输入的文本,如果实际输入的字符集与客户端字符集不一致,那么就可能导致录入数据库的数据出现乱码;输出数据时,如果客户端字符集设置的不合适,就会导致展示或导出的数据是乱码。
3.1Oracle
通过环境变量NLS_LANG配置客户端字符集。
Linux下会话级设置方法:export NLS_LANG =AMERICAN_AMERICA.AL32UTF8
Windows下会话级设置方法:set NLS_LANG =AMERICAN_AMERICA.AL32UTF8
特别要注意一点,用SQLPLUS执行脚本时,NLS_LANG需要跟脚本文件的字符集保持一致。如果是UTF8,脚本需要保存为UTF8无BOM格式。
在用SQLLDR导入数据时,可以在控制文件中指定数据文件的字符集,如果不指定,那么就需要配置NLS_LANG:
load datacharacterset zhs16gbkinfile ‘data/Toneinfo.txt’truncateinto table toneinfofields terminated by ‘1’trailing nullcols(MUSICID, TONEID, ISRC, SPNAME, SPID, TONENAME, TONENAMELETTER) |
---|
3.2 MySQL
MySQL的客户端字符集参数有三个:
character_set_client:客户端来源数据使用的字符集
character_set_connection:连接层字符集
character_set_results:查询结果字符集
可以用set names ** 统一设置(会话级)。
set names utf8; 它相当于下面的三句指令:
set character_set_client = utf8;
set character_set_connection = utf8;
set character_set_results = utf8;
执行脚本文件时,客户端的字符集也要求和脚本文件字符集一致,而不是和数据库一致。经测试,utf8脚本有没有BOM都可以。
例如:创建一个脚本文件 f:\test.sql :
set names utf8;
truncate table t_test;
insert into t_test values(‘好’, 14);
commit;
如果脚本文件是UTF8的,那么客户端字符集就应该设置为UTF8。