前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hive中文乱码排查及解决方法

Hive中文乱码排查及解决方法

原创
作者头像
码客说
发布2023-08-11 10:58:03
2K0
发布2023-08-11 10:58:03
举报
文章被收录于专栏:码客

前言

关于中文乱码问题,我们可以从以下几个方面进行考虑:

  1. 判断Hive的所依赖的Mysql元数据库的编码格式是否是UTF-8 需要判断hive元数据库Mysql中是否设置了编码格式以及表属性的编码。
  2. 判断Hive表的存储格式是否是UTF-8: 如果Hive表的存储格式不是UTF-8,也会导致中文乱码。
  3. 判断输入的数据,其编码格式是否是中文字符集UTF-8: Hive默认使用UTF-8编码,如果输入的中文字符集与UTF-8不一致,就会出现乱码。 比如通过JDBC的方式连接,其是否设置了编码格式为UTF-8

表操作

删除表

代码语言:javascript
复制
 drop table t_user03;

创建表设置编码和注释

代码语言:javascript
复制
 CREATE TABLE t_user03 (
   id INT COMMENT 'ID',
   name STRING COMMENT '姓名'
 )
 COMMENT '用户信息表';

查看表中字段注释

代码语言:javascript
复制
 desc t_user03;

查看表和字段注释

代码语言:javascript
复制
 use zdb;
 describe formatted t_user03;

元数据库编码(Mysql)

配置编码

查看配置编码

代码语言:javascript
复制
 show VARIABLES like 'char%'

如图

image-20230811103253801
image-20230811103253801

如果不是可以修改配置文件

进入 etc目录下打开 my.cnf 文件 ,对 my.cnf 添加以下语句:

代码语言:javascript
复制
 [client]
 default-character-set=utf8mb4
 [mysqld]
 default-storage-engine=INNODB
 character-set-server=utf8mb4
 collation-server=utf8_general_ci

属性编码

在 Mysql 修改Hive元数据表注释和字段注释的编码为 utf-8 在Hive的元数据库(MySQL)中运行: 修改表字段注解和表注解

代码语言:javascript
复制
 alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
 alter table TABLE_PARAMS modify column PARAM_VALUE varchar(1000) character set utf8;

修改分区字段注解

代码语言:javascript
复制
 alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(1000) character set utf8;

修改索引注解

代码语言:javascript
复制
 alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(1000) character set utf8;

Hive连接MySQL编码

在 Hive 的配置文件 hive-site.xml 中,我们可以通过指定字符集编码来解决中文乱码问题。

以下是一个示例:

代码语言:javascript
复制
 <property>
     <name>javax.jdo.option.ConnectionURL</name>
     <value>jdbc:mysql://localhost:3306/metastore?createDatabaseIfNotExist=true&amp;useUnicode=true&amp;characterEncoding=UTF-8</value>
     <description>database username for metastore</description>
 </property>

我们通过设置 useUnicode=truecharacterEncoding=UTF-8 来指定使用 UTF-8 字符集编码。

Hive 输出打印编码

我们通过设置 hive.cli.encoding 参数的值为 UTF-8 来指定字符集编码。这个参数可用于指定各种 CLI 输出数据的字符集编码,例如控制台输出、日志和报告等。

在 hive-site.xml 配置文件中,也可以通过以下两个参数来指定字符集编码:

代码语言:javascript
复制
 <property>
   <name>hive.cli.print.header</name>
   <value>true</value>
   <description>Whether to print the names of the columns in query output.</description>
 </property>
 <property>
   <name>hive.cli.encoding</name>
   <value>UTF-8</value>
   <description>Character-set encoding for various CLI output data such as console output, logs, reports.</description>
 </property>
 <property>
   <name>hive.charset</name>
   <value>utf8</value>
   <description>The character set encoding to use for data read/write operations.</description>
 </property>

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 表操作
  • 元数据库编码(Mysql)
    • 配置编码
      • 属性编码
      • Hive连接MySQL编码
      • Hive 输出打印编码
      相关产品与服务
      云数据库 MySQL
      腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档