前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从CSV文件导入Hive出现中文乱码问题解决

从CSV文件导入Hive出现中文乱码问题解决

作者头像
sparkexpert
发布2022-05-07 14:03:23
1.2K0
发布2022-05-07 14:03:23
举报
文章被收录于专栏:大数据智能实战

关于HIVE中文乱码问题的解决办法,网上有很多帖子,然而很多都是基于LINUX终端显示字符的修改,其实上对于一些条件下的HIVE中文乱码问题是无法解决的,如从CSV文件导入到HIVE中出现的中文乱码问题。

大家都知道,HIVE原生的字符编码是采用UTF-8方式的,这是支持中文的。然而在从ORACLE导出CSV文件,注入到HIVE表中的时候,就发现输入时出现中文乱码。按照HIVE中文乱码的解决思路(基于系统字符编码的修改方式)总是没有成功。

后来考虑到HIVE将数据是存放在HDFS上的,并以序列化的方式存在,因此应该考虑HDFS中文乱码的问题,这一查,资料还不少。也看到了核心的问题所在: hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。 

考虑到这个问题,于是想着在HIVE中序列化的时候需要指定一下字符编码,终于找到相关的解决思路,这是HIVE issue解决办法中找到的。https://issues.apache.org/jira/browse/HIVE-7142。

依照这个文档的说明,对指定的表进行设置,即设置序列化编码为GBK,以WINDOW拷贝导入的数据编码相匹配。

代码语言:javascript
复制
ALTER TABLE ** SET SERDEPROPERTIES ('serialization.encoding'='GBK'); 
代码语言:javascript
复制
通过这样设置,果然实现一直困扰多时的HIVE中文乱码问题。
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2015-12-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档