前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >spark save parquet in impala dir not support add columns

spark save parquet in impala dir not support add columns

作者头像
shengjk1
发布2020-03-30 12:01:12
4840
发布2020-03-30 12:01:12
举报
文章被收录于专栏:码字搬砖码字搬砖

1.问题: 项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面,然后在 impala 中添加字段,报错. 例如:我将 spark 生成的 parquet 数据放到 impala 表 event_s_p186 相应的目录下,然后添加字段 aaa,字段顺序如下:

在这里插入图片描述
在这里插入图片描述

报错如下: 其中 day_id 为分区字段

在这里插入图片描述
在这里插入图片描述

2. 原因 impala( v3.2.0-cdh6.3.1 ) 默认的情况下是按照字段顺序读取数据的,添加了一个字段 aaa ,由于 parquet 中的数据并没有 aaa ,也没有 aaa 的占位符,它会默认把 day_id 当做 aaa.

3.解决办法: set PARQUET_FALLBACK_SCHEMA_RESOLUTION=name;

4.参考: Hive vs Impala Schema Loading Case: Reading Parquet Files PARQUET_FALLBACK_SCHEMA_RESOLUTION Query Option (CDH 5.8 or higher only)

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-03-28 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
专用宿主机
专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档