专栏首页码字搬砖spark save parquet in impala dir not support add columns

spark save parquet in impala dir not support add columns

1.问题: 项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面,然后在 impala 中添加字段,报错. 例如:我将 spark 生成的 parquet 数据放到 impala 表 event_s_p186 相应的目录下,然后添加字段 aaa,字段顺序如下:

报错如下: 其中 day_id 为分区字段

2. 原因 impala( v3.2.0-cdh6.3.1 ) 默认的情况下是按照字段顺序读取数据的,添加了一个字段 aaa ,由于 parquet 中的数据并没有 aaa ,也没有 aaa 的占位符,它会默认把 day_id 当做 aaa.

3.解决办法: set PARQUET_FALLBACK_SCHEMA_RESOLUTION=name;

4.参考: Hive vs Impala Schema Loading Case: Reading Parquet Files PARQUET_FALLBACK_SCHEMA_RESOLUTION Query Option (CDH 5.8 or higher only)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一文搞定 Flink Job 提交全流程

    前面,我们已经分析了 一文搞定 Flink 消费消息的全流程 、写给大忙人看的 Flink Window原理 还有 一文搞定 Flink Checkpoint ...

    shengjk1
  • Flink是如何kafka读取数据的

    版权声明:本文为博主原创,欢迎转载,转载请标明出处 Blog Address:http://blog.csdn.net/jsjsjs1789 https...

    shengjk1
  • 解析 hashMap 源码之位运算

    当 n == 2^x 的时候,(n - 1) & hash 与 hash % n 是等价的,但 (n - 1) & hash ( 位运算 )效率更高,因为 % ...

    shengjk1
  • SOCKS5

    SOCKS5 是一个代理协议,它在使用TCP/IP协议通讯的前端机器和服务器机器之间扮演一个中介角色,使得内部网中的前端机器变得能够访问Inte...

    安包
  • 网站安全渗透测试检测认证登录分析

    圣诞节很快就要到了,对渗透测试的热情仍然有增无减。我们SINE安全在此为用户认证登录安全制定一个全面的检测方法和要点Json web token (JWT), ...

    技术分享达人
  • 网站渗透测试安全检测登录认证分析

    圣诞节很快就要到了,对渗透测试的热情仍然有增无减。我们SINE安全在此为用户认证登录安全制定一个全面的检测方法和要点Json web token (JWT), ...

    网站安全专家
  • 快速入门系列--WebAPI--01基础

    ASP.NET MVC和WebAPI已经是.NET Web部分的主流,刚开始时两个公用同一个管道,之后为了更加的轻量化(WebAPI是对WCF Restful的...

    用户1216676
  • 算法工程师-SQL进阶:强大的Case表达式

    相信大家对SQL都非常熟悉了,可能有些小伙伴会有疑问,算法工程师不是跑模型的吗?还需要学SQL?其实,很有必要!原因大概有以下几点吧:

    小萌哥
  • 爬虫基本原理完全梳理及常用解析方式

    什么是爬虫:即网络爬虫,可以理解为在网络上爬行的一只蜘蛛,互联网可以比喻为一张大网,一只蜘蛛在爬行时遇到了所需的资源就可以把它爬取下来。简单来说,爬虫就是请求网...

    企鹅号小编
  • 责任链模式(Chain of Responsibility)

    Avoid coupling the sender of a request to its receiver by giving more than one o...

    刘开心_1266679

扫码关注云+社区

领取腾讯云代金券